我要投稿

LLM CoT的工作原理

发布日期：2024-08-19 13:38:08 浏览次数： 2444

作者：清熙

微信搜一搜，关注“清熙”

思维链（CoT：Chain of Thought）常常作为增强大模型推理能力的利器，

但大模型推理能力的提升多大程度上来自人为任务拆解？还是额外提示的Token激发了背后更强大的计算？

“让我们逐步思考：Transformer语言模型中的隐藏计算”[文献1] 发现了一个有趣的现象，

通过在思维链中添加无意义的中间Token（例如“……”）可以解决无中间Token时没法完成的较难的两个算法任务。

文献的结论是：添加额外Token就可以增强大模型推理，甚至可以与Token本身内容选择无关。

网友本就惊讶于著名提示词“让我们一步一步地想”（Let‘s think step by step）的神奇效果，

对本论文描述的“AI不依赖人类经验的token内容，隐藏自行推理”，就更觉得魔幻且担忧。

不过笔者发现，斯坦福谷歌等学者的预印论文，“思维链使Transformer能解决内在串行的问题”[文献2]，可以非常直观的用来解释文献1中揭示的现象！

文献2采用了类似文献1中的电路复杂度分析的方法，将Transformer看作一定深度的复杂电路，分析其可以解决的问题的复杂度。

电路复杂度分析用 TC⁰ 表示可以通过一个固定深度的电路解决的计算问题，而足够长的思维链，能将Transformer的表达能力扩展到TC⁰之外。

文献结论：“从概念上讲，CoT赋予模型执行本质上串行计算的能力，这是Transformer所缺乏的，尤其是在深度较低的情况下。”

意思是文献1描述的“AI不依赖人类经验的token内容隐藏自行推理”，既不魔幻也不可怕，甚至可以说是Transformer内在缺陷导致的。

文献进一步论证，通过T步CoT，使用固定位精度和O(logn) 嵌入大小的固定深度Transformer可以解决任何可由大小为T的布尔电路解决的问题。

实证上，CoT的作用是，提高了低深度Transformer在内在串行问题上的表达能力。

笔者理解是，CoT 其实是引导了Transformer避免简单并行推理，而是通过串行的方式去一步步推理。

原理很直观，类似有向无环图DAG的处理，例如SQL数据查询，并不是所有的Access Plan DAG 中的算子都适合并行，有许多并行阻断算子 parallel blocker, 例如全局sort。

这是Transformer特有的现象吗？Mamba之类的潜力架构是否可以规避这个问题，优化zero-shot推理呢？

结合笔者的大模型数理原理的认知框架，可以这么看：LLM在范畴中采样，变分推理时，

串行处理，引入中间信息，加深LLM在范畴对象和态射中遍历的深度，逐步调整采样概率分布，实现更精确的推理；

并行处理，增加填充信息，在宽度上有机会影响采样的概率分布，进而影响最后的推理效果。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-29

朋友做了一个AI产品后，我才发现这个赛道潜力巨大

2025-07-29

「All in AI」的 Shopify，分享了他们的全员 AI 落地实践，全是干货

2025-07-28

Anthropic内部团队的Claude Code实践启示

2025-07-28

迈向Agentic AI时代，百花齐放背后的三条主线 | 高榕 X 火山引擎

2025-07-28

谈几点 Qwen3-Coder 的使用体验

2025-07-28

一个Claude Code的远程遥控器

2025-07-28

AI应用之 MCP调用及SOC智能问数

2025-07-28

Cursor Meetup 杭州站分享实录：小团队如何用 AI 撑起万级日活产品？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

高效 Agents 构建指南

2025-05-23

SpringAI Alibaba实战文生图、聊天记忆功能

2025-06-01

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

AIGC合规落地全景图 | 如何做好AIGC数据合规

2025-06-07

精|知识探索新范式：深度研究Deep Research智能体全面综述，系统、方法与应用

2025-06-21

别再被MCP协议绕晕！一文搞懂连接流程与核心架构

2025-06-12

2025-05-20

大家都在问

Cursor Meetup 杭州站分享实录：小团队如何用 AI 撑起万级日活产品？

2025-07-28

独家｜对话夸克AI眼镜宋刚：如何把整个阿里巴巴塞进一副眼镜里？

2025-07-27

如何用 AI 翻译实现文档多语言支持的周级敏捷响应？

2025-07-27

面向 AI Agent 的搜索服务，小宿科技有机会成为百亿美金的新巨头吗？

2025-07-25

AI 基础知识从 0.3 到 0.4——如何选对深度学习模型？

2025-07-24

任务紧急，CodeBuddy是如何成为“第二双手”的？

2025-07-24

中国企业拥抱AI，为何仅9%实现显著价值？

2025-07-24

AI写代码的“上下文陷阱”：为什么AI总是写错？如何系统性解决？

2025-07-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB