微信扫码
添加专属顾问
我要投稿
思维链(CoT:Chain of Thought)常常作为增强大模型推理能力的利器,
但大模型推理能力的提升多大程度上来自人为任务拆解?还是额外提示的Token激发了背后更强大的计算?
“让我们逐步思考:Transformer语言模型中的隐藏计算”[文献1] 发现了一个有趣的现象,
通过在思维链中添加无意义的中间Token(例如“……”)可以解决无中间Token时没法完成的较难的两个算法任务。
文献的结论是:添加额外Token就可以增强大模型推理,甚至可以与Token本身内容选择无关。
网友本就惊讶于著名提示词“让我们一步一步地想”(Let‘s think step by step)的神奇效果,
对本论文描述的“AI不依赖人类经验的token内容,隐藏自行推理”,就更觉得魔幻且担忧。
不过笔者发现,斯坦福谷歌等学者的预印论文,“思维链使Transformer能解决内在串行的问题”[文献2], 可以非常直观的用来解释文献1中揭示的现象!
文献2采用了类似文献1中的电路复杂度分析的方法,将Transformer看作一定深度的复杂电路,分析其可以解决的问题的复杂度。
电路复杂度分析用 TC0 表示可以通过一个固定深度的电路解决的计算问题,而足够长的思维链,能将Transformer的表达能力扩展到TC0之外。
文献结论:“从概念上讲,CoT赋予模型执行本质上串行计算的能力,这是Transformer所缺乏的,尤其是在深度较低的情况下。”
意思是文献1描述的“AI不依赖人类经验的token内容隐藏自行推理”,既不魔幻也不可怕,甚至可以说是Transformer内在缺陷导致的。
文献进一步论证,通过T步CoT,使用固定位精度和O(logn) 嵌入大小的固定深度Transformer可以解决任何可由大小为T的布尔电路解决的问题。
实证上,CoT的作用是,提高了低深度Transformer在内在串行问题上的表达能力。
笔者理解是,CoT 其实是引导了Transformer避免简单并行推理,而是通过串行的方式去一步步推理。
原理很直观,类似有向无环图DAG的处理,例如SQL数据查询,并不是所有的Access Plan DAG 中的算子都适合并行,有许多并行阻断算子 parallel blocker, 例如全局sort。
这是Transformer特有的现象吗?Mamba之类的潜力架构是否可以规避这个问题,优化zero-shot推理呢?
结合笔者的大模型数理原理的认知框架,可以这么看:LLM在范畴中采样,变分推理时,
串行处理,引入中间信息,加深LLM在范畴对象和态射中遍历的深度,逐步调整采样概率分布,实现更精确的推理;
并行处理,增加填充信息,在宽度上有机会影响采样的概率分布,进而影响最后的推理效果。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-03
Open R1 项目进展第三期
2025-04-03
最好用的OCR来了?Mistral AI OCR介绍
2025-04-03
2个百度T11推出超级智能体火爆硅谷!免费使用无需邀请码,靠AI搜索功底估值已破38亿
2025-04-02
Transformer到底解决什么问题?
2025-04-02
AI大模型的2种模型能力Function call 和ReAct
2025-04-02
Playwright + DeepSeek实战:如何让AI“看懂”网站页面内容?自动定位页面元素?
2025-04-02
AI Agents的未来是事件驱动的
2025-04-02
MCP 之后,软件行业的新蛋糕与新危机
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-02
2025-04-02
2025-04-01
2025-04-01
2025-04-01
2025-03-30
2025-03-30
2025-03-28