我要投稿

DeepSeek-R1后，大模型为何集体‘死磕’思维链？

发布日期：2025-03-05 21:41:50 浏览次数： 1917 作者：丁师兄大模型

offer捷报

新年继续收到学员好消息！恭喜学员拿下科大讯飞，杭州某自动驾驶公司及东京某公司大模型岗offer！

随着DeepSeek爆火，面试中也越来越高频出现，因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练，Dual-Pipe等关键技术，力求做到全网最硬核的解析~

自从 DeepSeek-R1 把思维链玩出圈，国内 AI 圈突然开窍了——Kimi、通义千问这些大厂模型火速跟上，连马斯克的 Grok-3 都连夜装上了“推理外挂”。以前国内模型就知道堆参数，现在终于换个玩法：死磕“思维链”。

那么为什么 DeepSeek-R1 之后的大模型都开始做思维链？

思维链最早是在预训练模型中涌现出来的现象。人们发现，仅仅只是在模型解数学题的时候，要求它 think step by step，模型就能极为显著地改善其做数学题的正确率。

这个现象在最初是让很多人感到相当震撼的，和 In-context learning（大模型有能力看懂任务指示和示例，在不进行训练的情况下，直接学会在训练时没遇到过的新任务）一道成为大模型智能涌现的标志之一。

大模型的数学能力以及逻辑能力差，是所有和它们对话过的人都能发现的一个问题。

这个问题严重影响了大模型落地赚钱的可能，因为人们普遍不敢信任说话没逻辑的大模型能做出什么正确的决策。

于是，提升大模型数学能力，被所有做基础模型的公司当作了第一目标。那么自然会有人想要强化思维链，看看有没有办法能够把大模型的数学能力给做上去。

一个很简单的想法是，模型 think step by step 就像人类思考问题、并且用草稿纸写下过程那样，这里面有假设、演绎、反思、纠错等等。

既然人类这样做可以有效做对数学题，那大模型应该也可以？于是问题就转化为了如何让大模型学会正确地思考。

第一个证明这件事有用的是 OpenAI 的 o1 系列模型。在此之前，OpenAI 已经炒作了很久的 Q* 以及“草莓”，让人猜想下一个模型强化的地方。而在 o1-preview 之后，便掀起了复现 o1 的竞赛。

大部分题目中提到的公司（如 kimi、qwen、天工）都早就开始了这方面的探索，并且在 DeepSeek-R1 发布前就已经有思维链模型发布，只不过效果没做到 DeepSeek-R1 这么好。

那么怎么强化思维链复现 o1 呢？主要有以下四条路线：

基于过程监督的强化学习

就是说，本来我们让模型 think step by step 它就可以写出一些过程的，但这些过程大抵是不太对的。

那我们就像人类的老师改学生作业一样，仔细看看过程，看看是哪一步做错了，对于做错的那一步扣分；做对的那一步加分。

这个路线所面临的核心问题是：

1、怎么去界定步骤？毕竟打分是以步骤来进行的。但是每次解题的过程都不一定能和标答对上，于是得分点就不好判断了。

2、谁来判定哪个过程是正确的？理想情况是老师能仔细阅读每一个步骤，如果想错了就扣分，如果做对了就给分。但是在当时大家手上并没有一个数学非常好的模型能做到这一点。

代表性的工作，比如 OpenAI 的 Let's verify step by step，就是用过程监督的办法来强化思维链，取得了一定效果。

蒙特卡洛树搜索（ MCTS）

这也是个强化学习的经典算法，当初阿尔法狗就是用了这个算法在围棋中打爆了人类的。

如果把解数学题看作是一个在迷宫中搜索正确路径的过程，那么就可以引入这个算法。

在搜索中，需要准确评估当前这条路径到底看上去合不合理（状态价值有多少，状态价值可以看作是当前期望能拿到的奖励）。

这个路线所面临的核心问题：

1、把以文字为主的数学题抽象成迷宫，怎么做？毕竟无论是题目还是解答过程都是文字，怎么对这些连续的文字划分成分段的过程？怎么清晰地把所有下一步可能的过程或者结果抽象成有限的节点？

2、假如我们已经把数学问题抽象成了一个迷宫，怎么判断当前这条路径好不好？谁有能力来做这样的判断？

这一类工作代表作有微软的 rStar，也取得了一定的效果。

监督微调

既然原先大模型在预训练的时候要预测下一个字符是什么，那么我们收集一堆思维过程给大模型，让它们照葫芦画瓢，没准就有用呢？

毕竟一开始的预训练模型就能通过 think step by step 来改善正确率，当然有理由认为我塞更多思维链的数据进去，能进一步改善正确率。

这个路线所面临的核心问题是：并没有那么多思维过程数据能给到大模型。

几乎所有的教科书、教辅书都只会把正确过程给印到答案上，而不会把错误的过程给印上去。

但很多时候我们希望模型在想错的时候能稍微多想一步、反思一下，至少能纠正那些看起来明显不对的错误，所以这种思维数据得从头收集。

1、可以让已有的预训练大模型 think step by step 然后筛选出得到正确结果的那些样本。

但有人观察到某些大模型的 think step by step 是装模做样分析一通，但实际上给出的结果和它的分析并不符合。换句话说，这样收集到的过程并不一定可靠。

2、也可以召集一堆学生把自己解题时脑袋里的碎碎念给写下来。但是很显然这样做的成本很高，毕竟脑袋里的碎碎念这种东西全部写下来要花的时间可不短。尽管语音输入可以稍微缓解这个问题，但数学公式还是没法语音输入的。

3、蒸馏 OpenAI o1 (preview/mini)。但是 OpenAI 并不开放思维链，而且对任何妄图诱导模型说出自己思维过程的用户都进行严厉打击。

这一类工作的代表作有很多，比如 DeepSeek-R1 蒸馏出来的那些 Qwen 和 Llama 小模型。

在这之前也有很多模型，并且报告说自己的模型能达到 OpenAI o1 preview 的水平，那大抵是用了这个方法，效果也确实很不错。

只要真的收集到了很多思维链数据，小模型就真的照葫芦画瓢学会思考。

基于规则的强化学习

在过程监督以及 MCTS 两种方法中，都会面临怎么去对过程进行拆分、怎么去对过程中的某一步（正确性或者未来预期的正确性）进行打分的问题。

有人感到这件事实在是过于困难了，等于是手动往解题这件事上加“结构”（见《苦涩的教训》）。所以，他们打算只看结果，不看过程，让模型自由发挥。

这条路线面临的问题是，没什么人对这件事情有信心。毕竟，你只关心结果，那你怎么知道，模型会按照你期望的方式获得正确的结果呢？

1、模型可能一直都做不对题，从而摆烂。就算做对了，那也是侥幸对的。

2、模型可能找到一些其他的办法稍微多做对几道题，比如背答案，或者找一些逻辑上完全没有关联的规律。总之模型看上去不像是能自己学会思考的样子。

3、想想就觉得这事很难。要是这能成，那我干脆直接设立一个目标，让模型去给我赚钱，那模型就能真的学会怎么赚钱了？这就 AGI 了？这条路线事实上也挺难，很多人也尝试过，但没调通，放弃了。

这条路线的代表作，自然是 DeepSeek-R1、Kimi-k1.5。当然我们现在知道了，OpenAI 的 o 系列也是这条路线训练出来的——这件事很难，但真的能成，而且效果非常好。

在 DeepSeek-R1 出来之后，基本上就只剩下第三和第四条路线了（因为它们的效果最好，而且既然有人能做出来，那自己做不出来肯定是没做对，只要多试试就好了）。

那么以后的大模型是不是得标配思维链呢？基本上是的。GPT-4.5 是 OpenAI 公司发布的最后一个非思维链大模型，以后该公司的所有模型都会具有思维链能力。

思维链是一个能以最小的代价，而非常显著提升模型智力水平（逻辑能力、解题能力、代码能力）的技术，此外还有一些其他方面的好处，不做白不做。

链接：https://www.zhihu.com/question/13837448936

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-05-01

Agent2Agent 协议详解：Google 引领打造通用 AI 代理通信标准

2025-05-01

万字一手实测Prover-V2-671B数学证明模型

2025-04-30

o3 深度解读：OpenAI 终于发力 tool use，agent 产品危险了吗？

2025-04-30

深度解析OpenAI和Google智能体白皮书及背后两种路线｜大模型研究

2025-04-30

MCP入门指南：大模型时代的USB接口

2025-04-30

通俗易懂的梳理MCP的工作流程（以高德地图MCP为例）

2025-04-30

一文说明 Function Calling、MCP、A2A 的区别！

2025-04-30

MCP很好，但它不是万灵药｜一文读懂 MCP

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

o3 深度解读：OpenAI 终于发力 tool use，agent 产品危险了吗？

2025-04-30

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB