AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek-R1后,大模型为何集体‘死磕’思维链?

发布日期:2025-03-05 21:41:50 浏览次数: 1640 来源:丁师兄大模型
推荐语

探索大模型思维链的革命性突破,把握AI技术的新趋势。

核心内容:
1. DeepSeek-R1引领的思维链技术热潮
2. 大模型数学与逻辑能力的提升挑战
3. 思维链在实际应用中的潜力与前景

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家






图片


offer捷报

图片

新年继续收到学员好消息!恭喜学员拿下科大讯飞,杭州某自动驾驶公司及东京某公司大模型岗offer!


随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~

自从 DeepSeek-R1 把思维链玩出圈,国内 AI 圈突然开窍了——Kimi、通义千问这些大厂模型火速跟上,连马斯克的 Grok-3 都连夜装上了“推理外挂”。以前国内模型就知道堆参数,现在终于换个玩法:死磕“思维链”。
那么为什么 DeepSeek-R1 之后的大模型都开始做思维链?

思维链最早是在预训练模型中涌现出来的现象。人们发现,仅仅只是在模型解数学题的时候,要求它 think step by step,模型就能极为显著地改善其做数学题的正确率。

这个现象在最初是让很多人感到相当震撼的,和 In-context learning(大模型有能力看懂任务指示和示例,在不进行训练的情况下,直接学会在训练时没遇到过的新任务)一道成为大模型智能涌现的标志之一。

大模型的数学能力以及逻辑能力差,是所有和它们对话过的人都能发现的一个问题。

这个问题严重影响了大模型落地赚钱的可能,因为人们普遍不敢信任说话没逻辑的大模型能做出什么正确的决策。

于是,提升大模型数学能力,被所有做基础模型的公司当作了第一目标。那么自然会有人想要强化思维链,看看有没有办法能够把大模型的数学能力给做上去。

一个很简单的想法是,模型 think step by step 就像人类思考问题、并且用草稿纸写下过程那样,这里面有假设、演绎、反思、纠错等等。

既然人类这样做可以有效做对数学题,那大模型应该也可以?于是问题就转化为了如何让大模型学会正确地思考。

第一个证明这件事有用的是 OpenAI 的 o1 系列模型。在此之前,OpenAI 已经炒作了很久的 Q* 以及“草莓”,让人猜想下一个模型强化的地方。而在 o1-preview 之后,便掀起了复现 o1 的竞赛。

大部分题目中提到的公司(如 kimi、qwen、天工)都早就开始了这方面的探索,并且在 DeepSeek-R1 发布前就已经有思维链模型发布,只不过效果没做到 DeepSeek-R1 这么好。

那么怎么强化思维链复现 o1 呢?主要有以下四条路线:

01

基于过程监督的强化学习

就是说,本来我们让模型 think step by step 它就可以写出一些过程的,但这些过程大抵是不太对的。

那我们就像人类的老师改学生作业一样,仔细看看过程,看看是哪一步做错了,对于做错的那一步扣分;做对的那一步加分。

这个路线所面临的核心问题是:

1、怎么去界定步骤?毕竟打分是以步骤来进行的。但是每次解题的过程都不一定能和标答对上,于是得分点就不好判断了。

2、谁来判定哪个过程是正确的?理想情况是老师能仔细阅读每一个步骤,如果想错了就扣分,如果做对了就给分。但是在当时大家手上并没有一个数学非常好的模型能做到这一点。

代表性的工作,比如 OpenAI 的 Let's verify step by step,就是用过程监督的办法来强化思维链,取得了一定效果。

02

蒙特卡洛树搜索(  MCTS)

这也是个强化学习的经典算法,当初阿尔法狗就是用了这个算法在围棋中打爆了人类的。

如果把解数学题看作是一个在迷宫中搜索正确路径的过程,那么就可以引入这个算法。

在搜索中,需要准确评估当前这条路径到底看上去合不合理(状态价值有多少,状态价值可以看作是当前期望能拿到的奖励)。

这个路线所面临的核心问题:

1、把以文字为主的数学题抽象成迷宫,怎么做?毕竟无论是题目还是解答过程都是文字,怎么对这些连续的文字划分成分段的过程?怎么清晰地把所有下一步可能的过程或者结果抽象成有限的节点?

2、假如我们已经把数学问题抽象成了一个迷宫,怎么判断当前这条路径好不好?谁有能力来做这样的判断?

这一类工作代表作有微软的 rStar,也取得了一定的效果。

03

监督微调

既然原先大模型在预训练的时候要预测下一个字符是什么,那么我们收集一堆思维过程给大模型,让它们照葫芦画瓢,没准就有用呢?

毕竟一开始的预训练模型就能通过 think step by step 来改善正确率,当然有理由认为我塞更多思维链的数据进去,能进一步改善正确率。

这个路线所面临的核心问题是:并没有那么多思维过程数据能给到大模型。

几乎所有的教科书、教辅书都只会把正确过程给印到答案上,而不会把错误的过程给印上去。

但很多时候我们希望模型在想错的时候能稍微多想一步、反思一下,至少能纠正那些看起来明显不对的错误,所以这种思维数据得从头收集。

1、可以让已有的预训练大模型 think step by step 然后筛选出得到正确结果的那些样本。

但有人观察到某些大模型的 think step by step 是装模做样分析一通,但实际上给出的结果和它的分析并不符合。换句话说,这样收集到的过程并不一定可靠。

2、也可以召集一堆学生把自己解题时脑袋里的碎碎念给写下来。但是很显然这样做的成本很高,毕竟脑袋里的碎碎念这种东西全部写下来要花的时间可不短。尽管语音输入可以稍微缓解这个问题,但数学公式还是没法语音输入的。

3、蒸馏 OpenAI o1 (preview/mini)。但是 OpenAI 并不开放思维链,而且对任何妄图诱导模型说出自己思维过程的用户都进行严厉打击。

这一类工作的代表作有很多,比如 DeepSeek-R1 蒸馏出来的那些 Qwen 和 Llama 小模型。

在这之前也有很多模型,并且报告说自己的模型能达到 OpenAI o1 preview 的水平,那大抵是用了这个方法,效果也确实很不错。

只要真的收集到了很多思维链数据,小模型就真的照葫芦画瓢学会思考。

04

基于规则的强化学习

在过程监督以及 MCTS 两种方法中,都会面临怎么去对过程进行拆分、怎么去对过程中的某一步(正确性或者未来预期的正确性)进行打分的问题。

有人感到这件事实在是过于困难了,等于是手动往解题这件事上加“结构”(见《苦涩的教训》)。所以,他们打算只看结果,不看过程,让模型自由发挥。

这条路线面临的问题是,没什么人对这件事情有信心。毕竟,你只关心结果,那你怎么知道,模型会按照你期望的方式获得正确的结果呢?

1、模型可能一直都做不对题,从而摆烂。就算做对了,那也是侥幸对的。

2、模型可能找到一些其他的办法稍微多做对几道题,比如背答案,或者找一些逻辑上完全没有关联的规律。总之模型看上去不像是能自己学会思考的样子。

3、想想就觉得这事很难。要是这能成,那我干脆直接设立一个目标,让模型去给我赚钱,那模型就能真的学会怎么赚钱了?这就 AGI 了?这条路线事实上也挺难,很多人也尝试过,但没调通,放弃了。

这条路线的代表作,自然是 DeepSeek-R1、Kimi-k1.5。当然我们现在知道了,OpenAI 的 o 系列也是这条路线训练出来的——这件事很难,但真的能成,而且效果非常好。

在 DeepSeek-R1 出来之后,基本上就只剩下第三和第四条路线了(因为它们的效果最好,而且既然有人能做出来,那自己做不出来肯定是没做对,只要多试试就好了)。

那么以后的大模型是不是得标配思维链呢?基本上是的。GPT-4.5 是 OpenAI 公司发布的最后一个非思维链大模型,以后该公司的所有模型都会具有思维链能力。

思维链是一个能以最小的代价,而非常显著提升模型智力水平(逻辑能力、解题能力、代码能力)的技术,此外还有一些其他方面的好处,不做白不做。

链接:https://www.zhihu.com/question/13837448936

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询