微信扫码
添加专属顾问
我要投稿
探索大模型思维链的革命性突破,把握AI技术的新趋势。 核心内容: 1. DeepSeek-R1引领的思维链技术热潮 2. 大模型数学与逻辑能力的提升挑战 3. 思维链在实际应用中的潜力与前景
offer捷报
新年继续收到学员好消息!恭喜学员拿下科大讯飞,杭州某自动驾驶公司及东京某公司大模型岗offer!
随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~
思维链最早是在预训练模型中涌现出来的现象。人们发现,仅仅只是在模型解数学题的时候,要求它 think step by step,模型就能极为显著地改善其做数学题的正确率。
这个现象在最初是让很多人感到相当震撼的,和 In-context learning(大模型有能力看懂任务指示和示例,在不进行训练的情况下,直接学会在训练时没遇到过的新任务)一道成为大模型智能涌现的标志之一。
大模型的数学能力以及逻辑能力差,是所有和它们对话过的人都能发现的一个问题。
这个问题严重影响了大模型落地赚钱的可能,因为人们普遍不敢信任说话没逻辑的大模型能做出什么正确的决策。
于是,提升大模型数学能力,被所有做基础模型的公司当作了第一目标。那么自然会有人想要强化思维链,看看有没有办法能够把大模型的数学能力给做上去。
一个很简单的想法是,模型 think step by step 就像人类思考问题、并且用草稿纸写下过程那样,这里面有假设、演绎、反思、纠错等等。
既然人类这样做可以有效做对数学题,那大模型应该也可以?于是问题就转化为了如何让大模型学会正确地思考。
第一个证明这件事有用的是 OpenAI 的 o1 系列模型。在此之前,OpenAI 已经炒作了很久的 Q* 以及“草莓”,让人猜想下一个模型强化的地方。而在 o1-preview 之后,便掀起了复现 o1 的竞赛。
大部分题目中提到的公司(如 kimi、qwen、天工)都早就开始了这方面的探索,并且在 DeepSeek-R1 发布前就已经有思维链模型发布,只不过效果没做到 DeepSeek-R1 这么好。
那么怎么强化思维链复现 o1 呢?主要有以下四条路线:
基于过程监督的强化学习
就是说,本来我们让模型 think step by step 它就可以写出一些过程的,但这些过程大抵是不太对的。
那我们就像人类的老师改学生作业一样,仔细看看过程,看看是哪一步做错了,对于做错的那一步扣分;做对的那一步加分。
这个路线所面临的核心问题是:
1、怎么去界定步骤?毕竟打分是以步骤来进行的。但是每次解题的过程都不一定能和标答对上,于是得分点就不好判断了。
2、谁来判定哪个过程是正确的?理想情况是老师能仔细阅读每一个步骤,如果想错了就扣分,如果做对了就给分。但是在当时大家手上并没有一个数学非常好的模型能做到这一点。
代表性的工作,比如 OpenAI 的 Let's verify step by step,就是用过程监督的办法来强化思维链,取得了一定效果。
蒙特卡洛树搜索( MCTS)
这也是个强化学习的经典算法,当初阿尔法狗就是用了这个算法在围棋中打爆了人类的。
如果把解数学题看作是一个在迷宫中搜索正确路径的过程,那么就可以引入这个算法。
在搜索中,需要准确评估当前这条路径到底看上去合不合理(状态价值有多少,状态价值可以看作是当前期望能拿到的奖励)。
这个路线所面临的核心问题:
1、把以文字为主的数学题抽象成迷宫,怎么做?毕竟无论是题目还是解答过程都是文字,怎么对这些连续的文字划分成分段的过程?怎么清晰地把所有下一步可能的过程或者结果抽象成有限的节点?
2、假如我们已经把数学问题抽象成了一个迷宫,怎么判断当前这条路径好不好?谁有能力来做这样的判断?
这一类工作代表作有微软的 rStar,也取得了一定的效果。
监督微调
既然原先大模型在预训练的时候要预测下一个字符是什么,那么我们收集一堆思维过程给大模型,让它们照葫芦画瓢,没准就有用呢?
毕竟一开始的预训练模型就能通过 think step by step 来改善正确率,当然有理由认为我塞更多思维链的数据进去,能进一步改善正确率。
这个路线所面临的核心问题是:并没有那么多思维过程数据能给到大模型。
几乎所有的教科书、教辅书都只会把正确过程给印到答案上,而不会把错误的过程给印上去。
但很多时候我们希望模型在想错的时候能稍微多想一步、反思一下,至少能纠正那些看起来明显不对的错误,所以这种思维数据得从头收集。
1、可以让已有的预训练大模型 think step by step 然后筛选出得到正确结果的那些样本。
但有人观察到某些大模型的 think step by step 是装模做样分析一通,但实际上给出的结果和它的分析并不符合。换句话说,这样收集到的过程并不一定可靠。
2、也可以召集一堆学生把自己解题时脑袋里的碎碎念给写下来。但是很显然这样做的成本很高,毕竟脑袋里的碎碎念这种东西全部写下来要花的时间可不短。尽管语音输入可以稍微缓解这个问题,但数学公式还是没法语音输入的。
3、蒸馏 OpenAI o1 (preview/mini)。但是 OpenAI 并不开放思维链,而且对任何妄图诱导模型说出自己思维过程的用户都进行严厉打击。
这一类工作的代表作有很多,比如 DeepSeek-R1 蒸馏出来的那些 Qwen 和 Llama 小模型。
在这之前也有很多模型,并且报告说自己的模型能达到 OpenAI o1 preview 的水平,那大抵是用了这个方法,效果也确实很不错。
只要真的收集到了很多思维链数据,小模型就真的照葫芦画瓢学会思考。
基于规则的强化学习
在过程监督以及 MCTS 两种方法中,都会面临怎么去对过程进行拆分、怎么去对过程中的某一步(正确性或者未来预期的正确性)进行打分的问题。
有人感到这件事实在是过于困难了,等于是手动往解题这件事上加“结构”(见《苦涩的教训》)。所以,他们打算只看结果,不看过程,让模型自由发挥。
这条路线面临的问题是,没什么人对这件事情有信心。毕竟,你只关心结果,那你怎么知道,模型会按照你期望的方式获得正确的结果呢?
1、模型可能一直都做不对题,从而摆烂。就算做对了,那也是侥幸对的。
2、模型可能找到一些其他的办法稍微多做对几道题,比如背答案,或者找一些逻辑上完全没有关联的规律。总之模型看上去不像是能自己学会思考的样子。
3、想想就觉得这事很难。要是这能成,那我干脆直接设立一个目标,让模型去给我赚钱,那模型就能真的学会怎么赚钱了?这就 AGI 了?这条路线事实上也挺难,很多人也尝试过,但没调通,放弃了。
这条路线的代表作,自然是 DeepSeek-R1、Kimi-k1.5。当然我们现在知道了,OpenAI 的 o 系列也是这条路线训练出来的——这件事很难,但真的能成,而且效果非常好。
在 DeepSeek-R1 出来之后,基本上就只剩下第三和第四条路线了(因为它们的效果最好,而且既然有人能做出来,那自己做不出来肯定是没做对,只要多试试就好了)。
那么以后的大模型是不是得标配思维链呢?基本上是的。GPT-4.5 是 OpenAI 公司发布的最后一个非思维链大模型,以后该公司的所有模型都会具有思维链能力。
思维链是一个能以最小的代价,而非常显著提升模型智力水平(逻辑能力、解题能力、代码能力)的技术,此外还有一些其他方面的好处,不做白不做。
链接:https://www.zhihu.com/question/13837448936
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-08
2025-03-08
2025-03-07
2025-03-07
2025-03-05
2025-03-05
2025-03-05
2025-03-04