AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


增强大模型的推理能力:从思维链到连续思维链(上)
发布日期:2025-01-06 12:46:38 浏览次数: 1589 来源:寒武纪人工智能


1    
为什么要写此文?
    收到许多朋友的建议,说现在Agent智能体很火,公众号需要赶紧写几篇有关智能体的文章,蹭蹭热度。但我一直觉得要做好智能体,大模型的推理能力必须足够靠谱才行,否则Agent就是建在沙滩上的华丽宫殿。作为一名理工男,不把大模型推理能力的形成机制悟透,就去琢磨智能体应用,就会有一种牙缝里塞了一根肉丝,你老想去舔的感觉。
    增强大模型的推理能力,一直是工程师们孜孜以求的方向。强大准确的推理能力,不仅是迈向通用人工智能的关键,也是工程应用落地成功的关键。今年9月,OpenAI推出新款AI大模型o1,大大地增强了ChatGPT推理能力,解决复杂问题能力远超GPT-4o。12月初,OpenAI在发布会上又展示了一种叫“强化微调”的算法,开发者只需提供最低「几十个」高质量的任务数据,就能实现领域专家模型的定制,震撼全场。
    本文将从技术发展史的角度,详细剖析一下增强大模型推理能力的技术发展演变过程。之所以选取这个角度来写,主要有以下三个原因:
    一是,本公众号设立之初所订立的原则,要以科普大众为目标,文章尽量不使用数学符号。
    二是,“鸡蛋从来就不是从石头蹦出来的”。每一项重大的技术研究成果都是继承发展前人成果而来的。要讲清楚OpenAI的“强化微调”,就必须从更远的思维链、自动思维链、强化学习。。。等等技术讲起。
    三是,研究技术演进史,能让你以一种更高维度来理解技术本身,并预测技术未来的发展趋势。
    本文比较长,可能要分几篇才能写完。关注本公众号,以免找不到回家的路。
2
缘起
    ChatGPT自诞生时,以其流畅的对话能力吸引人们的目光。然而,人们很快就发现,在一些需要推理的场合,大模型开始一本正经地胡说八道。一个经典的例子是:
    :单词 "strawberry" 中有几个字母r?
    模型回答:单词 "strawberry" 中有两个字母 "r"。
    人们衡量大模型推理能力一般包括以下几个方面:算术推理、常识推理、逻辑推理和符号推理等等。算术推理的例子如:罗杰有5个网球。他买了2罐网球,每罐有3个网球。他现在有多少个网球?常识推理的例子如:萨米想去人多的地方。他可能会去哪里?选项:(a) 赛道 (b) 人口密集的地区 (c) 沙漠 (d) 公寓 (e) 路障。逻辑推理的例子如: 一枚硬币正面朝上。梅贝尔翻转了硬币。莎隆达没有翻转硬币。硬币还是正面朝上吗?
    推理能力是迈向高级智能的基础。增强大模型推理能力的道路在哪里呢?
3
开山之作
    在探索增进大模型的推理能力的方面,首先登场的是2022年的一位本科毕业的年轻人Jason Wei。在其论文里首次提出大模型“思维链”(Chain-of-Thought,CoT)的概念。
    他发现:对于一个较为复杂的推理问题,在提示词中,通过向大语言模型展示一些少量的样例,在样例中分解求解的过程步骤,大模型在回答这个复杂的推理问题时,也会遵循类似的求解的过程步骤,并且较为准确地得到最终答案。
    在他之前,人们也发现了大模型具有少量样本(few-shot)学习的能力。即提示词中展示少量样本,大模型能够依照样本的示例执行任务。思维链(CoT)提示与少量样本(few-shot)提示的区别在于少量样本(few-shot)提示只展示了最终结果,而思维链(CoT)提示既展示了最终结果,也展示了中间步骤。少量样本只展示最终结果不展示中间步骤,在面对复杂推理问题时,不足以引导到大模型得出正确的最终答案。
    很显然,这种“思维链”提示技术有个明显的局限,那就是写提示词的人,需要知道如何分解解题步骤。一方面,人工编写的思维链提示词质量参差不齐,难以稳定地保证效果。另一方面,一些复杂的任务,需要复杂的思维链(如一些数学证明题),普通人不一定写得出来。如果写得出这种提示词,人工已经基本上把问题解决了,再来让大模型生成答案,似乎有点鸡肋,意义不大了(相当于人工已经把解题步骤一步一步详细地都拆解告诉了模型,只差最终答案没写了)。
4
探索
    零样本思维链(Zero-Shot CoT)
    当人们发现“思维链”可以提高大模型的推理能力后,许多人转向了这方面的研究。Kojima等人(2022)首先发现并提出了“零样本思维链(Zero-Shot CoT)”。与Jason Wei的思维链提示不同,因为它不需要少样本示例,只需要在提示词中添加“让我们一步一步地思考”,或类似的文本。大模型就会自动生成解题步骤(尽管这些步骤有时是错误的)。这也是大模型一个很重要的现象。这意味着,大模型具有一定的分解任务步骤的能力。
    至于为何大模型具有此种能力,直到目前为止大家都还未达成共识。一般认为这是大模型“涌现”所带来的能力。
    通过提示词“让我们一步一步地思考”,存在的局限是,自动生成的解题步骤,存在着一些错误,尤其是在参数量较小的模型中。
    自动思维链(Auto-CoT)
    现在我们了解大模型有两个特性了:一是:通过思维链提示的方式,可以引导大模型完成需要复杂推理的任务;二是:通过提示词“让我们一步一步地思考”,大模型就会自动生成解题步骤。这两个特性都各自存在着局限性。
    在这种情况下,结合了大模型上述两种特性,Zhang et al. (2022)提出了一种叫做自动思维链(Auto-CoT)的技术。
    Auto-CoT提出自动构建带有问题和推理链的样本演示,由两个部分组成:先是问题聚类。将给定问题划分成几个聚类,从每个聚类中选择一个有代表性的问题,利用零样本思维链(Zero-Shot CoT)为每个问题生成推理链。例如:一共有K个聚类,会抽取K个问题,用提示词“让我们一步一步地思考”,生成K套思维链步骤。当向大模型提出一个新问题后,系统将K套思维链步骤作为提示词和新问题一并输入大模型,并完成作答。
    自动思维链(Auto-CoT)就像一位经验丰富的高考辅导培训老师,先分析历年高考试卷,归纳出知识点和题型,针对每个知识点和题型再归纳出一套解题步骤和方法(即每个知识点和题型一套思维链)。作为考生的大模型,带着这K套解题步骤和方法,来解答每一道题。
    很显然,自动思维链(Auto-CoT)的优势在于,不需要手工分解解题步骤,不需要编写思维链提示词。这是一个很大的进步。但是,这种技术的也有一个明显的局限:需要对问题集划分成几个聚类,对每个聚类都要生成一组思维链提示词,并且这些提示词还要一并输入到大模型里。聚类太少,思维链的多样性不够;聚类太多,提示词太长,效率太低。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询