微信扫码
与创始人交个朋友
我要投稿
以 ChatGPT 为代表的大语言模型在问题回答、文稿撰写、代码生成、数学解题等任务上展现出了强大的能力,引发了研究人员广泛思考如何利用这些模型开发各种类型的应用,并修正它们在推理能力、获取外部知识、使用工具及执行复杂任务等方面的不足。此外,研究人员还致力于如何将文本、图像、视频、音频等多种信息结合起来,实现多模态大模型,这也成了一个热门研究领域。鉴于大语言模型的参数量庞大,以及针对每个输入的计算时间较长,优化模型在推理阶段的执行速度和用户响应时长也变得至关重要。
随着语言模型规模的不断扩大,其也具备了丰富的知识和强大的语境学习能力。然而,仅仅通过扩大语言模型的规模,并不能显著提升推理(Reasoning)能力,如常识推理、逻辑推理、数学推理等。通过示例(Demonstrations)或者明确指导模型在面对问题时如何逐步思考,促使模型在得出最终答案之前生成中间的推理步骤,可以显著提升其在推理任务上的表现。这种方法被称为思维链提示(Chain-of-Thought Prompting)
同样地,面对复杂任务或问题时,大语言模型可以展现出良好的规划(Planning)能力。通过引导模型首先将复杂的问题分解为多个较为简单的子问题,然后逐一解决这些子问题,可使模型得出最终解答,这种策略被称为由少至多提示(Least-to-Most Prompting)
语言模型在推理能力方面的表现一直未能令人满意,一些研究人员认为这可能是因为此前的模式是直接让模型输出结果,而忽略了其中的思考过程。人类在解决包括数学应用题在内的、涉及多步推理的问题时,通常会逐步书写整个解题过程的中间步骤,最终得出答案。如果明确告知模型先输出中间的推理步骤,再根据生成的步骤得出答案,是否能够提升其推理表现呢?针对这个问题,Google Brain 的研究人员提出了思维链(Chain-of-Thought,CoT)提示方式,除了将问题输入模型,还将类似题目的解题思路和步骤输入模型,使得模型不仅输出最终结果,还输出中间步骤,从而提升模型的推理能力。研究人员甚至提出了零样本思维链(Zero-shot Chain-of-Thought,Zero-shot CoT)提示方式,只需要简单地告知模型“让我们一步一步思考(Let’s thinkstep by step)”,模型就能够自动输出中间步骤。思维链提示(Chain-of-Thought Prompting)方式如图所示,标准少样本提示(StandardFew-shot Prompting)技术在给模型的输入里面提供了 k 个[问题,答案] 对,以及当前问题,由模型输出答案。
实验发现,使用由不同人员编写的符号推理范例在准确率上存在高达28.2%的差异,而改变范例的顺序在大多数任务中则只产生了不到2% 的变化。因此,如果能够自动构建具有良好问题和推理链的范例,则可以大幅度提升推理效果。
研究发现,仅通过搜索相似问题并将其对应的推理过程作为范例对于效果提升而言作用十分有限,但是问题和推理链示例的多样性对于自动构建范例至关重要。因此,上海交通大学和Amazon Web Services 的研究人员提出了Auto-CoT[174] 方法,通过采集具有多样性的问题和生成推理链来构建范例。Auto-CoT 算法的整体过程如图所示。Auto-CoT 包括以下两个主要阶段。
还有一些研究人员提出了对思维链提示的改进方法,例如从训练样本中选取推理最复杂的样本来形成示例样本,被称为Complex-CoT
也有研究者指出可以从问题角度考虑优化思维链提示,通过将复杂的、模糊的、低质量的问题优化为模型更易理解的、高质量的问题,进一步提升思维链提示的性能,这一方法被称为Self-Polish
当面对复杂任务或问题时,人类通常倾向于将其转化为多个更容易解决的子任务/子问题,并逐一解决它们,得到最终想要的答案或者结果。这种能力就是通常所说的任务分解(Task Decomposition)能力。基于这种问题解决思路,研究人员们提出了由少至多提示(Least-to-Most Prompting)方法。这种方法试图利用大语言模型的规划能力,将复杂问题分解为一系列的子问题并依次解决它们。由少至多提示流程如图所示,主要包含两个阶段:问题分解阶段和逐步解决子问题阶段。在问题分解阶段中,模型的输入包括k×[原始问题,子问题列表] 的组合,以及要测试的原始问题;在逐步解决子问题阶段中,模型的输入包括k×[原始问题,m×(子问题,子答案)] 元组,以及要测试的原始问题和当前要解决的子问题。
代码展示
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-08
仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o
2025-01-08
OA集成AI大模型简单实践-我把大模型集成到致远OA中系列
2025-01-08
手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化
2025-01-08
不只 5090,英伟达还发布了最小的「AI 超算」与最大的世界模型
2025-01-07
OpenAI O3揭秘:特性、创新及与O1的较量
2025-01-07
大模型推理引擎国产化思考和实践
2025-01-07
AI Agents的崛起,创业公司及巨头的agents布局版图
2025-01-06
何宝宏:大语言模型上半场已进入“垃圾时间”
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-04-11
2024-07-18