微信扫码
添加专属顾问
我要投稿
草稿链技术革新,引领LLM推理新纪元。 核心内容: 1. 草稿链(CoD)提示技术及其性能优势 2. 与思维链(CoT)提示的对比分析 3. 草稿链在降低推理成本和延迟中的应用前景
推理型 LLM 是当今人工智能研究的热门话题。
我们从最初的 GPT-1 一路走来,发展到像 Grok-3 这样的高级推理器。
这段历程非同凡响,期间发现了一些非常重要的推理方法。
其中之一就是思维链(CoT)提示(Few-shot 和 Zero-shot),它引领了我们今天所看到的 LLM 推理革命 的大部分。
令人兴奋的是,来自 Zoom Communications 的研究人员现在发布了一种更优的技术。
这项技术被称为草稿链(CoD)提示,在准确性上超越了 CoT 提示,在回答查询时使用的推理 token 数量低至总量的 7.6%。
当使用直接回答(Standard)、思维链(CoT)和草稿链(CoD)提示 Claude 3.5 Sonnet 解决不同推理领域任务时,准确性和 Token 使用量的比较
对于目前非常冗长、需要大量计算时间且延迟高的推理 LLM 来说,这是一个巨大的胜利,因为高延迟是许多现实世界中时间关键型应用的瓶颈。
本文将深入探讨草稿链(CoD)提示的工作原理,以及如何使用它使你的 LLM 比以往任何时候都更准确、更节省 token。
研究人员不断在 LLM 中发现新的行为。
Transformers 引导我们走向了生成式预训练 Transformer 或 GPT,我们很快发现将其扩展到 GPT-2(15 亿参数)使其表现得像一个无监督多任务学习器(无需在特定任务数据集上进行监督学习/微调即可执行多项任务)。
随着进一步扩展到 GPT-3(1750 亿参数),人们发现该模型只需在输入提示中提供少量示例(Few-shot Prompting)就能快速适应新任务并表现良好。
随后发现,将问题解决分解为中间推理步骤,并提示大型语言模型(LLM)生成这些步骤,可以在算术、常识和符号推理任务中取得最先进的性能。
这种方法被称为思维链(CoT)提示。
标准提示和思维链提示示例(图片来自 ArXiv 研究论文 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models')
继 CoT 之后,很快发现 LLM 是 Zero-shot 推理器。
与原始的 CoT 提示方法不同,它们不需要通过 few-shot
推理示例来提示以获得更好的性能。
只需在提示中添加短语 'Let's think step by step' 就可以让它们在解决问题时进行逐步推理。
这种方法被称为零样本思维链提示(Zero-shot Chain of Thought Prompting)。
标准 Zero-shot 和 Few-shot 提示、原始 CoT 提示(表示为“(b) Few-shot-CoT”)以及 Zero-shot CoT 提示之间的比较(图片来自 ArXiv 研究论文 'Large Language Models are Zero-Shot Reasoners')
研究人员随后意识到,链式推理和朝着答案进行贪婪解码(greedy decoding)是不够的。
复杂的推理任务可能有多个推理路径可以达到正确答案,如果多条路径指向同一个答案,我们就可以确信最终答案是正确的。
这催生了一种新的解码策略,称为自洽性(Self-Consistency),它通过采样模型生成多个推理路径,并从中选择最一致的答案。
CoT 提示中的贪婪解码(Greedy Decoding)与自洽性(Self-Consistency)的对比(图片来自 ArXiv 研究论文 'Self-Consistency Improves Chain of Thought Reasoning in Language Models')
沿着这种在解决问题时考虑多条推理路径的方法,思维树(Tree-of-Thoughts)(ToT) 框架被提出,它使用树状的思维过程来探索解空间。
思维树(Tree-of-Thought)框架(图片来自 ArXiv 研究论文 'Large Language Model Guided Tree-of-Thought')
它使用称为 "Thoughts" 的语言序列作为解决问题时的中间步骤。这些步骤通过带有前瞻(lookahead)和必要时回溯(backtracking)的搜索算法进行评估和探索。
各种推理方法的比较(图片来自 ArXiv 研究论文 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models')
树状架构被图状架构所取代,从而产生了 思维图(Graph-of-Thoughts)框架,以更好地建模解空间。
思维图(Graph-of-Thought)与其他推理方法的比较(图片来自 ArXiv 研究论文 'Graph of Thoughts: Solving Elaborate Problems with Large Language Models')
但这还不是全部!
提示并不是帮助 LLM 更好推理的唯一方法,还有许多其他技术,其简要概述可在此处找到。
探索推理空间是一项计算成本高昂的任务,会增加响应延迟。
为了减少延迟,引入了一种名为思维骨架(Skeleton-of-Thought, SoT) 的变通方法,该方法首先引导 LLM 生成答案的骨架/大纲。
然后,它进行并行的 API 调用/批量解码(batched decoding),以并行方式完成每个骨架点的内容。
思维骨架 (SoT) 与标准解码的比较概述(图片来自 ArXiv 研究论文,标题为 'Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation')
推理模型也可能会对简单的问题想太多,生成不必要的推理标记,导致查询到响应时间过长。
关于问题“2 加 3 的答案是什么?”生成的标记(图片来自 ArXiv 研究论文,标题为 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs')
QwQ-32-B-Preview 模型为了解决这个简单的 2 加 3 的问题而进行推理,这难道不疯狂吗?
QwQ-32-B-Preview 对一个简单的算术问题想太多(图片来自 ArXiv 研究论文,标题为 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs')
研究人员试图通过 限制推理标记预算 来解决这个问题,但 LLM 通常无法遵守这一点。
还使用了一个额外的 LLM 来根据不同问题的复杂性在回答之前动态估计标记预算,但这进一步增加了响应延迟。
具有估计和提示功能的标记预算感知 LLM 推理 (TALE) 概述(图片来自 ArXiv 研究论文,标题为 'Token-Budget-Aware LLM Reasoning')
我们能否将所有这些见解结合起来,并以某种方式将它们简化成一种单一的方法?
回归基础,思维链(Chain-of-Thought, CoT) 是一种非常出色的提示方法,用于提升大语言模型(LLM)的推理能力。
然而,这种方法很冗长,LLM 在得出答案之前会生成数千个推理 Token。
这与人类思考和推理的方式截然不同。
我们在思考时,通常不会用极其冗长的语言进行推理,而是记下最关键的中间点(草稿)。
这就是 草稿链(Chain-of-Draft, CoD)提示法 的灵感来源。
它只是要求模型逐步思考,并将每个推理步骤限制在最多五个词以内。
为了确保模型理解这一点,研究人员手动编写了此类草稿链的少样本示例,并将其放入提示中。
令人惊讶的是,这种限制并未以任何方式强制执行,模型只是将此作为一般性指导原则接受提示。
这与标准的少样本提示不同,后者在提示中给出查询-响应对,并要求模型 直接 返回最终答案,无需任何推理或解释。
这也不同于思维链提示,后者在提示的查询-响应对中给出了 中间推理步骤,并要求模型回答问题。
下面图片更好地展示了这些方法之间的差异,图中要求一个 LLM 解决一个简单的算术问题。
为了评估 CoD 提示法,研究人员使用上述三种方法对 GPT-4o 和 Claude 3.5 Sonnet 进行了提示。
下图中显示了针对每种提示方法给予这些模型的系统提示。
标准、CoT 和 CoD 提示法的系统提示
在算术推理 GSM8K 数据集 上,CoD 达到了 91% 的准确率,同时使用的 Token 比 CoT 少 80%,在没有显著准确率损失的情况下降低了延迟(对于 GPT-4o,CoD 为 91.1%,而 CoT 为 95.4%)。
不同提示技术在 GSM8K 上的评估结果
在 BIG-bench 任务 中的日期理解和体育理解的常识推理测试中,CoD 显著降低了延迟和 Token 使用量,同时准确率与 CoT 持平或有所提高。
BIG-bench 任务 上的日期理解评估结果
请注意,在体育理解任务中,当与 Claude 3.5 Sonnet 一起使用时,CoD 如何令人印象深刻地将 CoT 提示的平均输出 Token 数从 189.4 减少到 14.3(减少了 92.4%)!
BIG-bench 任务 上的体育理解评估结果
最后,在评估硬币翻转(预测一系列翻转后的最终硬币状态)的符号推理任务时,CoD 取得了 100% 的准确率,并且使用的 Token 明显少于其他方法。
研究人员创建的硬币翻转数据集中的问题示例
研究人员创建的包含 250 个测试用例的自定义数据集上的硬币翻转评估结果
这些结果绝对是惊人的!
CoD 提示法以最小的延迟实现了极高的准确率,缩短了响应时间,有利于对时间/计算要求严格的应用。
这类 CoD 数据也可用于训练 LLM 以更好地推理(基于 DeepSeek-R1 强化学习训练方法),使它们更快、更便宜、更高效、更具可扩展性。
我对这一切感到非常兴奋!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-20
2024-06-29
2023-06-08
2024-09-17
2024-06-27
2024-06-26
2024-07-09
2024-07-12
2024-09-16
2024-06-14
2025-02-25
2025-02-21
2025-01-05
2025-01-04
2024-12-15
2024-11-15
2024-11-01
2024-10-29