支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Chain-of-Draft(草稿链)是提示技术的新王者

发布日期:2025-03-26 10:30:33 浏览次数: 1545 来源:知觉之门
推荐语

草稿链技术革新,引领LLM推理新纪元。

核心内容:
1. 草稿链(CoD)提示技术及其性能优势
2. 与思维链(CoT)提示的对比分析
3. 草稿链在降低推理成本和延迟中的应用前景

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

深入探讨新颖的草稿链(CoD)提示技术,它在性能上超越了思维链(CoT)提示,同时以前所未有的方式降低了 LLM 的推理成本和延迟。

推理型 LLM 是当今人工智能研究的热门话题。

我们从最初的 GPT-1 一路走来,发展到像 Grok-3 这样的高级推理器。

这段历程非同凡响,期间发现了一些非常重要的推理方法。

其中之一就是思维链(CoT)提示(Few-shot  Zero-shot),它引领了我们今天所看到的 LLM 推理革命 的大部分。

令人兴奋的是,来自 Zoom Communications 的研究人员现在发布了一种更优的技术。

这项技术被称为草稿链(CoD)提示,在准确性上超越了 CoT 提示,在回答查询时使用的推理 token 数量低至总量的 7.6%。

当使用直接回答(Standard)、思维链(CoT)和草稿链(CoD)提示 Claude 3.5 Sonnet 解决不同推理领域任务时,准确性和 Token 使用量的比较

对于目前非常冗长、需要大量计算时间且延迟高的推理 LLM 来说,这是一个巨大的胜利,因为高延迟是许多现实世界中时间关键型应用的瓶颈。

本文将深入探讨草稿链(CoD)提示的工作原理,以及如何使用它使你的 LLM 比以往任何时候都更准确、更节省 token。

但首先,让我们谈谈提示技术(Prompting)

研究人员不断在 LLM 中发现新的行为。

Transformers 引导我们走向了生成式预训练 Transformer 或 GPT,我们很快发现将其扩展到 GPT-2(15 亿参数)使其表现得像一个无监督多任务学习器(无需在特定任务数据集上进行监督学习/微调即可执行多项任务)。

随着进一步扩展到 GPT-3(1750 亿参数),人们发现该模型只需在输入提示中提供少量示例(Few-shot Prompting)就能快速适应新任务并表现良好。

随后发现,将问题解决分解为中间推理步骤,并提示大型语言模型(LLM)生成这些步骤,可以在算术、常识和符号推理任务中取得最先进的性能。

这种方法被称为思维链(CoT)提示

标准提示和思维链提示示例(图片来自 ArXiv 研究论文 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models')

继 CoT 之后,很快发现 LLM 是 Zero-shot 推理器

与原始的 CoT 提示方法不同,它们不需要通过 few-shot 推理示例来提示以获得更好的性能。

只需在提示中添加短语 'Let's think step by step' 就可以让它们在解决问题时进行逐步推理。

这种方法被称为零样本思维链提示(Zero-shot Chain of Thought Prompting)

标准 Zero-shot 和 Few-shot 提示、原始 CoT 提示(表示为“(b) Few-shot-CoT”)以及 Zero-shot CoT 提示之间的比较(图片来自 ArXiv 研究论文 'Large Language Models are Zero-Shot Reasoners')

研究人员随后意识到,链式推理和朝着答案进行贪婪解码(greedy decoding)是不够的。

复杂的推理任务可能有多个推理路径可以达到正确答案,如果多条路径指向同一个答案,我们就可以确信最终答案是正确的。

这催生了一种新的解码策略,称为自洽性(Self-Consistency),它通过采样模型生成多个推理路径,并从中选择最一致的答案。

CoT 提示中的贪婪解码(Greedy Decoding)与自洽性(Self-Consistency)的对比(图片来自 ArXiv 研究论文 'Self-Consistency Improves Chain of Thought Reasoning in Language Models')

提示架构崭露头角

沿着这种在解决问题时考虑多条推理路径的方法,思维树(Tree-of-Thoughts)(ToT) 框架被提出,它使用树状的思维过程来探索解空间。

思维树(Tree-of-Thought)框架(图片来自 ArXiv 研究论文 'Large Language Model Guided Tree-of-Thought')

它使用称为 "Thoughts" 的语言序列作为解决问题时的中间步骤。这些步骤通过带有前瞻(lookahead)和必要时回溯(backtracking)的搜索算法进行评估和探索。

各种推理方法的比较(图片来自 ArXiv 研究论文 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models')

树状架构被图状架构所取代,从而产生了 思维图(Graph-of-Thoughts)框架,以更好地建模解空间。

思维图(Graph-of-Thought)与其他推理方法的比较(图片来自 ArXiv 研究论文 'Graph of Thoughts: Solving Elaborate Problems with Large Language Models')

但这还不是全部!

提示并不是帮助 LLM 更好推理的唯一方法,还有许多其他技术,其简要概述可在此处找到

但是延迟问题呢?

探索推理空间是一项计算成本高昂的任务,会增加响应延迟。

为了减少延迟,引入了一种名为思维骨架(Skeleton-of-Thought, SoT) 的变通方法,该方法首先引导 LLM 生成答案的骨架/大纲。

然后,它进行并行的 API 调用/批量解码(batched decoding),以并行方式完成每个骨架点的内容。

思维骨架 (SoT) 与标准解码的比较概述(图片来自 ArXiv 研究论文,标题为 'Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation')

推理模型也可能会对简单的问题想太多,生成不必要的推理标记,导致查询到响应时间过长。

关于问题“2 加 3 的答案是什么?”生成的标记(图片来自 ArXiv 研究论文,标题为 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs')

QwQ-32-B-Preview 模型为了解决这个简单的 2 加 3 的问题而进行推理,这难道不疯狂吗?

QwQ-32-B-Preview 对一个简单的算术问题想太多(图片来自 ArXiv 研究论文,标题为 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs')

研究人员试图通过 限制推理标记预算 来解决这个问题,但 LLM 通常无法遵守这一点。

使用了一个额外的 LLM 来根据不同问题的复杂性在回答之前动态估计标记预算,但这进一步增加了响应延迟。

具有估计和提示功能的标记预算感知 LLM 推理 (TALE) 概述(图片来自 ArXiv 研究论文,标题为 'Token-Budget-Aware LLM Reasoning')

我们能否将所有这些见解结合起来,并以某种方式将它们简化成一种单一的方法?

"草稿链"(Chain-of-Draft)提示法来了

回归基础,思维链(Chain-of-Thought, CoT) 是一种非常出色的提示方法,用于提升大语言模型(LLM)的推理能力。

然而,这种方法很冗长,LLM 在得出答案之前会生成数千个推理 Token。

这与人类思考和推理的方式截然不同。

我们在思考时,通常不会用极其冗长的语言进行推理,而是记下最关键的中间点(草稿)。

这就是 草稿链(Chain-of-Draft, CoD)提示法 的灵感来源。

它只是要求模型逐步思考,并将每个推理步骤限制在最多五个词以内。

为了确保模型理解这一点,研究人员手动编写了此类草稿链的少样本示例,并将其放入提示中。

令人惊讶的是,这种限制并未以任何方式强制执行,模型只是将此作为一般性指导原则接受提示。

这与标准的少样本提示不同,后者在提示中给出查询-响应对,并要求模型 直接 返回最终答案,无需任何推理或解释。

这也不同于思维链提示,后者在提示的查询-响应对中给出了 中间推理步骤,并要求模型回答问题。

下面图片更好地展示了这些方法之间的差异,图中要求一个 LLM 解决一个简单的算术问题。

CoD 提示法的表现如何?

为了评估 CoD 提示法,研究人员使用上述三种方法对 GPT-4o  Claude 3.5 Sonnet 进行了提示。

下图中显示了针对每种提示方法给予这些模型的系统提示。

标准、CoT 和 CoD 提示法的系统提示

在算术推理 GSM8K 数据集 上,CoD 达到了 91% 的准确率,同时使用的 Token 比 CoT 少 80%,在没有显著准确率损失的情况下降低了延迟(对于 GPT-4o,CoD 为 91.1%,而 CoT 为 95.4%)。

不同提示技术在 GSM8K 上的评估结果

 BIG-bench 任务 中的日期理解和体育理解的常识推理测试中,CoD 显著降低了延迟和 Token 使用量,同时准确率与 CoT 持平或有所提高。

BIG-bench 任务 上的日期理解评估结果

请注意,在体育理解任务中,当与 Claude 3.5 Sonnet 一起使用时,CoD 如何令人印象深刻地将 CoT 提示的平均输出 Token 数从 189.4 减少到 14.3(减少了 92.4%)!

BIG-bench 任务 上的体育理解评估结果

最后,在评估硬币翻转(预测一系列翻转后的最终硬币状态)的符号推理任务时,CoD 取得了 100% 的准确率,并且使用的 Token 明显少于其他方法。

研究人员创建的硬币翻转数据集中的问题示例

研究人员创建的包含 250 个测试用例的自定义数据集上的硬币翻转评估结果

这些结果绝对是惊人的!

CoD 提示法以最小的延迟实现了极高的准确率,缩短了响应时间,有利于对时间/计算要求严格的应用。

这类 CoD 数据也可用于训练 LLM 以更好地推理(基于 DeepSeek-R1 强化学习训练方法),使它们更快、更便宜、更高效、更具可扩展性。

我对这一切感到非常兴奋!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询