我要投稿

Chain-of-Draft（草稿链）是提示技术的新王者

发布日期：2025-03-26 10:30:33 浏览次数： 1742 作者：知觉之门

深入探讨新颖的草稿链（CoD）提示技术，它在性能上超越了思维链（CoT）提示，同时以前所未有的方式降低了 LLM 的推理成本和延迟。

推理型 LLM 是当今人工智能研究的热门话题。

我们从最初的 GPT-1 一路走来，发展到像 Grok-3 这样的高级推理器。

这段历程非同凡响，期间发现了一些非常重要的推理方法。

其中之一就是思维链（CoT）提示（Few-shot 和 Zero-shot），它引领了我们今天所看到的 LLM 推理革命的大部分。

令人兴奋的是，来自 Zoom Communications 的研究人员现在发布了一种更优的技术。

这项技术被称为草稿链（CoD）提示，在准确性上超越了 CoT 提示，在回答查询时使用的推理 token 数量低至总量的 7.6%。

当使用直接回答（Standard）、思维链（CoT）和草稿链（CoD）提示 Claude 3.5 Sonnet 解决不同推理领域任务时，准确性和 Token 使用量的比较

对于目前非常冗长、需要大量计算时间且延迟高的推理 LLM 来说，这是一个巨大的胜利，因为高延迟是许多现实世界中时间关键型应用的瓶颈。

本文将深入探讨草稿链（CoD）提示的工作原理，以及如何使用它使你的 LLM 比以往任何时候都更准确、更节省 token。

但首先，让我们谈谈提示技术（Prompting）

研究人员不断在 LLM 中发现新的行为。

Transformers 引导我们走向了生成式预训练 Transformer 或 GPT，我们很快发现将其扩展到 GPT-2（15 亿参数）使其表现得像一个无监督多任务学习器（无需在特定任务数据集上进行监督学习/微调即可执行多项任务）。

随着进一步扩展到 GPT-3（1750 亿参数），人们发现该模型只需在输入提示中提供少量示例（Few-shot Prompting）就能快速适应新任务并表现良好。

随后发现，将问题解决分解为中间推理步骤，并提示大型语言模型（LLM）生成这些步骤，可以在算术、常识和符号推理任务中取得最先进的性能。

这种方法被称为思维链（CoT）提示。

标准提示和思维链提示示例（图片来自 ArXiv 研究论文 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models')

继 CoT 之后，很快发现 LLM 是 Zero-shot 推理器。

与原始的 CoT 提示方法不同，它们不需要通过 few-shot 推理示例来提示以获得更好的性能。

只需在提示中添加短语 'Let's think step by step' 就可以让它们在解决问题时进行逐步推理。

这种方法被称为零样本思维链提示（Zero-shot Chain of Thought Prompting）。

标准 Zero-shot 和 Few-shot 提示、原始 CoT 提示（表示为“(b) Few-shot-CoT”）以及 Zero-shot CoT 提示之间的比较（图片来自 ArXiv 研究论文 'Large Language Models are Zero-Shot Reasoners')

研究人员随后意识到，链式推理和朝着答案进行贪婪解码（greedy decoding）是不够的。

复杂的推理任务可能有多个推理路径可以达到正确答案，如果多条路径指向同一个答案，我们就可以确信最终答案是正确的。

这催生了一种新的解码策略，称为自洽性（Self-Consistency），它通过采样模型生成多个推理路径，并从中选择最一致的答案。

CoT 提示中的贪婪解码（Greedy Decoding）与自洽性（Self-Consistency）的对比（图片来自 ArXiv 研究论文 'Self-Consistency Improves Chain of Thought Reasoning in Language Models')

提示架构崭露头角

沿着这种在解决问题时考虑多条推理路径的方法，思维树（Tree-of-Thoughts）(ToT) 框架被提出，它使用树状的思维过程来探索解空间。

思维树（Tree-of-Thought）框架（图片来自 ArXiv 研究论文 'Large Language Model Guided Tree-of-Thought')

它使用称为 "Thoughts" 的语言序列作为解决问题时的中间步骤。这些步骤通过带有前瞻（lookahead）和必要时回溯（backtracking）的搜索算法进行评估和探索。

各种推理方法的比较（图片来自 ArXiv 研究论文 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models')

树状架构被图状架构所取代，从而产生了 思维图（Graph-of-Thoughts）框架，以更好地建模解空间。

思维图（Graph-of-Thought）与其他推理方法的比较（图片来自 ArXiv 研究论文 'Graph of Thoughts: Solving Elaborate Problems with Large Language Models')

但这还不是全部！

提示并不是帮助 LLM 更好推理的唯一方法，还有许多其他技术，其简要概述可在此处找到。

但是延迟问题呢？

探索推理空间是一项计算成本高昂的任务，会增加响应延迟。

为了减少延迟，引入了一种名为思维骨架（Skeleton-of-Thought, SoT）的变通方法，该方法首先引导 LLM 生成答案的骨架/大纲。

然后，它进行并行的 API 调用/批量解码（batched decoding），以并行方式完成每个骨架点的内容。

思维骨架 (SoT) 与标准解码的比较概述（图片来自 ArXiv 研究论文，标题为 'Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation'）

推理模型也可能会对简单的问题想太多，生成不必要的推理标记，导致查询到响应时间过长。

关于问题“2 加 3 的答案是什么？”生成的标记（图片来自 ArXiv 研究论文，标题为 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs'）

QwQ-32-B-Preview 模型为了解决这个简单的 2 加 3 的问题而进行推理，这难道不疯狂吗？

QwQ-32-B-Preview 对一个简单的算术问题想太多（图片来自 ArXiv 研究论文，标题为 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs'）

研究人员试图通过限制推理标记预算来解决这个问题，但 LLM 通常无法遵守这一点。

还使用了一个额外的 LLM 来根据不同问题的复杂性在回答之前动态估计标记预算，但这进一步增加了响应延迟。

具有估计和提示功能的标记预算感知 LLM 推理 (TALE) 概述（图片来自 ArXiv 研究论文，标题为 'Token-Budget-Aware LLM Reasoning'）

我们能否将所有这些见解结合起来，并以某种方式将它们简化成一种单一的方法？

"草稿链"（Chain-of-Draft）提示法来了

回归基础，思维链（Chain-of-Thought, CoT）是一种非常出色的提示方法，用于提升大语言模型（LLM）的推理能力。

然而，这种方法很冗长，LLM 在得出答案之前会生成数千个推理 Token。

这与人类思考和推理的方式截然不同。

我们在思考时，通常不会用极其冗长的语言进行推理，而是记下最关键的中间点（草稿）。

这就是 草稿链（Chain-of-Draft, CoD）提示法 的灵感来源。

它只是要求模型逐步思考，并将每个推理步骤限制在最多五个词以内。

为了确保模型理解这一点，研究人员手动编写了此类草稿链的少样本示例，并将其放入提示中。

令人惊讶的是，这种限制并未以任何方式强制执行，模型只是将此作为一般性指导原则接受提示。

这与标准的少样本提示不同，后者在提示中给出查询-响应对，并要求模型直接返回最终答案，无需任何推理或解释。

这也不同于思维链提示，后者在提示的查询-响应对中给出了 中间推理步骤，并要求模型回答问题。

下面图片更好地展示了这些方法之间的差异，图中要求一个 LLM 解决一个简单的算术问题。

CoD 提示法的表现如何？

为了评估 CoD 提示法，研究人员使用上述三种方法对 GPT-4o 和 Claude 3.5 Sonnet 进行了提示。

下图中显示了针对每种提示方法给予这些模型的系统提示。

标准、CoT 和 CoD 提示法的系统提示

在算术推理 GSM8K 数据集上，CoD 达到了 91% 的准确率，同时使用的 Token 比 CoT 少 80%，在没有显著准确率损失的情况下降低了延迟（对于 GPT-4o，CoD 为 91.1%，而 CoT 为 95.4%）。

不同提示技术在 GSM8K 上的评估结果

在 BIG-bench 任务中的日期理解和体育理解的常识推理测试中，CoD 显著降低了延迟和 Token 使用量，同时准确率与 CoT 持平或有所提高。

BIG-bench 任务上的日期理解评估结果

请注意，在体育理解任务中，当与 Claude 3.5 Sonnet 一起使用时，CoD 如何令人印象深刻地将 CoT 提示的平均输出 Token 数从 189.4 减少到 14.3（减少了 92.4%）！

BIG-bench 任务上的体育理解评估结果

最后，在评估硬币翻转（预测一系列翻转后的最终硬币状态）的符号推理任务时，CoD 取得了 100% 的准确率，并且使用的 Token 明显少于其他方法。

研究人员创建的硬币翻转数据集中的问题示例

研究人员创建的包含 250 个测试用例的自定义数据集上的硬币翻转评估结果

这些结果绝对是惊人的！

CoD 提示法以最小的延迟实现了极高的准确率，缩短了响应时间，有利于对时间/计算要求严格的应用。

这类 CoD 数据也可用于训练 LLM 以更好地推理（基于 DeepSeek-R1 强化学习训练方法），使它们更快、更便宜、更高效、更具可扩展性。

我对这一切感到非常兴奋！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-17

提示词培训课—Part1

2025-04-16

这段Prompt提示词生成的自我介绍卡，让别人3年后还记得你

2025-04-16

思维链（Chain of Thought）是什么？有什么价值？怎么用？

2025-04-16

大模型Prompt工程：从理论到实践

2025-04-16

重磅！OpenAI 官方发布 GPT-4.1 最强提示词指南，AI 能力全面升级！

2025-04-15

提示词(prompt)那些事

2025-04-15

高级提示工程

2025-04-14

小白也能写出专业文生图Prompt，超棒的提示词框架+AI生图工具分享。

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

如何选择AI Agent框架？五种主流AI Agent框架对比

2024-08-20

一文讲透AI Prompt提示词工程 (上）

2024-06-29

Chat GPT不知怎么问？102种行业的Prompt提示词大全来了

2023-06-08

10分钟打造小红书？| 42个Cursor神级提示词（全网最新最全）

2024-09-17

更好的提示词？快试试这个方法来套取大模型的系统提示词吧

2024-06-27

使用ChatGPT显著提升学术写作水平的实用攻略，附顶级学术提示词指令

2024-06-26

提示词最佳实践（一）：Prompt框架

2024-07-09

玩转大模型的第一步——提示词(Prompt)工程【抛砖篇】

2024-07-12

豆包、kimi 这些大模型系统提示词里写了啥？(一)

2024-09-16

图解DSPy：Prompt的时代终结者？！

2024-06-14

大家都在问

思维链（Chain of Thought）是什么？有什么价值？怎么用？

2025-04-16

为什么提示工程，可以驾驭大模型？

2025-04-11

Claude 3.7 核心提示词曝光｜最懂提示词的大模型公司，现在怎么写 Prompt？

2025-02-25

我是如何基于 DeepSeek-R1 构建出高效学习Agent的？

2025-02-21

李继刚：AI都这么智能了，为什么还要研究写「提示词」？

2025-01-05

Claude 团队内部分享！什么时候该用Workflow和Agent，如何用简单模式构建有效的 LLM Agent ?

2025-01-04

李继刚 | 当我们讲Prompt时我们到底在说什么？

2024-12-15

AI对话的日常思考：当我们在讨论提示词时，到底在纠结什么？

2024-11-15

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB