推荐语
这是关于大语言模型推理能力提升的绝佳研究。
核心内容:
1. DeepSeek-R1 的诞生背景及面临的推理挑战
2. 后训练提升推理能力的手段
3. DeepSeek-R1 的创新之路及成果
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
在人工智能领域,大语言模型(LLMs)的迭代速度令人惊叹,从 Anthropic 的 Claude 到 Google 的 Gemini,再到 OpenAI 的 GPT 系列,AI 正在以前所未有的速度朝着通用人工智能(AGI)的目标迈进。而在这一进程中,推理能力的提升成为了各大 AI 研究机构竞相角逐的焦点。一、DeepSeek-R1 的诞生背景:推理能力提升的迫切需求
近年来,LLMs 在自然语言处理任务中表现出色,但在推理任务上仍存在诸多挑战。例如:
- • 复杂问题解答能力不足:在数学、编程、科学推理等需要复杂逻辑推理的任务中,LLMs 常常难以给出准确答案。
- • 推理过程不可解释:LLMs 的推理过程往往是一个“黑箱”,难以解释其决策过程,这限制了其在一些关键领域的应用。
- • 缺乏与人类价值观对齐:LLMs 可能会生成不符合社会价值观或有害的内容,这对其广泛应用构成了潜在风险。
为了解决这些问题,后训练(post-training) 成为了提升模型推理能力的重要手段。与预训练相比,后训练所需的计算资源相对较少,但可以显著提高模型在推理任务上的准确性,并使其更好地与人类价值观和社会规范对齐。
二、DeepSeek-R1 的创新之路:纯强化学习与冷启动数据相结合
DeepSeek-R1 的研发团队另辟蹊径,首次尝试仅使用强化学习(RL)来提升大语言模型的推理能力,并取得了令人瞩目的成果。
1. DeepSeek-R1-Zero:纯强化学习的突破
DeepSeek-R1-Zero 是 DeepSeek-R1 的基础版本,其最大特点在于完全摒弃了监督微调(SFT),仅依靠纯强化学习来训练模型。
- • 采用 GRPO 算法:为了降低 RL 训练成本,DeepSeek-R1-Zero 采用了一种名为组相对策略优化(GRPO) 的算法。该算法摒弃了传统 RL 中需要与策略模型大小相同的评论家模型,而是通过组分数来估计基线,从而降低了计算成本。
- • 基于规则的奖励机制:为了引导模型学习正确的推理过程,DeepSeek-R1-Zero 采用了一种基于规则的奖励机制,包括:
- • 准确性奖励:评估模型回答的正确性。例如,对于数学问题,模型需要以特定格式提供最终答案,以便进行可靠的规则验证。
- • 格式奖励:强制模型将推理过程放在
<think>
和 </think>
标签之间,以确保推理过程的清晰性。
训练结果令人振奋:
• 性能稳步提升:随着 RL 训练的进行,DeepSeek-R1-Zero 在 AIME 2024 基准测试中的平均通过率从最初的 15.6% 稳步提升至 71.0%,与 OpenAI-o1-0912 的性能相当。
- • 涌现出强大的推理能力:在 RL 训练过程中,DeepSeek-R1-Zero 展现出自我验证、反思等强大的推理行为,并能够生成长链式思维(CoT),这标志着 AI 推理能力研究的一个重要里程碑。
- • “顿悟时刻”的出现:在训练过程中,DeepSeek-R1-Zero 出现了令人惊叹的“顿悟时刻”,即模型学会了重新评估其初始方法,并分配更多的时间来思考问题。这种行为并非人为编程,而是模型在与 RL 环境交互过程中自发产生的。
然而,DeepSeek-R1-Zero 也面临着一些挑战,例如可读性差、语言混合等问题。为了解决这些问题,DeepSeek-R1 应运而生。
**2. DeepSeek-R1:冷启动数据与多阶段训练的融合
DeepSeek-R1 在 DeepSeek-R1-Zero 的基础上进行了改进,引入了冷启动数据和多阶段训练流程,以进一步提升推理性能并增强模型的可读性。
(1) 冷启动阶段:
- • 收集高质量数据:为了避免 RL 训练初期的不稳定性,DeepSeek-R1 收集了数千条长链式思维数据对模型进行微调。这些数据通过以下方式生成:
- • 收集 DeepSeek-R1-Zero 输出的可读格式结果,并通过人工注释进行后处理。
- • 提高可读性:与 DeepSeek-R1-Zero 相比,冷启动数据具有更好的可读性,采用了
|special_token|<reasoning_process>|special_token|<summary>
的格式,其中推理过程是查询的 CoT,摘要用于总结推理结果。
(2) 面向推理的强化学习:
- • 延续 RL 训练:在冷启动数据微调之后,DeepSeek-R1 继续进行与 DeepSeek-R1-Zero 相同的 RL 训练,以进一步提高其推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中。
- • 引入语言一致性奖励:为了解决语言混合问题,DeepSeek-R1 在 RL 训练过程中引入了语言一致性奖励,该奖励计算 CoT 中目标语言单词的比例。虽然消融实验表明,这种对齐会导致模型性能略有下降,但这种奖励更符合人类偏好,使其更具可读性。
(3) 拒绝采样与监督微调:
- • 生成 SFT 数据:当面向推理的 RL 训练收敛时,DeepSeek-R1 利用生成的检查点进行拒绝采样,以收集 SFT 数据。与初始冷启动数据不同,该阶段的数据不仅限于推理,还包括写作、角色扮演等领域的样本。
- • 扩大数据规模:为了增强模型在写作、事实问答、自我认知和翻译等非推理任务中的能力,DeepSeek-R1 重用了 DeepSeek-V3 的部分 SFT 数据集,并最终收集了约 200k 个与推理无关的训练样本。
(4) 全场景强化学习:
- • 多奖励信号融合:为了使模型更好地与人类偏好保持一致,DeepSeek-R1 实施了一个次级强化学习阶段,旨在提高模型的有用性和无害性,同时完善其推理能力。
- • 对于推理数据,使用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。
- • 对于一般数据,使用奖励模型来捕捉复杂和细微场景中的人类偏好。
三、DeepSeek-R1 的卓越表现:超越与突破
DeepSeek-R1 在多个基准测试中表现出色:
- • 教育知识基准测试:在 MMLU、MMLU-Pro 和 GPQA Diamond 等教育知识基准测试中,DeepSeek-R1 相比 DeepSeek-V3 取得了显著进步,这主要归功于其在 STEM 相关问题上的准确性提升。
- • 推理任务:在 AIME 2024 基准测试中,DeepSeek-R1 的通过率为 79.8%,略高于 OpenAI-o1-1217。在 MATH-500 基准测试中,其得分高达 97.3%,与 OpenAI-o1-1217 持平,并大幅领先于其他模型。
- • 编码任务:在编码相关任务中,DeepSeek-R1 在 Codeforces 上的 Elo 评分为 2029,超过了 96.3% 的参赛者,表现出专家级的水平。
- • 其他任务:DeepSeek-R1 在创意写作、通用问答、编辑、摘要等任务中也表现出色,在 AlpacaEval 2.0 上的长度控制胜率为 87.6%,在 ArenaHard 上的胜率为 92.3%,展示了其强大的处理非考试导向查询的能力。
四、DeepSeek-R1 的技术启示:蒸馏与强化学习的碰撞
DeepSeek-R1 的研发团队还探索了将 DeepSeek-R1 的推理能力蒸馏到更小的密集模型中,并取得了令人惊喜的结果:
- • 蒸馏方法的有效性:使用 DeepSeek-R1 生成的推理数据对多个广泛使用的密集模型进行微调,评估结果显示,蒸馏后的较小密集模型在基准测试中表现优异。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上的得分为 55.5%,超过了 QwQ-32B-Preview。
- • RL 与蒸馏的对比:实验表明,蒸馏更强大的模型到较小的模型中能够取得优异的结果,而较小的模型依靠本文所讨论的大规模 RL 需要巨大的计算能力,甚至可能无法达到蒸馏的性能。
这表明,强化学习与模型蒸馏相结合,可以更高效地提升模型性能,为 AI 模型的开发提供了新的思路。
五、DeepSeek-R1 的未来展望:挑战与机遇并存
尽管 DeepSeek-R1 取得了令人瞩目的成就,但仍有很大的提升空间:
- • 通用能力提升:目前,DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的能力仍不及 DeepSeek-V3。未来,团队计划探索如何利用长链式思维来增强这些领域的任务。
- • 语言混合问题:DeepSeek-R1 目前针对中文和英文进行了优化,在处理其他语言的查询时可能会出现语言混合问题。未来版本将致力于解决这一局限性。
- • 提示工程:DeepSeek-R1 对提示敏感,少样本提示会降低其性能。因此,团队建议用户直接描述问题并使用零样本设置指定输出格式,以获得最佳结果。
- • 软件工程任务:由于评估时间较长,影响 RL 过程的效率,大规模 RL 尚未广泛应用于软件工程任务。未来版本将通过在软件工程数据上实施拒绝采样或 在 RL 过程中引入异步评估来提高效率。
结语
DeepSeek-R1 的发布标志着 AI 推理能力研究的一个重要里程碑。它不仅展示了纯强化学习在提升模型推理能力方面的巨大潜力,还为 AI 社区提供了一个强大的工具和新的研究方向。
未来,随着 AI 技术的不断发展,DeepSeek-R1 及其后续版本有望在更多领域发挥重要作用,推动 AI 朝着更智能、更可靠、更符合人类价值观的方向发展。