我要投稿

DeepSeek 背后的数学：GRPO

发布日期：2025-02-23 08:05:13 浏览次数： 2065 作者：吴建明利驰数字

GRPO 的数学原理其实就像一套高效的评分系统，它帮助 DeepSeek 模型在一组回答中迅速找到最佳答案。通过比较每个回答与其他回答的优劣，模型能清楚地知道哪些回答更准确、更符合要求，从而不断调整和优化自己的策略。

这样一来，就不需要额外的评估器，既节省了计算资源，又能在实际应用中不断提高推理能力。

一、GRPO 的基础

1. 什么是 GRPO？

Group Relative Policy Optimization（GRPO） 是一种专为提升大语言模型推理能力设计的强化学习（RL）算法。与传统方法不同，GRPO 不依赖外部评估器（critic）来指导学习，而是通过对比一组回答之间的相对优劣来优化模型。这种相对评估机制不仅简化了训练过程，还大幅提高了效率，特别适用于需要复杂问题求解和长推理链的任务。

2. 为什么需要 GRPO？

传统强化学习方法（如 Proximal Policy Optimization（PPO））在大语言模型推理任务中存在以下挑战：

依赖 Critic 模型

• PPO 需要一个额外的 critic 模型来估算每个回答的价值，这会使内存和计算成本翻倍。
• Critic 模型的训练过程复杂，容易出错，尤其是在涉及主观或细微评估的任务中。

高计算成本

• RL 训练通常需要大量计算资源来不断评估和优化模型的输出。
• 在大规模 LLM 上应用这些方法会进一步加剧计算成本。

可扩展性问题

• 绝对奖励评估在处理多样化任务时存在困难，导致泛化能力受限，难以适用于不同的推理场景。

GRPO 如何应对这些挑战？

1. 无需 Critic，降低成本 GRPO 通过组内回答比较消除了对独立评估器的依赖，从而大幅降低了计算资源的需求。
2. 相对评估机制 它通过对比同一组回答的表现来衡量质量，而非单独打绝对分，这使得模型能够更直观地识别哪些回答更优。
3. 高效训练，易于扩展 聚焦于组内优势的计算，使得奖励估计过程更简单，进而使训练过程既高效又便于扩展到大规模模型上。

二、GRPO 的核心理念——相对评估

GRPO 的核心思想是 相对评估，具体而言：

• 每个输入，模型会生成一组可能的回答。
• 这些回答不会单独评估，而是通过相互比较来确定优劣。
• 奖励机制 基于回答相对于组内平均水平的优势或劣势，而非绝对得分。

这种方法不仅提升了训练效率，还通过组内竞争不断推动模型优化推理能力，进而赋能 DeepSeek 在复杂任务中取得卓越表现。

三、解读 GRPO 目标函数

在 GRPO 中，目标函数决定了模型如何更新策略以生成更高质量的回答。下面我们逐步解析这一过程。

1. GRPO 目标函数概览

我们可以直观了解 GRPO 的目标函数如何构建。

2. 用简单的方式理解 GRPO 目标函数

可以把 GRPO 的目标函数看作一份教学指南，指导模型通过对比自己的回答不断改进。

下面通过一个类比来说明其工作原理：

目标类比

想象你正在教一群学生解一道数学题。你不直接告诉他们谁对谁错，而是把所有学生的答案进行比较，找出谁做得最好（以及原因何在），然后通过奖励优秀解法、改进不足之处来帮助他们提升。这正是 GRPO 的工作方式，只不过它教的是 AI 模型而非学生。

逐步解析

步骤 1：从查询开始

从训练数据集 P(Q) 中选取一个查询 (q)。

例子：假设查询是 “8 + 5 的和是多少？”

步骤 2：生成一组回答

模型为该查询生成一组 GGG 的回答。

例子：模型生成以下几个回答：

o1： “答案是 13。”

o2： “十三。”

o3： “是 12。”

o4： “和是 13。”

步骤 3：计算每个回答的奖励

奖励是什么？

奖励通过量化回答的质量来引导模型的学习。

GRPO 中的奖励类型：

1. 准确性奖励： 基于回答的正确性（例如，解答数学问题）。
2. 格式奖励： 确保回答符合结构性指南（例如，推理部分用
3. 语言一致性奖励： 对语言混杂或格式不一致的回答进行惩罚。

为每个回答分配奖励（ri），根据其好坏。奖励可能依赖于：

• 准确性： 答案是否正确？
• 格式： 回答是否结构良好？

示例：

• r1 = 1.0（正确且格式良好）。
• r2 = 0.9（正确但不够正式）。
• r3 = 0.0（错误的回答）。
• r4 = 1.0（正确且格式良好）。

步骤 4：比较回答（组内优势）

• 计算每个回答相对于组的优势（Ai）。

简单理解就是这样：

• 比组平均值更好的回答得到正分，表现差的回答得到负分。
• 这种方式促进了组内竞争，推动模型生成更好的回答。

步骤 5：使用剪枝更新策略

• 示例： 如果新策略开始过多地为 o1 分配概率，剪枝操作确保它不会过度强调这个回答。
• 这使得在复杂任务（如推理）中能够实现稳定、可靠的策略优化。

步骤 6：使用 KL 散度惩罚偏差

总结 GRPO 目标函数工作流程

1. 为查询生成一组回答
2. 基于准确性、格式等标准计算每个回答的奖励
3. 在组内比较回答，计算每个回答的相对优势（Ai）
4. 更新策略，优先保留优势较高的回答，同时通过剪枝确保更新稳定
5. 通过 KL 正则化，防止模型策略偏离预设基线

四、GRPO 的优势所在

为什么 GRPO 更有效？

• 无需 Critic
GRPO 通过组内比较取代了独立评估器，从而大幅降低了计算成本。
• 稳定学习
结合剪枝和 KL 正则化，GRPO 保证了模型在更新过程中不会出现剧烈波动，使得学习过程更加稳健。
• 高效训练
针对推理任务的相对评分机制，使 GRPO 更适用于那些绝对评分难以实现的复杂任务，提升了训练效率。

现实生活中的类比

设想一群学生在解一道数学题：不是由老师单独评分，而是学生们相互比较答案，优秀者受到鼓励，落后者则从错误中学习。随着时间推移，全体学生水平逐步提高。这一过程正是 GRPO 训练 AI 模型的真实写照。

五、GRPO 与 PPO 的比较

下图展示了 GRPO 与传统 PPO 在不同维度上的对比，清晰地体现了 GRPO 在效率、稳定性和可扩展性上的优势。

六、DeepSeek 的成功实践

通过 GRPO，DeepSeek 在推理任务中取得了令人瞩目的成绩，具体体现在以下几个方面：

• 增强推理能力
DeepSeek-R1-Zero 在 AIME 2024 中获得了 71.0% 的 Pass@1 分数，通过多数投票提升至 86.7%，在数学和逻辑问题上与 OpenAI 等专有模型比肩。
• 新兴高级能力
通过 GRPO，DeepSeek 模型发展出自我验证、反思和长链思考等高级推理行为，这些能力对于解决复杂问题至关重要。
• 优异的可扩展性
GRPO 采用组内优化，去除了对评论者模型的需求，显著降低了计算开销，使得大规模训练成为可能。
• 成功的模型蒸馏
从 GRPO 训练的模型中提取出的较小模型依然保留了高水准的推理能力，为 AI 应用的普及和成本控制提供了保障。