我要投稿

通俗讲解DeepSeek中的GRPO：强化学习里的神奇算法

发布日期：2025-03-10 12:57:28 浏览次数： 1933 作者：大模型之路

在人工智能快速发展的时代，强化学习是其中的关键技术，它让机器能够像人一样，在不断尝试中学习怎么做是最好的。今天要讲的 GRPO（Group Relative Policy Optimization），也就是群体相对策略优化算法，是强化学习里非常厉害的存在。接下来，就带大家走进deepseek（Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升） GRPO 的奇妙世界，看看它到底是怎么回事。

一、认识强化学习的 “小宇宙”

在理解 GRPO 之前，我们先在强化学习这个 “小宇宙” 里逛一逛。想象一下，有个智能体，它就像一个生活在特定环境里的 “小探险家”。这个环境有各种各样的情况，也就是 “状态”。智能体要在这些状态下做出选择，这些选择就是 “动作”。当智能体做出一个动作后，环境会根据这个动作的效果，给智能体一个反馈，这个反馈就是 “奖励”。如果动作效果好，奖励就高；要是效果不好，奖励就低，甚至可能是惩罚。强化学习的目标，就是让智能体学会一套最好的行为策略，让它在长期和环境的互动中，得到的奖励加起来最多。

比如说，让一个机器人在迷宫里找出口。迷宫的每一个位置就是一个状态，机器人可以选择向前走、向左转、向右转等动作。如果机器人找到了出口，就会得到一个大大的奖励；要是撞到了墙上，可能就会得到一个小小的惩罚。机器人通过不断尝试不同的走法，慢慢学会怎么最快走出迷宫，这就是强化学习的过程。

在强化学习（深度解析 DeepSeek R1：强化学习与知识蒸馏的协同力量）里，“策略” 就像是智能体的行动指南。策略分为两种，一种是确定性策略，就好比一个固定的规则，只要遇到某种状态，智能体就会固定选择某个动作。比如，只要机器人在迷宫的某个特定路口，它就总是选择向左转。另一种是随机策略，它给每个可能的动作都分配了一个概率，智能体根据这些概率来选择动作。这就好像机器人在路口时，按照一定概率选择向前、向左或者向右转，这样它就有机会去探索不同的路径。

还有 “价值函数”，它是用来评估状态或者动作好不好的。状态价值函数评估的是处于某个状态的好坏程度。比如说，在迷宫里，有些位置离出口比较近，那么处于这些位置的状态价值就比较高；有些位置周围都是墙，不好走出去，状态价值就低。动作价值函数评估的是在某个状态下做某个动作的好坏。比如在迷宫的某个位置，向前走可能更容易接近出口，那么这个动作的价值就高；要是向前走是死胡同，这个动作价值就低。价值函数和策略关系可大了，它能帮助智能体知道哪些状态和动作能带来更多奖励，从而让策略变得更好。

另外，Actor - Critic 模型也是强化学习里的重要角色。Actor 就像是一个行动者，它负责学习和更新策略，根据当前的状态选择动作。Critic 则像是一个评论家，它评估状态的价值，给 Actor 提供反馈，告诉 Actor 哪些动作选得好，哪些还需要改进。它们俩相互配合，让智能体更有效地学习到最优策略。

二、GRPO 登场：像聪明的 “小教练”

现在，主角 GRPO 闪亮登场啦！GRPO（Deepseek成功启示：从 TRPO 到 GRPO训练LLM）是一种强化学习算法，它的作用就是帮助模型更好地学习，就像一个聪明的 “小教练”。它的核心做法是比较不同的动作，然后根据一组观察结果，对模型进行小而可控的更新。

打个比方，假设有个机器人在玩一个 “寻宝” 游戏。在游戏里，机器人每次遇到路口，都要选择一条路走。一开始，机器人完全不知道哪条路能找到宝藏，只能随便选。这时候，GRPO 就开始发挥作用了。

GRPO 会让机器人尝试不同的路径，这就好比让机器人多去探索不同的可能性。机器人会从当前的行动策略出发，去试试不同的路。然后，它会比较这些路径的效果，看看哪条路走得更顺，更有可能找到宝藏。最后，根据比较的结果，机器人会对自己的策略做一些小的调整，让下次选择更有可能找到宝藏的路。

比如说，机器人在某个路口遇到了三条路，分别是 A 路、B 路和 C 路。它先每条路都走几次，记录下每次的结果。走了几次后发现，A 路走了 3 次，有 2 次找到了一些小宝藏；B 路走了 3 次，只找到 1 次小宝藏；C 路走了 3 次，每次都找到了宝藏。这时候，机器人就知道 C 路的效果最好。但是，它也不会一下子就只选 C 路，还是会偶尔走走 A 路和 B 路，因为说不定以后这两条路会有新的发现呢。而且，机器人在调整策略的时候，不会一下子变得太极端，不会从原来随便选路，变成以后只选 C 路，而是慢慢地增加选 C 路的可能性，比如从原来选 C 路的概率是 30%，提高到 50%。这样，机器人既能利用已经发现的好路径，又能继续探索其他路径，不会错过任何可能的机会。

三、GRPO 的神奇 “魔法” 步骤

群体采样
在 GRPO 里，当机器人处于某个状态，也就是在游戏里的某个位置时，它会根据当前的策略，像撒网一样，“捞出” 一组动作。比如说，在刚才的路口，它可能会根据策略，从所有可能的走法里选出几个不同的走法，这就是群体采样。这一步就像是给机器人提供了一些不同的尝试方向，让它有机会去探索多种可能性。
奖励评分
机器人尝试了不同的路径后，就要给这些路径打分了。这时候，会有一个奖励函数来帮忙。奖励函数就像是一个裁判，根据机器人选择的路径得到的结果，给每个路径一个分数。如果机器人沿着某条路找到了很多宝藏，这个路径的分数就高；要是走了半天什么都没找到，分数就低。这个分数就是对动作（也就是路径选择）的质量评估。
优势计算
算出每个路径的分数后，机器人还要看看每个路径比平均水平是好还是坏，这就是优势计算。比如说，机器人尝试的这几条路径，平均能找到的宝藏数量是 2 个，而 A 路径找到了 3 个宝藏，那么 A 路径的优势就是正的，说明它比平均水平好；要是 B 路径只找到 1 个宝藏，那它的优势就是负的，比平均水平差。通过优势计算，机器人就能清楚地知道每个动作的相对好坏。
策略更新
知道了每个动作的优势后，机器人就可以调整自己的策略了。对于优势是正的动作，机器人会在以后增加选择它的可能性；对于优势是负的动作，就减少选择它的可能性。但是，机器人不会一下子变得太夸张，不会因为某个动作优势是正的，就以后每次都选它，还是会保持一定的探索性，这就是策略更新。
稳定保障：KL 散度约束
为了让机器人在调整策略的时候不会变得太离谱，GRPO 还设置了一个 “安全绳”，这就是 KL 散度约束。它的作用是保证新的策略和原来的策略不会差别太大。就像机器人在调整选路策略的时候，不会突然从原来的随便选路，变成一个完全不一样的、特别奇怪的选路方式，这样就能保证机器人的学习过程是稳定的，不会因为突然的大变化而导致学习效果变差。
终极目标：提升奖励
GRPO 的最终目标就是让机器人在这个 “寻宝” 游戏里，得到的宝藏总数越来越多。它通过不断地重复上面这些步骤，让机器人的策略越来越好，选择的路径越来越有可能找到宝藏，同时保证策略的稳定性，不会因为追求高奖励而让策略变得不稳定。

四、GRPO 的厉害之处

减少波动，稳定学习
GRPO 通过比较一组动作，而不是只看单个动作的结果来更新策略，这样就能大大减少策略更新时的波动。就像在 “寻宝” 游戏里，如果只看一次走某条路的结果来决定以后怎么走，可能这次运气好找到了宝藏，就一直走这条路，但下次可能就找不到了。而 GRPO 看一组动作的结果，就像综合了很多次尝试的经验，这样得到的结果更稳定，学习过程也更平稳。
控制变化，防止失控
KL 散度约束这个 “安全绳”，让策略的变化在一个合理的范围内。在学习过程中，如果策略变化太大，可能会导致机器人突然变得不会玩游戏了。有了这个约束，机器人每次调整策略都是小步前进，不会出现大的失误，保证了学习的稳定性和可靠性。
提高效率，节省资源
GRPO 不需要把所有可能的动作都试一遍才能知道哪个好，它通过群体采样和比较，就能快速找到相对比较好的动作，然后更新策略。这就好比在 “寻宝” 游戏里，机器人不用把迷宫里所有的路都走一遍才能找到宝藏，只需要试一部分路，就能知道哪些路更值得走，这样就能节省很多时间和精力，提高了学习的效率。

五、GRPO 在大语言模型中的奇妙应用

现在，很多大语言模型，像大家熟悉的聊天机器人，也开始用 GRPO 来提升自己的能力。当我们给聊天机器人一个问题，也就是 “提示” 时，它会像 GRPO 里的机器人选择路径一样，生成好几个不同的回答。这就是群体采样的过程，聊天机器人通过不同的方式来尝试回答问题。

然后，会有一个奖励模型来评估这些回答的质量。奖励模型就像是一个严格的老师，从回答的准确性、逻辑性、语言流畅性等多个方面给每个回答打分。如果回答得又准确又有条理，语言还很通顺，分数就高；要是回答得驴唇不对马嘴，分数就低。

接着，计算每个回答的优势，看看哪些回答比平均水平好，哪些比平均水平差。根据这个结果，聊天机器人就会调整自己的 “回答策略”，以后更倾向于生成那些得分高的回答。同时，为了保证回答的稳定性，不会让回答突然变得很奇怪，也会用 KL 散度约束来控制策略的变化。

通过这样不断地重复这个过程，也就是迭代训练，聊天机器人就能越来越厉害，生成的回答也会越来越符合我们的期望，变得更准确、更有用、更有趣。

六、GRPO算法的通俗类比

为了更好地理解GRPO算法的工作原理，我们可以将其类比为一个学生学习解题过程的场景。

假设你是一个学生，正在学习如何解决数学问题。你的老师（GRPO算法）不会直接告诉你每个答案是对还是错，而是给你一组类似的题目，并让你尝试不同的解法。如果你某个解法比其他解法更好（即获得了更高的奖励），老师会鼓励你多用这种解法；如果你某个解法比其他解法差（即获得了较低的奖励），老师会建议你少用这种解法。通过这种方式，你逐渐学会了如何更好地解决数学问题，而不需要老师每次都详细解释每个步骤的对错。

同样地，在GRPO算法中，模型（即智能体）通过尝试不同的输出（即解法）来学习如何更好地完成任务。算法根据每个输出的奖励（即解题质量）来调整策略（即解题方法），使得表现更好的输出更有可能被生成。这一过程通过组内相对奖励机制实现，既高效又稳定。

GRPO 在强化学习领域是一个非常重要的算法，它用独特的方式让模型更好地学习和优化。无论是在机器人的各种任务里，还是在大语言模型的训练中，GRPO 都发挥着重要的作用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业