AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


通俗讲解DeepSeek中的GRPO:强化学习里的神奇算法

发布日期:2025-03-10 12:57:28 浏览次数: 1551 来源:大模型之路
推荐语

强化学习领域中GRPO算法的深入解读,探索如何提升智能体的决策能力。

核心内容:
1. GRPO算法在强化学习中的重要性与应用
2. 强化学习基本概念:智能体、状态、动作和奖励
3. 策略的两种类型:确定性策略与随机策略

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

在人工智能快速发展的时代,强化学习是其中的关键技术,它让机器能够像人一样,在不断尝试中学习怎么做是最好的。今天要讲的 GRPO(Group Relative Policy Optimization),也就是群体相对策略优化算法,是强化学习里非常厉害的存在。接下来,就带大家走进deepseek(Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升)  GRPO 的奇妙世界,看看它到底是怎么回事。

一、认识强化学习的 “小宇宙”

在理解 GRPO 之前,我们先在强化学习这个 “小宇宙” 里逛一逛。想象一下,有个智能体,它就像一个生活在特定环境里的 “小探险家”。这个环境有各种各样的情况,也就是 “状态”。智能体要在这些状态下做出选择,这些选择就是 “动作”。当智能体做出一个动作后,环境会根据这个动作的效果,给智能体一个反馈,这个反馈就是 “奖励”。如果动作效果好,奖励就高;要是效果不好,奖励就低,甚至可能是惩罚。强化学习的目标,就是让智能体学会一套最好的行为策略,让它在长期和环境的互动中,得到的奖励加起来最多。

比如说,让一个机器人在迷宫里找出口。迷宫的每一个位置就是一个状态,机器人可以选择向前走、向左转、向右转等动作。如果机器人找到了出口,就会得到一个大大的奖励;要是撞到了墙上,可能就会得到一个小小的惩罚。机器人通过不断尝试不同的走法,慢慢学会怎么最快走出迷宫,这就是强化学习的过程。

在强化学习(深度解析 DeepSeek R1:强化学习与知识蒸馏的协同力量)里,“策略” 就像是智能体的行动指南。策略分为两种,一种是确定性策略,就好比一个固定的规则,只要遇到某种状态,智能体就会固定选择某个动作。比如,只要机器人在迷宫的某个特定路口,它就总是选择向左转。另一种是随机策略,它给每个可能的动作都分配了一个概率,智能体根据这些概率来选择动作。这就好像机器人在路口时,按照一定概率选择向前、向左或者向右转,这样它就有机会去探索不同的路径。

还有 “价值函数”,它是用来评估状态或者动作好不好的。状态价值函数评估的是处于某个状态的好坏程度。比如说,在迷宫里,有些位置离出口比较近,那么处于这些位置的状态价值就比较高;有些位置周围都是墙,不好走出去,状态价值就低。动作价值函数评估的是在某个状态下做某个动作的好坏。比如在迷宫的某个位置,向前走可能更容易接近出口,那么这个动作的价值就高;要是向前走是死胡同,这个动作价值就低。价值函数和策略关系可大了,它能帮助智能体知道哪些状态和动作能带来更多奖励,从而让策略变得更好。


另外,Actor - Critic 模型也是强化学习里的重要角色。Actor 就像是一个行动者,它负责学习和更新策略,根据当前的状态选择动作。Critic 则像是一个评论家,它评估状态的价值,给 Actor 提供反馈,告诉 Actor 哪些动作选得好,哪些还需要改进。它们俩相互配合,让智能体更有效地学习到最优策略。

二、GRPO 登场:像聪明的 “小教练”

现在,主角 GRPO 闪亮登场啦!GRPO(Deepseek成功启示:从 TRPO 到 GRPO训练LLM) 是一种强化学习算法,它的作用就是帮助模型更好地学习,就像一个聪明的 “小教练”。它的核心做法是比较不同的动作,然后根据一组观察结果,对模型进行小而可控的更新。

打个比方,假设有个机器人在玩一个 “寻宝” 游戏。在游戏里,机器人每次遇到路口,都要选择一条路走。一开始,机器人完全不知道哪条路能找到宝藏,只能随便选。这时候,GRPO 就开始发挥作用了。

GRPO 会让机器人尝试不同的路径,这就好比让机器人多去探索不同的可能性。机器人会从当前的行动策略出发,去试试不同的路。然后,它会比较这些路径的效果,看看哪条路走得更顺,更有可能找到宝藏。最后,根据比较的结果,机器人会对自己的策略做一些小的调整,让下次选择更有可能找到宝藏的路。

比如说,机器人在某个路口遇到了三条路,分别是 A 路、B 路和 C 路。它先每条路都走几次,记录下每次的结果。走了几次后发现,A 路走了 3 次,有 2 次找到了一些小宝藏;B 路走了 3 次,只找到 1 次小宝藏;C 路走了 3 次,每次都找到了宝藏。这时候,机器人就知道 C 路的效果最好。但是,它也不会一下子就只选 C 路,还是会偶尔走走 A 路和 B 路,因为说不定以后这两条路会有新的发现呢。而且,机器人在调整策略的时候,不会一下子变得太极端,不会从原来随便选路,变成以后只选 C 路,而是慢慢地增加选 C 路的可能性,比如从原来选 C 路的概率是 30%,提高到 50%。这样,机器人既能利用已经发现的好路径,又能继续探索其他路径,不会错过任何可能的机会。


三、GRPO 的神奇 “魔法” 步骤

  1. 群体采样
    在 GRPO 里,当机器人处于某个状态,也就是在游戏里的某个位置时,它会根据当前的策略,像撒网一样,“捞出” 一组动作。比如说,在刚才的路口,它可能会根据策略,从所有可能的走法里选出几个不同的走法,这就是群体采样。这一步就像是给机器人提供了一些不同的尝试方向,让它有机会去探索多种可能性。
  2. 奖励评分
    机器人尝试了不同的路径后,就要给这些路径打分了。这时候,会有一个奖励函数来帮忙。奖励函数就像是一个裁判,根据机器人选择的路径得到的结果,给每个路径一个分数。如果机器人沿着某条路找到了很多宝藏,这个路径的分数就高;要是走了半天什么都没找到,分数就低。这个分数就是对动作(也就是路径选择)的质量评估。
  3. 优势计算
    算出每个路径的分数后,机器人还要看看每个路径比平均水平是好还是坏,这就是优势计算。比如说,机器人尝试的这几条路径,平均能找到的宝藏数量是 2 个,而 A 路径找到了 3 个宝藏,那么 A 路径的优势就是正的,说明它比平均水平好;要是 B 路径只找到 1 个宝藏,那它的优势就是负的,比平均水平差。通过优势计算,机器人就能清楚地知道每个动作的相对好坏。
  4. 策略更新
    知道了每个动作的优势后,机器人就可以调整自己的策略了。对于优势是正的动作,机器人会在以后增加选择它的可能性;对于优势是负的动作,就减少选择它的可能性。但是,机器人不会一下子变得太夸张,不会因为某个动作优势是正的,就以后每次都选它,还是会保持一定的探索性,这就是策略更新。
  5. 稳定保障:KL 散度约束
    为了让机器人在调整策略的时候不会变得太离谱,GRPO 还设置了一个 “安全绳”,这就是 KL 散度约束。它的作用是保证新的策略和原来的策略不会差别太大。就像机器人在调整选路策略的时候,不会突然从原来的随便选路,变成一个完全不一样的、特别奇怪的选路方式,这样就能保证机器人的学习过程是稳定的,不会因为突然的大变化而导致学习效果变差。
  6. 终极目标:提升奖励
    GRPO 的最终目标就是让机器人在这个 “寻宝” 游戏里,得到的宝藏总数越来越多。它通过不断地重复上面这些步骤,让机器人的策略越来越好,选择的路径越来越有可能找到宝藏,同时保证策略的稳定性,不会因为追求高奖励而让策略变得不稳定。

四、GRPO 的厉害之处

  1. 减少波动,稳定学习
    GRPO 通过比较一组动作,而不是只看单个动作的结果来更新策略,这样就能大大减少策略更新时的波动。就像在 “寻宝” 游戏里,如果只看一次走某条路的结果来决定以后怎么走,可能这次运气好找到了宝藏,就一直走这条路,但下次可能就找不到了。而 GRPO 看一组动作的结果,就像综合了很多次尝试的经验,这样得到的结果更稳定,学习过程也更平稳。
  2. 控制变化,防止失控
    KL 散度约束这个 “安全绳”,让策略的变化在一个合理的范围内。在学习过程中,如果策略变化太大,可能会导致机器人突然变得不会玩游戏了。有了这个约束,机器人每次调整策略都是小步前进,不会出现大的失误,保证了学习的稳定性和可靠性。
  3. 提高效率,节省资源
    GRPO 不需要把所有可能的动作都试一遍才能知道哪个好,它通过群体采样和比较,就能快速找到相对比较好的动作,然后更新策略。这就好比在 “寻宝” 游戏里,机器人不用把迷宫里所有的路都走一遍才能找到宝藏,只需要试一部分路,就能知道哪些路更值得走,这样就能节省很多时间和精力,提高了学习的效率。

五、GRPO 在大语言模型中的奇妙应用

现在,很多大语言模型,像大家熟悉的聊天机器人,也开始用 GRPO 来提升自己的能力。当我们给聊天机器人一个问题,也就是 “提示” 时,它会像 GRPO 里的机器人选择路径一样,生成好几个不同的回答。这就是群体采样的过程,聊天机器人通过不同的方式来尝试回答问题。

然后,会有一个奖励模型来评估这些回答的质量。奖励模型就像是一个严格的老师,从回答的准确性、逻辑性、语言流畅性等多个方面给每个回答打分。如果回答得又准确又有条理,语言还很通顺,分数就高;要是回答得驴唇不对马嘴,分数就低。

接着,计算每个回答的优势,看看哪些回答比平均水平好,哪些比平均水平差。根据这个结果,聊天机器人就会调整自己的 “回答策略”,以后更倾向于生成那些得分高的回答。同时,为了保证回答的稳定性,不会让回答突然变得很奇怪,也会用 KL 散度约束来控制策略的变化。

通过这样不断地重复这个过程,也就是迭代训练,聊天机器人就能越来越厉害,生成的回答也会越来越符合我们的期望,变得更准确、更有用、更有趣。

六、GRPO算法的通俗类比

为了更好地理解GRPO算法的工作原理,我们可以将其类比为一个学生学习解题过程的场景。

假设你是一个学生,正在学习如何解决数学问题。你的老师(GRPO算法)不会直接告诉你每个答案是对还是错,而是给你一组类似的题目,并让你尝试不同的解法。如果你某个解法比其他解法更好(即获得了更高的奖励),老师会鼓励你多用这种解法;如果你某个解法比其他解法差(即获得了较低的奖励),老师会建议你少用这种解法。通过这种方式,你逐渐学会了如何更好地解决数学问题,而不需要老师每次都详细解释每个步骤的对错。

同样地,在GRPO算法中,模型(即智能体)通过尝试不同的输出(即解法)来学习如何更好地完成任务。算法根据每个输出的奖励(即解题质量)来调整策略(即解题方法),使得表现更好的输出更有可能被生成。这一过程通过组内相对奖励机制实现,既高效又稳定。

GRPO 在强化学习领域是一个非常重要的算法,它用独特的方式让模型更好地学习和优化。无论是在机器人的各种任务里,还是在大语言模型的训练中,GRPO 都发挥着重要的作用。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询