微信扫码
与创始人交个朋友
我要投稿
老婆饼里没有老婆,夫妻肺片里没有夫妻,RLHF 里也没有真正的 RL。在最近的一篇博客中,德克萨斯大学奥斯汀分校副教授 Atlas Wang 分享了这样一个观点。
博客链接:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/
区分 RLHF 和经典强化学习
为什么 RLHF(及相关方法)不是真正的 RL?
单步或几步优化。在 RLHF 中,LLM 会基于给定的提示生成文本,然后奖励模型会提供一个单一的偏好分数。RLHF 中的「强化」步骤更类似于一步式策略梯度优化,以实现人类偏好的输出,而不是在不断变化的环境中对状态和行动进行基于智能体的全面循环。这更像是一种「一劳永逸」的评分,而不是让一个智能体随时间推移探索多步行动,并接收环境反馈。
大多离线或半离线。奖励模型通常在人类标签数据上进行离线训练,然后用于更新 LLM 的策略。LLM 在线调整策略时,并没有实时探索连续的环境循环。
缺乏基于环境的长期(Long-Horizon)目标。经典的 RL 智能体会追踪多个状态下的长期回报。相比之下,基于 RLHF 的 LLM 训练侧重于根据人类偏好调整即时文本输出。LLM 并没有在一个动态环境中导航多个时间步骤。
表面约束与真正的内部目标。RLHF 可以有效地影响某些输出的概率 —— 引导模型远离不受欢迎的文本。但模型内部并没有形成产生这些输出的「愿望」或「欲望」;它仍然是一个生成下一个 token 的统计系统。
请记住,不管是 RLHF、SFT 还是其他什么,LLM 都不是为了真正的目标或意图而训练的!LLM 的核心是根据给定上下文预测下一个 token。它们的「动机」纯粹是最大限度地提高下一个 token 的正确率(由训练数据和任何后续微调信号确定)。这个过程并不存在主观上的愿望或意图。我们常说 AlphaZero「想要」在国际象棋中获胜,但这只是一种方便的简单说法。从内部来说,AlphaZero 是在最大化数学奖励函数 —— 没有任何感觉上的欲望。同样,经过 RLHF 调整的 LLM 也在最大化对齐奖励信号,而没有内心的渴望状态。
RLHF vs. IRL 如何?
CoT、PRM 或多智能体工作流有助于解决这个问题吗?
为什么至今还没有人用「真正的 RL」训练 LLM?
因为太贵了!大规模模型的经典 RL 需要一个稳定、交互式的环境,外加大量计算来运行重复的 episode。每个训练周期的前向传递次数对于今天的十亿参数 LLM 来说过于昂贵。
缺乏环境定义。文本生成并非天然的「状态 - 动作转换」环境。我们可以尝试将其包装成类似游戏的模拟环境,但这样就必须为多步骤文本交互定义奖励结构,而这并非易事。
性能已经足够好了。在许多使用案例中,RLHF 或 DPO(直接偏好优化)已经能产生足够好的对齐效果。实事求是地说,团队会坚持使用更简单的离线方法,而不是建立一个复杂的 RL 管道,以巨大的成本换取微不足道的收益。
最接近给 LLM 一个「目标」的现有方法是什么?
LLM 没有「真正目标」的后果
简化的对齐(在某些方面)。由于 LLM 没有真正追逐个体目标,它们不太可能「绕过」限制或自主计划非法行为。对齐通常相当于设置正确的提示约束和微调,将其推向可接受的产出。Anthropic 最近的博客与这一观点有关(参见《震惊!Claude 伪对齐率竟能高达 78%,Anthropic 137 页长论文自揭短》)
更难委派开放式任务。如果我们希望 AI 能够自发地发现新问题,积极收集资源,并坚持数月来解决这些问题,我们就需要一个具有持续内驱力的系统 —— 类似于真正的 RL 智能体或高级规划系统。目前的 LLM 无法以这种方式实现真正的自我启动。
潜在的创新缺失。在丰富的 RL 环境中进行自由探索,可能会产生惊人的发现(如 AlphaZero 在国际象棋或围棋中的突破)。如果依赖于只有表面反馈的单步文本生成,我们可能会错过多步奖励优化所带来的全新策略。
不过,这也有积极的一面。例如,我认为没有持续目标的 LLM 在某些方面更加透明。它本质上是一个由即时反馈信号引导的强大的下一个 token 预测器 —— 没有多步骤 RL 循环中出现的复杂的隐藏目标。
明确时间跨度、目标、奖励和行动空间
后记
未来方向?
更高的样本复杂度:一个经常出现的限制因素是,基于偏好的学习可能需要大量的人类 token 比较,尤其是当任务变得越来越复杂时。研究人员通常采用模拟人的判断来进行 RL 实验,但这也带来了新的问题,即这些模拟器如何忠实地模拟真实的人类偏好。
扩展到长期任务:许多专家怀疑,短期输出的成对比较能否直接扩展到更复杂的多步骤任务。使用 LLM 进行真正的多步骤 RL 需要一个环境,在这个环境中,模型可以进行探索、获得中间奖励并进行迭代 —— 而这在目前是非常昂贵的,也无法大规模广泛实施。
衔接符号与次符号方法:对于真正的长期偏好(如需要概念或符号理解的任务),纯粹的「原始」配对偏好数据可能并不足够。可能需要某种形式的结构化、符号化反馈(或「通用语言」),才能有效地将人类的细微目标传达给人工智能系统。
最后,虽然 RLHF、DPO 和相关方法提供了一种实用的方法,可以在短期环境中使 LLM 与人类偏好保持一致,但它们无法赋予 LLM 真正、持久的目标或意图。这些方法也只是与经典的 RL 或 IRL 范式略有对应。未来的系统若能在真正的多步骤 RL 循环中使用 LLM,就能解锁更多自主的、类似智能体的行为,但同时也会引发新的安全和一致性问题。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-14
如何本地部署AI模型?
2025-01-14
Ray 在 Bilibili 的场景探索与落地实践
2025-01-12
一文搞懂:大模型为什么要设计成预训练和微调两个阶段?
2025-01-12
Agentic AI 系统设计:第三部分 Agent 之间的交互
2025-01-12
Agentic AI 系统设计:第二部分 模块化
2025-01-09
解码通用 AI Agent:七步构建你的智能系统
2025-01-08
dify案例分享-基于文本模型实现Fine-tune 语料构造工作流
2025-01-08
架构师必备LLM推理优化全解析:Nvidia分享的实用技巧,简单易懂!
2024-09-18
2024-07-11
2024-07-11
2024-07-26
2024-07-09
2024-06-11
2024-10-20
2024-07-20
2024-07-23
2024-07-12