支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


白话解析 DPO:如何让 AI 直接学习人类偏好?

发布日期:2025-04-22 05:46:40 浏览次数: 1525 作者:写给爸爸的 AI 笔记
推荐语

深度解析AI学习人类偏好的新方法,DPO如何让AI更懂你?

核心内容:
1. 传统RLHF方法与DPO的对比
2. DPO直接偏好优化的原理与优势
3. DPO如何学习并优化生成行为

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

DPO(Direct Preference Optimization,直接偏好优化)是一种让大模型的输出更符合人类偏好的方法之一。这篇文章是按照我对 DPO 概念的学习逻辑来组织的,希望可以帮助大家通俗理解 DPO的原理~

一、已有方法:复杂但有效的 RLHF

过去,AI 想学会这些偏好,需要走一条相对复杂的路线,叫做 RLHF(Reinforcement Learning from Human Feedback)。流程大致是:

  1. 收集大量“人类更喜欢哪个回答”的数据(偏好对比)

  2. 训练一个奖励模型(Reward Model),模仿人类判断哪句话更好

  3. 用强化学习算法(如 PPO)训练主语言模型去“讨好”这个奖励模型

换句话说,AI 不直接听人类的话,而是通过“评分员”来间接学习什么是好回答。

虽然这条路线最后能达成目标,但它也有明显缺点:实现复杂、成本高、训练过程不稳定。

二、DPO 出场:直接告诉模型“选这个”

DPO(Direct Preference Optimization)带来的变革在于:

我不再训练一个奖励模型来打分了。你告诉我你更喜欢 A,我就直接让模型倾向 A。

这听起来是不是更简单?

DPO 把问题转化为一个很直观的任务:给定两个回答,直接训练模型倾向人类更喜欢的那一个。

这就像是在做一场持续的投票训练:人类选了谁,模型就调整自己更偏向那一方。

三、模型是如何学会“更偏向好回答”的?

我们已经知道,DPO 是通过人类告诉模型“我更喜欢 A,不喜欢 B”的方式,来引导模型不断优化生成行为。那么它具体是怎么学会“更偏向好回答”的呢?

首先,DPO 借用了一个经典的偏好建模框架——Bradley-Terry 模型,它的核心思想是:

如果回答 A 的“隐藏质量得分”高于 B,那么 A 被选中的概率就应该更高。

这个模型把“人类更偏好某个回答”的判断,数学化成了一个概率表达式。比如:

  • 如果 A 的得分是 3,B 的得分是 1,

  • 那么 A 被选中的概率就是:

P(A △ B) = e^3 / (e^3 + e^1) ≈ 88%

也就是说,得分越高,被偏好的概率越大,得分差距越大,这个概率也越“有把握”。

四、那 DPO 是怎么得到这个“得分”的呢?

这就到了 DPO 的关键创新点:它不需要单独训练一个“打分函数”或奖励模型,而是直接用语言模型自己生成的概率,来推导出每个回答的得分。

它的做法是:

  • 准备一个参考模型(通常是一个较早阶段的模型 πref)

  • 用当前被训练的目标模型模型 πθ 去生成同一个回答 y,在相同 prompt 下,比较它们的概率

  • 然后计算“相对提升的倾向程度”作为得分:

r(xy) = β × log[πθ(y|x) / πref(y|x)]

这个 r(x, y) 就是我们所说的“隐含得分”。它代表:当前模型是否比参考模型更倾向于这个回答。如果是,那这个回答就是模型学到的“更优”选项。

DPO 的真正训练发生在回答对之间的比较上:

  • 对于一个偏好对:赢家 A、输家 B

  • DPO 计算两个回答的相对得分之差:

L = -log σ(r̂(x, A) - r̂(x, B))

这个差值反映的是:当前模型有没有“更偏向人类更喜欢的回答”。通过不断最小化这个损失,模型学会了逐渐偏好人类选择的风格。

五、为什么会想要替代 RLHF?

虽然 RLHF 是偏好对齐任务中早期非常有效的方法,但它在实际应用中也暴露了不少训练上的难题,尤其是“训练过程不稳定”。这种不稳定性主要表现在三个方面:

  1. 强化学习本身就容易不稳定:RLHF 最后一步使用强化学习算法(如 PPO)优化语言模型,而强化学习的奖励信号往往延迟、稀疏,很难精确对应每一个生成词,训练中容易出现模式崩溃(例如模型只会说模板化句子)。

  2. 奖励模型和主模型之间目标可能不一致:奖励模型是从人类偏好中拟合而来,不等于真正的人类意图。主模型可能为了“讨好打分模型”而生成看似高分、实则空洞的内容,这种现象被称为“奖励黑客(reward hacking)”。

  3. 训练过程复杂、超参数难调:PPO 等算法包含多个超参数,训练非常依赖经验和调试技巧,工程实现复杂、资源消耗大。

DPO 的提出,正是为了避开这条“绕远路”的路径:它不使用强化学习,也不训练奖励模型,训练逻辑清晰,流程一体化,让偏好对齐变得更加稳定、直接、高效

六、DPO 有哪些优势?

  1. 省去强化学习环节,训练更简单,过程更稳定

  2. 不需要奖励模型,少训练一个模型就能省大量算力

  3. 数学原理上等价于 RLHF 的优化目标,但实现方式更简洁

实验表明,在对话、文本摘要、情感控制等任务上,DPO 的性能和传统 RLHF 方法持平甚至更优,尤其在训练成本和稳定性上更具优势。

七、常见疑问

Q1:既然 DPO 更简单,是不是都不需要基于 PPO的RLHF了?

DPO 是近年来才提出的新方法,理论上和 RLHF 等价,但它在一些多轮对话或策略性任务上还需要进一步研究。RLHF 的奖励模型也可以用于自动生成偏好数据或构造更复杂的行为反馈,是 DPO 所不具备的能力。

Q2:偏好数据是怎么来的?人工标注吗?

是的,DPO 仍然需要有“哪一个更好”的标注数据。目前这些数据大多来自人类标注,也有部分研究使用较强模型自动合成高质量偏好对比。

八、总结:小结一下

DPO 不是教 AI 怎么打分,而是直接教它“人类更喜欢什么”。它把偏好学习从一个三段式流程(偏好数据 → 奖励模型 → 强化学习)简化为直接的偏好优化,效果好、成本低、工程实现更轻便。

——
参考资料:《Direct Preference Optimization:Your Language Model is Secretly a Reward Model》,https://arxiv.org/pdf/2305.18290

本文为小白的学习笔记,如有不精准的地方,欢迎大家留言讨论~

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询