我要投稿

白话解析 DPO：如何让 AI 直接学习人类偏好？

发布日期：2025-04-22 05:46:40 浏览次数： 1525 作者：写给爸爸的 AI 笔记

DPO（Direct Preference Optimization，直接偏好优化）是一种让大模型的输出更符合人类偏好的方法之一。这篇文章是按照我对 DPO 概念的学习逻辑来组织的，希望可以帮助大家通俗理解 DPO的原理~

一、已有方法：复杂但有效的 RLHF

过去，AI 想学会这些偏好，需要走一条相对复杂的路线，叫做 RLHF（Reinforcement Learning from Human Feedback）。流程大致是：

换句话说，AI 不直接听人类的话，而是通过“评分员”来间接学习什么是好回答。

虽然这条路线最后能达成目标，但它也有明显缺点：实现复杂、成本高、训练过程不稳定。

DPO（Direct Preference Optimization）带来的变革在于：

我不再训练一个奖励模型来打分了。你告诉我你更喜欢 A，我就直接让模型倾向 A。

这听起来是不是更简单？

DPO 把问题转化为一个很直观的任务：给定两个回答，直接训练模型倾向人类更喜欢的那一个。

这就像是在做一场持续的投票训练：人类选了谁，模型就调整自己更偏向那一方。

我们已经知道，DPO 是通过人类告诉模型“我更喜欢 A，不喜欢 B”的方式，来引导模型不断优化生成行为。那么它具体是怎么学会“更偏向好回答”的呢？

首先，DPO 借用了一个经典的偏好建模框架——Bradley-Terry 模型，它的核心思想是：

如果回答 A 的“隐藏质量得分”高于 B，那么 A 被选中的概率就应该更高。

这个模型把“人类更偏好某个回答”的判断，数学化成了一个概率表达式。比如：


P(A △ B) = e^3 / (e^3 + e^1) ≈ 88%

也就是说，得分越高，被偏好的概率越大，得分差距越大，这个概率也越“有把握”。

这就到了 DPO 的关键创新点：它不需要单独训练一个“打分函数”或奖励模型，而是直接用语言模型自己生成的概率，来推导出每个回答的得分。

它的做法是：


r(x, y) = β × log[πθ(y|x) / πref(y|x)]

这个 r(x, y) 就是我们所说的“隐含得分”。它代表：当前模型是否比参考模型更倾向于这个回答。如果是，那这个回答就是模型学到的“更优”选项。

DPO 的真正训练发生在回答对之间的比较上：


L = -log σ(r̂(x, A) - r̂(x, B))

这个差值反映的是：当前模型有没有“更偏向人类更喜欢的回答”。通过不断最小化这个损失，模型学会了逐渐偏好人类选择的风格。

虽然 RLHF 是偏好对齐任务中早期非常有效的方法，但它在实际应用中也暴露了不少训练上的难题，尤其是“训练过程不稳定”。这种不稳定性主要表现在三个方面：

强化学习本身就容易不稳定：RLHF 最后一步使用强化学习算法（如 PPO）优化语言模型，而强化学习的奖励信号往往延迟、稀疏，很难精确对应每一个生成词，训练中容易出现模式崩溃（例如模型只会说模板化句子）。
奖励模型和主模型之间目标可能不一致：奖励模型是从人类偏好中拟合而来，不等于真正的人类意图。主模型可能为了“讨好打分模型”而生成看似高分、实则空洞的内容，这种现象被称为“奖励黑客（reward hacking）”。
训练过程复杂、超参数难调：PPO 等算法包含多个超参数，训练非常依赖经验和调试技巧，工程实现复杂、资源消耗大。

DPO 的提出，正是为了避开这条“绕远路”的路径：它不使用强化学习，也不训练奖励模型，训练逻辑清晰，流程一体化，让偏好对齐变得更加稳定、直接、高效。