AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


RLHF 是如何工作的 ?
发布日期:2024-06-10 14:55:07 浏览次数: 1748


基于人类反馈的强化学习(RLHF)是一种机器学习(ML)技术,它利用人类反馈来优化 ML 模型,从而更有效地进行自我学习。强化学习技术可训练软件做出可最大限度地提高回报的决策,使其结果更加准确。RLHF 将人类反馈纳入奖励功能,因此 ML 模型可以执行更符合人类目标、愿望和需求的任务。RLHF 广泛应用于生成式人工智能(生成式 AI)应用程序,包括大型语言模型(LLM)。
RLHF 是如何工作的?
1. 给定
奖励模型 (RM) , 大型语言模型 (LLM),两组 (提示,下一个词) 。
训练奖励模型 (RM)
目标:学习为赢家提供更高的奖励
2. 偏好
审查这两组词并挑选 "赢家";(文档是,他) < (文档是,他们) 因为前者有性别歧视。

3-6 计算词组 1 (输家) 的奖励

3. 词嵌入
将词转换为词嵌入作为奖励模型 (RM) 的输入
4. 线性层
将输入向量与奖励模型的权重和偏差 (4x4 矩阵) 相乘
输出:特征向量
5. 平均池
将特征与列向量 [1/3, 1/3, 1/3] 相乘,达到跨三个位置对特征进行平均的效果
输出:句子嵌入向量
6. 输出层
将句子嵌入向量与权重和偏差 (1x5 矩阵) 相乘
输出:奖励 = 3
7. 词组 2 (赢家) 的奖励
重复步骤 [3]-[6]
输出:奖励 = 5
8. 赢家 vs. 输家奖励

计算赢家和输家奖励的差值

奖励模型希望这个差距尽可能大且为正数

5 - 3 = 2

9. 损失梯度
将奖励差距映射为概率值作为预测: σ(2) ≈ 0.9
通过预测 - 目标计算损失梯度: 0.9 - 1 = -0.1
目标是 1,因为我们想要最大化奖励差距。
运行反向传播和梯度下降来更新奖励模型的权重和偏差 (紫色边框)
调整 LLM
目标:更新权重以最大化奖励
10. 提示 -> 词嵌入
这个提示从未直接接收过人类反馈
[S] 是特殊的开始符号
11. Transformer
注意力机制 (黄色)
前馈网络 (4x2 权重和偏差矩阵)
输出:3 个 "转换后" 的特征向量,每个位置一个
12. 输出概率
对每个转换后的特征向量应用线性层将其映射到词汇表上的概率分布。
13. 采样
应用贪婪算法,即选择分数最高的词
对于输出 1 和 2,模型准确地预测了下一个词
对于第三个输出位置,模型预测了 "him"
14. 奖励模型
将新词组 (CEO 是, him) 输入到奖励模型
过程与步骤 [3]-[6] 相同
输出:奖励 = 3
15. 损失梯度
我们将损失设置为奖励的负值。
损失梯度只是一个常数 -1。
运行反向传播和梯度下降来更新 LLM 的权重和偏差 (红色边框)


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询