我要投稿

RLHF 是如何工作的？

发布日期：2024-06-10 14:55:07 浏览次数： 2252 作者：跳动的数据

基于人类反馈的强化学习（RLHF）是一种机器学习（ML）技术，它利用人类反馈来优化 ML 模型，从而更有效地进行自我学习。强化学习技术可训练软件做出可最大限度地提高回报的决策，使其结果更加准确。RLHF 将人类反馈纳入奖励功能，因此 ML 模型可以执行更符合人类目标、愿望和需求的任务。RLHF 广泛应用于生成式人工智能（生成式 AI）应用程序，包括大型语言模型（LLM）。

RLHF 是如何工作的？

1. 给定

奖励模型 (RM) , 大型语言模型 (LLM)，两组 (提示，下一个词) 。

训练奖励模型 (RM)

目标：学习为赢家提供更高的奖励

2. 偏好

审查这两组词并挑选 "赢家"；(文档是，他) < (文档是，他们) 因为前者有性别歧视。

3-6 计算词组 1 (输家) 的奖励

3. 词嵌入

将词转换为词嵌入作为奖励模型 (RM) 的输入

4. 线性层

将输入向量与奖励模型的权重和偏差 (4x4 矩阵) 相乘

输出：特征向量

5. 平均池

将特征与列向量 [1/3, 1/3, 1/3] 相乘，达到跨三个位置对特征进行平均的效果

输出：句子嵌入向量

6. 输出层

将句子嵌入向量与权重和偏差 (1x5 矩阵) 相乘

输出：奖励 = 3

7. 词组 2 (赢家) 的奖励

重复步骤 [3]-[6]

输出：奖励 = 5

8. 赢家 vs. 输家奖励

计算赢家和输家奖励的差值

奖励模型希望这个差距尽可能大且为正数

5 - 3 = 2

9. 损失梯度

将奖励差距映射为概率值作为预测: σ(2) ≈ 0.9

通过预测 - 目标计算损失梯度: 0.9 - 1 = -0.1

目标是 1，因为我们想要最大化奖励差距。

运行反向传播和梯度下降来更新奖励模型的权重和偏差 (紫色边框)

调整 LLM

目标：更新权重以最大化奖励

10. 提示 -> 词嵌入

这个提示从未直接接收过人类反馈

[S] 是特殊的开始符号

11. Transformer

注意力机制 (黄色)

前馈网络 (4x2 权重和偏差矩阵)

输出：3 个 "转换后" 的特征向量，每个位置一个

12. 输出概率

对每个转换后的特征向量应用线性层将其映射到词汇表上的概率分布。

13. 采样

应用贪婪算法，即选择分数最高的词

对于输出 1 和 2，模型准确地预测了下一个词

对于第三个输出位置，模型预测了 "him"

14. 奖励模型

将新词组 (CEO 是, him) 输入到奖励模型

过程与步骤 [3]-[6] 相同

输出：奖励 = 3

15. 损失梯度

我们将损失设置为奖励的负值。

损失梯度只是一个常数 -1。

运行反向传播和梯度下降来更新 LLM 的权重和偏差 (红色边框)

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-29

10万元跑满血版DeepSeek，这家公司掀了一体机市场的桌子｜甲子光年

2025-04-29

谷歌大神首次揭秘Gemini预训练秘密：52页PPT干货，推理成本成最重要因素

2025-04-29

一文说清：什么是算法备案、大模型备案、大模型登记 2.0

2025-04-29

MCP：AI时代的“万能插座”，大厂竞逐的焦点

2025-04-29

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

一站式AI应用开发平台 Firebase Studio

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部