微信扫码
添加专属顾问
我要投稿
奖励模型在强化学习中起着至关重要的作用,它决定了智能体如何从与环境的交互中学习并优化策略,以实现预定的任务目标。
奖励模型主要包括数据收集、模型训练和开源数据三个方面的实现。本文主要讲解数据收集。
针对奖励模型已经有一些开源数据集可以使用,主要包括OpenAI 针对摘要任务提出的Summarize from Feedback 数据集,以及针对WebGPT 任务构建的人类反馈数据集。此外,还有Anthropic 团队提出的HH-RLHF 数据集和斯坦福开放出来的质量判断数据集。 OpenAI 在2020 年就将RLHF 技术引入摘要生成,提出了Summarize from Feedback 数据集。首先通过人类偏好数据训练一个奖励模型,再利用奖励模型训练一个与人类偏好相匹配的摘要模型。该数据集分为两部分:对比部分和轴向部分。
WebGPT使用人类反馈训练了一个奖励模型,来指导模型提升长文档问答能力,使其与人类的偏好相符。该数据集包含在WebGPT 项目结束时被标记为适合奖励建模的所有对比数据,总计1.9 万条数据。Anthropic 的HH-RLHF 数据集主要分为两大部分。第一部分是关于有用性和无害性的人类偏好数据,共计17 万条。 这些数据的目标是为强化学习的训练提供奖励模型,但并不适合直接用于对话模型的训练,因为这样可能会导致模型产生不良行为。第二部分是由人类生成并注释的红队测试对话。 这部分数据可以帮助我们了解如何对模型进行更深入的鲁棒性测试,并发现哪些攻击方式更有可能成功。
Stanford Human Preferences(SHP)数据集包含38.5 万条来自18 个不同领域的问题和指令,覆盖了从烹饪到法律建议的多个话题。 这些数据衡量了人们对哪个答案更有帮助的偏好,旨在为RLHF 奖励模型和自然语言生成评估模型提供训练语料。具体来说,每条数据都是Reddit 的一篇帖子。 这篇帖子中会有一个问题或指示,以及两条高赞评论作为答案。SHP 数据构造时通过一定的筛选规则,选择点赞更多的评论作为人类更加偏爱的回复。SHP 和Anthropic 的HH-RLHF有所不同。最大的差异在于SHP 里的内容都是Reddit 用户自然产生的,而HH-RLHF 中的内容则是机器生成的。 这意味着这两个数据集的内容风格和特点都大有不同,可以互为补充。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-07
忽视小模型和知识库,企业AI应用必将是死路一条
2025-05-07
探讨如何构建具有可扩展长时记忆AI Agents相关的技术实现
2025-05-07
周天虹 招商银行首席信息官:大语言模型3大突破、4个影响
2025-05-07
NVIDIA紧追Qwen3:首发Nemotron高效推理模型技术报告
2025-05-07
一文实测Gemini 2.5 Pro:视频驱动的代码生成,打造交互式开发应用新范式
2025-05-06
彻底搞懂 MCP 是什么、和 API 的区别、对企业的价值,如何在企业落地、未来趋势
2025-05-06
云效 MCP Server:AI 驱动的研发协作新范式
2025-05-06
破茧成蝶:阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-30
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28