微信扫码
添加专属顾问
我要投稿
由OpenAI的Hunter Lightman、Vineet Kosaraju、Yura Burda、Harri Edwards等作者撰写的Let's Verify Step by Step,文章探讨了在训练大型语言模型进行复杂多步推理时,过程监督(process supervision)与结果监督(outcome supervision)两种不同监督方法的效果比较。
结果监督(PRM)是一种监督学习方式,它侧重于模型的最终输出或结果。在训练过程中,模型仅根据最终结果的正确性(正确或错误)来接收反馈。这种监督方式不涉及中间步骤或推理过程的评价,而是关注最终答案是否正确。
过程监督(ORM)则提供了对模型中间步骤的反馈,强调在模型的整个推理过程中的每一步都得到评估和指导。这种监督方式不仅关注最终结果,还关注模型是如何达到这个结果的,即模型的推理过程是否合理和正确。
所有的训练使用不同大小的原始 GPT4 模型进行 (不是 RLHF 版本的 GPT4),其中,large model 就是完全体 GPT4。而小号模型是一个用了 1/200 训练资源的小号 GPT4。
在所有的实验开始之前,作者先对所有模型在一个叫做 mathMix 的数学题和解答的数据集 (1.5B) 进行微调。
基于微调的模型对问题生成一些多步的解答,然后人工标注员来对每一步标注。对于每一步标注分为三类:
正面(Positive):表示这一步是正确的,并且是合理的,对解决问题有贡献。
负面(Negative):表示这一步是不正确的,或者虽然在技术上正确但不合理,可能会误导解决方案的方向。
中性(Neutral):表示这一步的合理性不明确,可能既不正确也不合理,但也不一定是错误的。中性标签可能用于那些虽然技术上正确但并没有推进解决方案,或者在上下文中看似合理但实际上可能会引起误解的步骤。
文章中提到了一个提高训练效率的方式:convincing wrong-answer。PRM 模型打分很高,但最终把答案做错的case。
整个过程是一个多阶段、迭代式的优化循环:
首先,generator 模型生成一批数据样本。这些样本随即被标注,为下一步做准备。接着,利用这批已标注的数据训练一个初始的 PRM(可能指 Prompt Response Model)模型。
然后进入关键的优化环节:系统会识别出一系列'令人信服的错误回答'。这些特殊样本极具价值,因为它们代表了模型最容易犯错的边界情况。这批样本随后被精心标注,用以进一步完善模型。
利用新增的标注数据,PRM 模型得以重新训练,其性能得到提升。然而,优化并未就此停止。系统会再次寻找新的'令人信服的错误回答',重复标注和再训练的过程。
这个精心设计的优化循环持续进行了 10 轮之多。
过程监督奖励模型(PRM)的训练:
结果监督奖励模型(ORM)的训练:
作者尝试了Math以外的数据集 (和 PRM、ORM 的训练数据不一致),PRM比ORM有更好的效果。
过程监督可以训练出比结果监督更可靠的奖励模型。
主动学习可以显著提高人工数据收集的效率。
作者发布了PRM800K数据集,以促进与大型语言模型对齐相关的研究。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-17
AI Code 在团队开发工作流的融合思考
2025-03-16
使用Ollama部署deepseek大模型
2025-03-16
DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型,谁更强?
2025-03-16
deepseek-r1:32b在低性能电脑部署运行
2025-03-16
简化 Cursor, Windsurf 和 Cline 的开发流程:揭示 8 个必备的 MCP Server 插件
2025-03-16
部署DeepSeek的4条路,企业级客户到底该咋走?
2025-03-16
部署Ollama后端引擎运行LLM
2025-03-16
内网服务器离线安装部署 DeepSeek
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-03-16
2025-03-16
2025-03-13
2025-03-13
2025-03-11
2025-03-07
2025-03-05
2025-03-05