微信扫码
与创始人交个朋友
我要投稿
由OpenAI的Hunter Lightman、Vineet Kosaraju、Yura Burda、Harri Edwards等作者撰写的Let's Verify Step by Step,文章探讨了在训练大型语言模型进行复杂多步推理时,过程监督(process supervision)与结果监督(outcome supervision)两种不同监督方法的效果比较。
结果监督(PRM)是一种监督学习方式,它侧重于模型的最终输出或结果。在训练过程中,模型仅根据最终结果的正确性(正确或错误)来接收反馈。这种监督方式不涉及中间步骤或推理过程的评价,而是关注最终答案是否正确。
过程监督(ORM)则提供了对模型中间步骤的反馈,强调在模型的整个推理过程中的每一步都得到评估和指导。这种监督方式不仅关注最终结果,还关注模型是如何达到这个结果的,即模型的推理过程是否合理和正确。
所有的训练使用不同大小的原始 GPT4 模型进行 (不是 RLHF 版本的 GPT4),其中,large model 就是完全体 GPT4。而小号模型是一个用了 1/200 训练资源的小号 GPT4。
在所有的实验开始之前,作者先对所有模型在一个叫做 mathMix 的数学题和解答的数据集 (1.5B) 进行微调。
基于微调的模型对问题生成一些多步的解答,然后人工标注员来对每一步标注。对于每一步标注分为三类:
正面(Positive):表示这一步是正确的,并且是合理的,对解决问题有贡献。
负面(Negative):表示这一步是不正确的,或者虽然在技术上正确但不合理,可能会误导解决方案的方向。
中性(Neutral):表示这一步的合理性不明确,可能既不正确也不合理,但也不一定是错误的。中性标签可能用于那些虽然技术上正确但并没有推进解决方案,或者在上下文中看似合理但实际上可能会引起误解的步骤。
文章中提到了一个提高训练效率的方式:convincing wrong-answer。PRM 模型打分很高,但最终把答案做错的case。
整个过程是一个多阶段、迭代式的优化循环:
首先,generator 模型生成一批数据样本。这些样本随即被标注,为下一步做准备。接着,利用这批已标注的数据训练一个初始的 PRM(可能指 Prompt Response Model)模型。
然后进入关键的优化环节:系统会识别出一系列'令人信服的错误回答'。这些特殊样本极具价值,因为它们代表了模型最容易犯错的边界情况。这批样本随后被精心标注,用以进一步完善模型。
利用新增的标注数据,PRM 模型得以重新训练,其性能得到提升。然而,优化并未就此停止。系统会再次寻找新的'令人信服的错误回答',重复标注和再训练的过程。
这个精心设计的优化循环持续进行了 10 轮之多。
过程监督奖励模型(PRM)的训练:
结果监督奖励模型(ORM)的训练:
作者尝试了Math以外的数据集 (和 PRM、ORM 的训练数据不一致),PRM比ORM有更好的效果。
过程监督可以训练出比结果监督更可靠的奖励模型。
主动学习可以显著提高人工数据收集的效率。
作者发布了PRM800K数据集,以促进与大型语言模型对齐相关的研究。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-25
AI与你两小时对话就能复制出另一个你:准确率高达85%
2024-11-25
神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
2024-11-23
大模型微调,使用QLoRA和自定义数据集微调大模型(上)
2024-11-22
RAG与微调:大模型落地的最佳路径选择
2024-11-22
微调大模型的五个技巧
2024-11-20
深入了解Fine-Tuning:解锁大语言模型的潜能
2024-11-19
大模型RAG神器,利用LangSmith监测、跟踪、微调LLM和RAG
2024-11-19
9.9比9.11大0.79,让大模型准确地做好数学题
2024-07-11
2024-07-11
2024-07-09
2024-09-18
2024-06-11
2024-07-23
2024-07-20
2024-07-12
2024-07-26
2024-07-23
2024-11-18
2024-11-16
2024-11-16
2024-10-31
2024-10-31
2024-10-27
2024-10-26
2024-10-25