AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


逻辑推理大升级!过程监督助力模型推理能力更强大
发布日期:2024-10-09 20:47:06 浏览次数: 1806 来源:NLP轻松谈


由OpenAI的Hunter Lightman、Vineet Kosaraju、Yura Burda、Harri Edwards等作者撰写的Let's Verify Step by Step,文章探讨了在训练大型语言模型进行复杂多步推理时,过程监督(process supervision)与结果监督(outcome supervision)两种不同监督方法的效果比较。

结果监督(PRM)是一种监督学习方式,它侧重于模型的最终输出或结果。在训练过程中,模型仅根据最终结果的正确性(正确或错误)来接收反馈。这种监督方式不涉及中间步骤或推理过程的评价,而是关注最终答案是否正确。

过程监督(ORM)则提供了对模型中间步骤的反馈,强调在模型的整个推理过程中的每一步都得到评估和指导。这种监督方式不仅关注最终结果,还关注模型是如何达到这个结果的,即模型的推理过程是否合理和正确。

方法

数据预处理

所有的训练使用不同大小的原始 GPT4 模型进行 (不是 RLHF 版本的 GPT4),其中,large model 就是完全体 GPT4。而小号模型是一个用了 1/200 训练资源的小号 GPT4。

在所有的实验开始之前,作者先对所有模型在一个叫做 mathMix 的数学题和解答的数据集 (1.5B) 进行微调。

PRM800K 数据集

基于微调的模型对问题生成一些多步的解答,然后人工标注员来对每一步标注。对于每一步标注分为三类:

  • 正面(Positive):表示这一步是正确的,并且是合理的,对解决问题有贡献。

  • 负面(Negative):表示这一步是不正确的,或者虽然在技术上正确但不合理,可能会误导解决方案的方向。

  • 中性(Neutral):表示这一步的合理性不明确,可能既不正确也不合理,但也不一定是错误的。中性标签可能用于那些虽然技术上正确但并没有推进解决方案,或者在上下文中看似合理但实际上可能会引起误解的步骤。

文章中提到了一个提高训练效率的方式:convincing wrong-answer。PRM 模型打分很高,但最终把答案做错的case。

整个过程是一个多阶段、迭代式的优化循环:

首先,generator 模型生成一批数据样本。这些样本随即被标注,为下一步做准备。接着,利用这批已标注的数据训练一个初始的 PRM(可能指 Prompt Response Model)模型。

然后进入关键的优化环节:系统会识别出一系列'令人信服的错误回答'。这些特殊样本极具价值,因为它们代表了模型最容易犯错的边界情况。这批样本随后被精心标注,用以进一步完善模型。

利用新增的标注数据,PRM 模型得以重新训练,其性能得到提升。然而,优化并未就此停止。系统会再次寻找新的'令人信服的错误回答',重复标注和再训练的过程。

这个精心设计的优化循环持续进行了 10 轮之多。

PRM和ORM的训练

过程监督奖励模型(PRM)的训练:

  • PRM基于人类数据标注员提供的步骤级标签进行训练。
  • PRM被训练以预测每个步骤最后一个标记之后的正确性。
  • 预测以单个标记的形式呈现,模型在训练过程中最大化这些目标标记的对数似然。
  • PRM仅训练到解答中第一个错误步骤为止。
  • 在测试时,一个解答的PRM得分计算为每个步骤正确性概率的乘积。

结果监督奖励模型(ORM)的训练:

  • 从生成器中均匀采样固定数量的每个问题的解答。
  • ORM被训练以预测每个解答是否正确,仅基于最终答案。
  • 正确性通常通过自动检查最终答案来确定,但原则上这些标签也可以由人类提供。
  • 在测试时,使用ORM在最后一个标记处的预测作为整个解答的总体得分。

OOD

作者尝试了Math以外的数据集 (和 PRM、ORM 的训练数据不一致),PRM比ORM有更好的效果。

结论

  • 过程监督可以训练出比结果监督更可靠的奖励模型。

  • 主动学习可以显著提高人工数据收集的效率。

  • 作者发布了PRM800K数据集,以促进与大型语言模型对齐相关的研究。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询