我要投稿

北大千问团队推出数学专用版CriticGPT，“找茬”让大模型进步更快

发布日期：2024-07-14 05:55:11 浏览次数： 2202 作者：量子位

批评不仅能让人进步，也能让大模型的能力提升。

OpenAI就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是，就在CriticGPT放出的前几天，北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。

在无需训练的设置下，验证器能够在推理时辅助模型在GSM8K上的准确率从86.6%提升到88.2%。

在GSM8K数据集上，它可以让模型的准确率从86.6%提升到88.2%。

CriticGPT的核心思路是在代码中故意设置bug并进行详细标注，然后用得到的数据训练出会debug的模型。

北大团队发现，这种方法不仅在代码当中有用，也能帮助语言模型解决数学问题。

于是团队利用相似的思路，把代码换成数学问题，推出了“数学版CriticGPT”——Math-Minos。

用GPT4逐步提出修正意见

在数学推理领域，验证解决方案的正确性，是确保推理质量的关键步骤。

然而，现有的数学验证器大多依赖于二元分类标签进行训练，这种方式在提供正确或错误原因的解释上存在明显不足，无法给验证器提供足够充分的监督信号来训练。

Math-Minos则克服了这一局限，提供了更深入的解释，极大地丰富了验证器的训练信息。

它引入了逐步的自然语言反馈作为理由标签，不仅指出了解决方案的正误，还能逐步分析出错误的原因。

在自然语言反馈的获取上，研究团队一开始使用GPT-4生成训练数据，但通过实验发现，即使是GPT-4，在逐步评价数学推理任务时也会出现一定比例的错误。

为了一定程度避免这个问题，研究人员通过在提示中引入步骤级别的二元分类标签，简化了GPT-4的任务，使得GPT-4能够更准确地生成评估。

首先，通过监督式微调，使用自然语言反馈作为训练数据，有效提升了模型的评估能力。

其次，通过标准的ORM（Outcome Reward Model，输出奖励模型）和PRM（Process Reward Model，过程奖励模型）训练，实现了高效的推理，这种做法有两个好处。

一是通过两阶段训练，可以将二分类数据和监督微调数据解耦。

由于监督信号的稀疏性，训练二分类的数据往往远多于监督微调的数据，而研究发现，仅需要少量的监督微调数据，就可以很大程度提升模型的评估能力。

另一方面，在验证器进行验证时，不需要显示地生成自然语言反馈，让推理过程更高效。

ORM任务表现明显提升

总得来看，研究人员在训练阶段添加了30K的自然语言反馈数据，为Mistral-7B验证器带来了数学能力的提升，在Best-of-256的实验设置下：

在ORM的设置下，MATH-Minos将Mistral-7B的准确率在GSM8K数据集从86.2%提升到87.3%，在MATH数据集从35.9%提升到37.4%。

在PRM的设置下，MATH-Minos将Mistral-7B的准确率在GSM8K数据集从87.1%提升到87.6%，在MATH数据集从36.7%提升到37.8%。

在与Self-Consistency结合的设置下，MATH-Minos将Mistral-7B的准确率在GSM8K数据集从87.1%提升到88.2%，在MATH数据集从37.8%提升到38.6%。

在ORM和PRM任务设置中，Math-Minos均展现出了优越的性能，特别是在ORM设置中，其改进更为显著。

另外，研究团队还对生成器在步骤级别产生的错误进行了深入分析，将其归类为五种类型——无关错误、累积错误、计算错误、逻辑错误和其他错误。

分析结果表明，在多步骤推理中，步骤错误的可能原因有很多种，而且模型在这些错误类型中都有可能出错，这进一步强调了引入自然语言反馈来指导模型学习的重要性。

实验发现，在两个数据集上，累积错误（即一个步骤的错误很可能直接导致所有后续步骤的错误）在所有错误类型中占到的比例最高。

不同数据集上的错误分布也有不同的特点，在相对简单的GSM8K上，计算错误更多；在更困难的MATH数据集上，逻辑错误更多。

通过构建元评估集，研究团队评估了验证器在没有生成器影响下，准确判断最终答案的能力。

结果显示，Math-Minos在训练过程中的元评估一致优于传统的ORM，并且展现出更快的收敛速度和更精准的判断能力。

同时实验结果也表明，Math-Minos具有很强的Scale Up的潜力。

总之，Math-Minos的开发不仅提升了数学验证器的性能，更为自然语言处理领域提供了一种新的训练范式。

研究团队希望这项工作能够启发未来研究，探索自然语言反馈与分类式验证器的潜在整合，推动大型语言模型在复杂推理任务上的能力。

论文地址：
https://arxiv.org/abs/2406.14024
GitHub：
https://github.com/KbsdJames/MATH-Minos

— 完 —

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-19

低延迟小智AI服务端搭建-ASR篇（续）：CPU可跑

2025-04-19

LoRA 与QLoRA区别

2025-04-18

DeepSeek-V3-0324 本地部署，vLLM和SGLang的方法

2025-04-18

Ollama对决vLLM：DEEPSEEK部署神器选谁？90%人选错！这份实测攻略让你秒懂！

2025-04-18

ollama v0.6.6 震撼发布！推理能力翻倍、下载提速 50%，对比 vLLM/LMDeploy 谁更强

2025-04-17

从零开始开发 MCP Server

2025-04-17

AI 应用开发不要在大模型迭代必经之路上

2025-04-17

阿里百炼出手了！MCP 现在配置门槛下降了 100 倍

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

2025-03-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB