AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


卷起来了,Qwen2-Math重磅来袭,数学能力超越GPT-4o
发布日期:2024-08-09 05:32:34 浏览次数: 1849


今天Qwen2-Math重磅来袭,其基础模型使用 Qwen2-1.5B/7B/72B 进行初始化。接下来,对模型进行了预训练,使用的是精心构建的数学领域语料库。这个语料库汇集了大量优质的数学网络资源、书籍、代码、试题以及由 Qwen2 模型生成的数学训练数据。

 Qwen2-Math 基础模型在三个知名的英语数学评测标准上进行了测试,包括 GSM8K、Math 和 MMLU-STEM。同时,也将其应用于三个中文数学评测标准,分别是 CMATH、高考数学填空题和高考数学问答。所有这些评估都是通过少量样本的链式推理(Few-shot CoT)方式进行的。

表现强悍

看看各个测试集的具体表现,所有评估均使用 Few-shot CoT 方式:

Qwen2-Math指令微调模型是这么干的:

模型层面:首先训练一个专为数学设计的奖励模型,这个模型基于 Qwen2-Math-72B。随后,我们将这个丰富的奖励信号与一个简单的二元指示器相结合,后者能够标示模型是否准确回答问题。利用这种复合信号,我们对模型进行了监督学习,通过拒绝采样的方法创建了 SFT(Supervised Fine-Tuning)数据集。在 SFT 模型的基础上,我们进一步应用了 GRPO(Gradient-based Reward Prediction Optimization)技术来对模型进行优化。

数据层面:去除数据污染,在预训练和微调数据集上都进行了去污染处理。具体来说,对于预训练数据,针对数学数据集,包括 GSM8K、MATH,并移除与测试集有显著重叠的样本。移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。对于微调数据,移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本,使用了同样的过滤方法。

为了进一步测试模型,Qwen团队对测试了在 greedy 和 RM@8 的条件下模型在各个基准评测上的 0-shot 成绩,对于选择题类型的题目,如 MMLU(STEM),我们使用了 5-shot 进行评测。

遗憾的是,模型目前只支持英文,想体验的可以访问:

https://hf-mirror.com/Qwen/Qwen2-Math-1.5B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-7B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-72B-Instruct

如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询