微信扫码
与创始人交个朋友
我要投稿
今天Qwen2-Math重磅来袭,其基础模型使用 Qwen2-1.5B/7B/72B 进行初始化。接下来,对模型进行了预训练,使用的是精心构建的数学领域语料库。这个语料库汇集了大量优质的数学网络资源、书籍、代码、试题以及由 Qwen2 模型生成的数学训练数据。
Qwen2-Math 基础模型在三个知名的英语数学评测标准上进行了测试,包括 GSM8K、Math 和 MMLU-STEM。同时,也将其应用于三个中文数学评测标准,分别是 CMATH、高考数学填空题和高考数学问答。所有这些评估都是通过少量样本的链式推理(Few-shot CoT)方式进行的。
表现强悍
看看各个测试集的具体表现,所有评估均使用 Few-shot CoT 方式:
Qwen2-Math指令微调模型是这么干的:
模型层面:首先训练一个专为数学设计的奖励模型,这个模型基于 Qwen2-Math-72B。随后,我们将这个丰富的奖励信号与一个简单的二元指示器相结合,后者能够标示模型是否准确回答问题。利用这种复合信号,我们对模型进行了监督学习,通过拒绝采样的方法创建了 SFT(Supervised Fine-Tuning)数据集。在 SFT 模型的基础上,我们进一步应用了 GRPO(Gradient-based Reward Prediction Optimization)技术来对模型进行优化。
数据层面:去除数据污染,在预训练和微调数据集上都进行了去污染处理。具体来说,对于预训练数据,针对数学数据集,包括 GSM8K、MATH,并移除与测试集有显著重叠的样本。移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。对于微调数据,移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本,使用了同样的过滤方法。
为了进一步测试模型,Qwen团队对测试了在 greedy 和 RM@8 的条件下模型在各个基准评测上的 0-shot 成绩,对于选择题类型的题目,如 MMLU(STEM),我们使用了 5-shot 进行评测。
遗憾的是,模型目前只支持英文,想体验的可以访问:
https://hf-mirror.com/Qwen/Qwen2-Math-1.5B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-7B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-72B-Instruct
如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-11
2024-07-11
2024-07-09
2024-09-18
2024-06-11
2024-07-23
2024-07-20
2024-07-12
2024-07-26
2024-07-23
2024-11-18
2024-11-16
2024-11-16
2024-10-31
2024-10-31
2024-10-27
2024-10-26
2024-10-25