微信扫码
添加专属顾问
我要投稿
今天Qwen2-Math重磅来袭,其基础模型使用 Qwen2-1.5B/7B/72B 进行初始化。接下来,对模型进行了预训练,使用的是精心构建的数学领域语料库。这个语料库汇集了大量优质的数学网络资源、书籍、代码、试题以及由 Qwen2 模型生成的数学训练数据。
Qwen2-Math 基础模型在三个知名的英语数学评测标准上进行了测试,包括 GSM8K、Math 和 MMLU-STEM。同时,也将其应用于三个中文数学评测标准,分别是 CMATH、高考数学填空题和高考数学问答。所有这些评估都是通过少量样本的链式推理(Few-shot CoT)方式进行的。
表现强悍
看看各个测试集的具体表现,所有评估均使用 Few-shot CoT 方式:
Qwen2-Math指令微调模型是这么干的:
模型层面:首先训练一个专为数学设计的奖励模型,这个模型基于 Qwen2-Math-72B。随后,我们将这个丰富的奖励信号与一个简单的二元指示器相结合,后者能够标示模型是否准确回答问题。利用这种复合信号,我们对模型进行了监督学习,通过拒绝采样的方法创建了 SFT(Supervised Fine-Tuning)数据集。在 SFT 模型的基础上,我们进一步应用了 GRPO(Gradient-based Reward Prediction Optimization)技术来对模型进行优化。
数据层面:去除数据污染,在预训练和微调数据集上都进行了去污染处理。具体来说,对于预训练数据,针对数学数据集,包括 GSM8K、MATH,并移除与测试集有显著重叠的样本。移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。对于微调数据,移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本,使用了同样的过滤方法。
为了进一步测试模型,Qwen团队对测试了在 greedy 和 RM@8 的条件下模型在各个基准评测上的 0-shot 成绩,对于选择题类型的题目,如 MMLU(STEM),我们使用了 5-shot 进行评测。
遗憾的是,模型目前只支持英文,想体验的可以访问:
https://hf-mirror.com/Qwen/Qwen2-Math-1.5B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-7B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-72B-Instruct
如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-04
英伟达4B小模型:合成数据+测试时微调+优化集成
2026-01-04
2026年 LLM 微调全指南
2026-01-03
本地跑小模型带来5倍性能且成本极低!斯坦福从信息论视角重构智能体设计
2026-01-02
DeepSeek 发布新论文,提出全新 MHC 架构,有何创新与应用前景?
2026-01-01
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
2025-12-30
数据蒸馏技术探索
2025-12-22
多页文档理解强化学习设计思路:DocR1奖励函数设计与数据构建思路
2025-12-21
Llama Factory 实战,轻量级微调 LLM。
2025-10-21
2025-10-12
2025-10-14
2025-11-21
2025-11-05
2025-11-05
2025-12-04
2025-11-22
2025-11-20
2025-11-19
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17
2025-05-14