我要投稿

卷起来了，Qwen2-Math重磅来袭，数学能力超越GPT-4o

发布日期：2024-08-09 05:32:34 浏览次数： 2663

作者：哎呀AIYA

微信搜一搜，关注“哎呀AIYA”

今天Qwen2-Math重磅来袭，其基础模型使用 Qwen2-1.5B/7B/72B 进行初始化。接下来，对模型进行了预训练，使用的是精心构建的数学领域语料库。这个语料库汇集了大量优质的数学网络资源、书籍、代码、试题以及由 Qwen2 模型生成的数学训练数据。

Qwen2-Math 基础模型在三个知名的英语数学评测标准上进行了测试，包括 GSM8K、Math 和 MMLU-STEM。同时，也将其应用于三个中文数学评测标准，分别是 CMATH、高考数学填空题和高考数学问答。所有这些评估都是通过少量样本的链式推理（Few-shot CoT）方式进行的。

表现强悍

看看各个测试集的具体表现，所有评估均使用 Few-shot CoT 方式：

Qwen2-Math指令微调模型是这么干的：

模型层面：首先训练一个专为数学设计的奖励模型，这个模型基于 Qwen2-Math-72B。随后，我们将这个丰富的奖励信号与一个简单的二元指示器相结合，后者能够标示模型是否准确回答问题。利用这种复合信号，我们对模型进行了监督学习，通过拒绝采样的方法创建了 SFT（Supervised Fine-Tuning）数据集。在 SFT 模型的基础上，我们进一步应用了 GRPO（Gradient-based Reward Prediction Optimization）技术来对模型进行优化。

数据层面：去除数据污染，在预训练和微调数据集上都进行了去污染处理。具体来说，对于预训练数据，针对数学数据集，包括 GSM8K、MATH，并移除与测试集有显著重叠的样本。移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。对于微调数据，移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本，使用了同样的过滤方法。

为了进一步测试模型，Qwen团队对测试了在 greedy 和 RM@8 的条件下模型在各个基准评测上的 0-shot 成绩，对于选择题类型的题目，如 MMLU(STEM)，我们使用了 5-shot 进行评测。

遗憾的是，模型目前只支持英文，想体验的可以访问：

https://hf-mirror.com/Qwen/Qwen2-Math-1.5B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-7B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-72B-Instruct

如果对内容有什么疑问和建议可以私信和留言，也可以添加我加入大模型交流群，一起讨论大模型在创作、RAG和agent中的应用。