AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


重磅!Qwen2-Math,新一代数学模型!
发布日期:2024-08-09 05:04:39 浏览次数: 1885 来源:PaperAgent


阿里发布了Qwen2 开源家族的新成员——Qwen2-Math-1.5B/7B/72B 系列。Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o)。

他们希望Qwen2-Math能够为科学界解决需要复杂多步逻辑推理的高级数学问题做出贡献。在一系列数学基准评测上评估了数学专用模型 Qwen2-Math。在 Math 上的评测结果表明,最大的数学专用模型 Qwen2-Math-72B-Instruct 超越了最先进的模型,包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

Qwen2-Math基础模型

Qwen2-Math 的基础模型使用 Qwen2-1.5B/7B/72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练,该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen2 模型合成的数学预训练数据。
在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了Qwen2-Math 基模型。此外,还评估了三个中国数学基准 CMATH,GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。

Qwen2-Math指令微调模型

首先基于 Qwen2-Math-72B 训练了一个数学专用的奖励模型。然后,将这个密集的奖励信号与一个二元信号结合,该二元信号指示模型是否正确回答了问题。这个组合信号被用作监督来通过拒绝采样构建 SFT 数据,并在此SFT模型的基础上进一步使用 GRPO 来优化模型。
对 Qwen2-Math-Instruct 在英语和中文的数学基准评测上进行了评估。除了常用的基准评测,如 GSM8K 和 MATH 之外,还加入了更具挑战性的考试以全面检测 Qwen2-Math-Instruct 的能力,例如 OlympiadBench、CollegeMath、高考(GaoKao)、AIME2024 以及 AMC2023。对于中文的数学评测集,使用了 CMATH、2024年中国高考数学题以及2024年中国中考数学题。
汇报了在 greedy 和 RM@8 的条件下模型在各个基准评测上的 0-shot 成绩,对于选择题类型的题目,如 MMLU(STEM),使用了 5-shot 进行评测。

案例分析

这里列举了一些测试的竞赛题,其中包括了多道 IMO 竞赛题。通过评测及具体样例分析,发现 Qwen2-Math 已经具备了解决一些简单竞赛题的数学能力。

https://qwenlm.github.io/zh/blog/qwen2-math/https://hf-mirror.com/Qwen/Qwen2-Math-72B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-7B-Instructhttps://hf-mirror.com/Qwen/Qwen2-Math-1.5B-Instruct


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询