我要投稿

Qwen2.5-LLM：扩展大型语言模型的边界

发布日期：2024-09-20 11:25:47 浏览次数： 2358 作者：通义千问Qwen

我们隆重推出最新发布的Qwen2.5系列语言模型！我们共开源了7款decoder-only的稠密模型，参数规模从0.5B到72B不等。

我们调研，发现用户对10B至30B模型的兴趣明显增加，同时3B规模的模型也越来越适用于移动端场景。为此，Qwen2.5系列开源了Qwen2.5-3B、Qwen2.5-14B 和 Qwen2.5-32B。

同时，我们还推出了Qwen-Plus与Qwen-Turbo版本，可以通过阿里云大模型服务平台的API服务进行体验。

相比Qwen2系列，Qwen2.5带来了以下全新升级：

1、全面开源：考虑到产品对10B至30B范围模型的需求和移动端对3B模型的兴趣，此次除了继续开源Qwen2系列中的0.5B/1.5B/7B/72B四款模型外，Qwen2.5系列还增加了两个高性价比的中等规模模型—— Qwen2.5-14B 和 Qwen2.5-32B，以及一款适合移动端的 Qwen2.5-3B。所有模型在同类开源产品中均具有很强的竞争力，例如Qwen2.5-32B的整体表现超越了Qwen2-72B，Qwen2.5-14B则领先于Qwen2-57B-A14B。

2、更大规模、更高质量的预数据训练集：我们的预训练数据集规模从 7T tokens 扩展到了 18T tokens。

3、知识储备升级：Qwen2.5的知识涵盖更广。在MMLU基准中，Qwen2.5-7B 和 72B的得分相较于Qwen2分别从70.3提升到 74.2，和从84.2提升到 86.1。此外，Qwen2.5还在 GPQA、MMLU-Pro、MMLU-redux 和 ARC-c 等多个基准测试中有了明显提升。

4、代码能力增强：得益于Qwen2.5-Coder的突破，Qwen2.5在代码生成能力上也大幅提升。Qwen2.5-72B-Instruct在LiveCodeBench（2305-2409）、MultiPL-E和MBPP中的分别得分 55.5、75.1 和 88.2，优于Qwen2-72B-Instruct的32.2、69.2和80.2。

5、数学能力提升：引入了Qwen2-Math的技术后，Qwen2.5的数学推理表现也有了快速提升。在MATH基准测试中，Qwen2.5-7B/72B-Instruct得分从Qwen2-7B/72B-Instruct的52.9/69.0上升到了 75.5/83.1。

6、更符合人类偏好：Qwen2.5生成的内容更加贴近人类的偏好。具体来看，Qwen2.5-72B-Instruct的Arena-Hard得分从 48.1 大幅提升至 81.2，MT-Bench得分也从 9.12 提升到了 9.35，与之前的Qwen2-72B相比提升显著。

7、其他核心能力提升：Qwen2.5在指令跟随、生成长文本（从1K升级到 8K tokens）、理解结构化数据（如表格），以及生成结构化输出（尤其是JSON）上都有非常明显的进步。此外，Qwen2.5能够更好响应多样化的系统提示，用户可以给模型设置特定角色或自定义条件。

模型基础信息

本次发布的 Qwen2.5 语言模型系列包括七个开源模型，规模从 0.5B 到 72B 不等。大多数模型支持 128K（131,072）个 token 的上下文长度，并能生成 8K token 的文本，支持长篇内容创作。除部分特殊版本外，模型主要采用 Apache 2.0 开源许可协议，而 Qwen2.5-3B 和 Qwen2.5-72B 分别使用 Qwen Research 许可协议和 Qwen 许可协议。

模型表现

在这一部分，我们将通过大量的基准测试来评估 Qwen2.5 基础语言模型和指令调优模型的表现。

Qwen2.5 基础语言模型评估

评估主要考察基础模型在自然语言理解、通用问答、代码、数学、科学知识、推理及多语言能力等方面的表现。

涉及的评估数据集包括：

· 通用任务：MMLU (5-shot)、MMLU-Pro (5-shot)、MMLU-redux (5-shot)、BBH (3-shot)、ARC-C (25-shot)、TruthfulQA (0-shot)、Winogrande (5-shot)、HellaSwag (10-shot)·通用任务:MMLU (5-shot)、MMLU-Pro (5-shot)、MMLU-redux (5-shot)、BBH (3-shot)、ARC-C (25-shot)、TruthfulQA (0-shot)、Winogrande (5-shot)、HellaSwag (10-shot)

· 数学与科学任务：GPQA (5-shot)、Theorem QA (5-shot)、GSM8K (4-shot)、MATH (4-shot)

· 代码任务：HumanEval (0-shot)、HumanEval+ (0-shot)、MBPP (0-shot)、MBPP+ (0-shot)、MultiPL-E (0-shot) (Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript)

· 多语言任务：Multi-Exam (M3Exam 5-shot、IndoMMLU 3-shot、ruMMLU 5-shot、mMMLU 5-shot)、Multi-Understanding (BELEBELE 5-shot、XCOPA 5-shot、XWinograd 5-shot、XStoryCloze 0-shot、PAWS-X 5-shot)、Multi-Mathematics (MGSM 8-shot)、Multi-Translation (Flores-101 5-shot)

Qwen2.5-72B 表现：

Qwen2.5-72B 基础模型在各类任务上明显超过同类模型，以不到 1/5 的参数达到了与 Llama-3.1-405B 相当的表现。相比它的前身 Qwen2-72B，Qwen2.5-72B 几乎在所有基准评测上都有显著提升，尤其在通用任务、数学和代码竞赛中。

Qwen2.5-14/32B 表现：

Qwen2.5-14B 模型在多项任务中表现稳健，尤其是在像MMLU和BBH这样的通用任务上，分别取得了 79.7 分和 78.2 分，超越了许多规模更大的竞争对手。Qwen2.5-32B 表现尤为出色，甚至优于参数更大的同类模型。特别是在数学和代码等挑战性任务中，Qwen2.5-32B 大幅领先其前身 Qwen1.5-32B，在 MATH 中获得 57.7分，在MBPP中获得 84.5 分。

Qwen2.5-7B 表现：

Qwen2.5-7B在多个基准测试中超越了它的前代和同类竞争者。尽管它的非嵌入参数更少，但能够在各类任务中的表现更加出色。例如，Qwen2.5-7B 在 MMLU 通用基准测试中得分 74.2，在数学测试MATH中的得分为 49.8，而在代码任务HumanEval中取得了 57.9 分。

Qwen2.5-0.5B/1.5B/3B 表现：

对于移动端模型，Qwen2.5-0.5B、1.5B 和 3B 在几乎所有评测中都表现了强劲的性能。值得一提的是，Qwen2.5-0.5B 模型，在一些数学和编程任务中甚至超过了Gemma2-2.6B。

指令微调模型评估：

评估主要考察指令微调模型在自然语言理解、通用问答、推理、代码、数学、指令遵循及人类对齐等方面的表现。涉及的评估数据集包括：

· 通用任务：MMLU-Pro、MMLU-redux

· 数学与科学任务：GPQA、GSM8K、MATH

· 代码任务：HumanEval、MBPP、MultiPL-E、LiveCodeBench 2305-2409、LiveBench 0831指令和对齐任务：IFeval strict-prompt、Arena-Hard、AlignBench v1.1、MTbench

Qwen2.5-72B-Instruct 表现：

Qwen2.5-72B-Instruct 模型展现出了极为优异的表现，甚至在多个核心任务上超越了参数量巨大的 Llama-3.1-405B，在数学（MATH: 83.1）、代码（LiveCodeBench: 55.5）以及对话任务（Arena-Hard: 81.2）中表现尤为突出。与基础模型 Qwen2.5-72B 及前身 Qwen2-72B-Instruct 相比，Qwen2.5-72B-Instruct 在各项任务上的表现都有显著提升。

Qwen2.5-Turbo、Qwen2.5-14B-Instruct、Qwen2.5-32B-Instruct 表现：

Qwen2.5-32B-Instruct 在大多数任务中表现优于同类规模的模型。与 GPT-4o-mini 相比，我们的开源模型 Qwen2.5-14B-Instruct 与 API 模型 Qwen-Turbo也在所有任务都中展现出了相当的竞争力。

Qwen2.5-7B-Instruct 表现：

Qwen2.5-7B-Instruct 在除了 IFeval 的所有任务中表现均优于竞争对手 Gemma2-9b-IT 和 Llama3.1-8B-Instruct，尤其是在数学（MATH: 75.5）和代码（HumanEval: 84.8）任务上优势明显。

Qwen2.5-3B-Instruct 表现：

在适用移动端的指令模型中，Qwen2.5-3B-Instruct 的参数量虽然少于 Phi3.5-mini-Instruct 和 MiniCPM3-4B，但在数学和编程任务上仍然具有优势，同时在语言理解方面也展现出不错的实力。

Qwen2.5-0.5B/1.5B-Instruct 表现：

Qwen2.5-1.5B-Instruct 及 Qwen2.5-0.5B-Instruct 的性能相比前代大幅提升，使它们尤其适合在资源极度受限的端侧场景下应用。

多语言表现

为了更好地评估指令微调模型的多语言表现，我们收集并扩展了以下基准测试：

· IFEval（多语言）：我们将IFEval进行翻译，构建了多语言版本的 IFEval。在此过程中，我们移除了语言特定（例如“以字母A开头”）的测试用例。每种语言我们都收集了100个测试用例，包括阿拉伯语（ar）、西班牙语（es）、法语（fr）、印尼语（in）、日语（ja）、韩语（ko）、葡萄牙语（pt）和越南语（vi）。所有用例都由付费标注人员进行检查，并在必要时进行修改。

· 知识能力测试：我们选用了五个类似 MMLU 的多选题基准测试来验证 Qwen2.5 系列模型的多语言知识掌握情况，包括：AMMLU（阿拉伯语）、JMMLU（日语）、KMMLU（韩语）、IndoMMLU（印尼语）和 TurkishMMLU（土耳其语）。此外，我们还展示了翻译版MMLU（即 okapi_MMLU，将英文MMLU翻译为多种语言）的性能表现。

· MGSM8K（扩展版）：在原版 MGSM8K 包含的语言外，我们还增加了阿拉伯语（ar）、韩语（ko）、葡萄牙语（pt）和越南语（vi）的支持。我们将 250 个测试用例翻译成这四种语言，保持与其他 MGSM8K 支持语言测试数量一致。所有示例也由付费标注人员进行了检查和必要的修改。

· 文化差异：我们还使用了 BLEnD 基准测试，旨在评估大模型对于文化差异的处理能力，以进一步验证 Qwen2.5 系列模型的表现。