AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Qwen2.5-LLM:扩展大型语言模型的边界
发布日期:2024-09-20 11:25:47 浏览次数: 1527



我们隆重推出最新发布的Qwen2.5系列语言模型!我们共开源了7款decoder-only的稠密模型,参数规模从0.5B到72B不等。


我们调研,发现用户对10B至30B模型的兴趣明显增加,同时3B规模的模型也越来越适用于移动端场景。为此,Qwen2.5系列开源了Qwen2.5-3B、Qwen2.5-14B 和 Qwen2.5-32B。

同时,我们还推出了Qwen-Plus与Qwen-Turbo版本,可以通过阿里云大模型服务平台的API服务进行体验。

相比Qwen2系列,Qwen2.5带来了以下全新升级:

1、全面开源:考虑到产品对10B至30B范围模型的需求和移动端对3B模型的兴趣,此次除了继续开源Qwen2系列中的0.5B/1.5B/7B/72B四款模型外,Qwen2.5系列还增加了两个高性价比的中等规模模型—— Qwen2.5-14B 和 Qwen2.5-32B,以及一款适合移动端的 Qwen2.5-3B。所有模型在同类开源产品中均具有很强的竞争力,例如Qwen2.5-32B的整体表现超越了Qwen2-72B,Qwen2.5-14B则领先于Qwen2-57B-A14B。

2、更大规模、更高质量的预数据训练集:我们的预训练数据集规模从 7T tokens 扩展到了 18T tokens。

3、知识储备升级:Qwen2.5的知识涵盖更广。在MMLU基准中,Qwen2.5-7B 和 72B的得分相较于Qwen2分别从70.3提升到 74.2,和从84.2提升到 86.1。此外,Qwen2.5还在 GPQA、MMLU-Pro、MMLU-redux 和 ARC-c 等多个基准测试中有了明显提升。

4、代码能力增强:得益于Qwen2.5-Coder的突破,Qwen2.5在代码生成能力上也大幅提升。Qwen2.5-72B-Instruct在LiveCodeBench(2305-2409)、MultiPL-E和MBPP中的分别得分 55.5、75.1 和 88.2,优于Qwen2-72B-Instruct的32.2、69.2和80.2。

5、数学能力提升:引入了Qwen2-Math的技术后,Qwen2.5的数学推理表现也有了快速提升。在MATH基准测试中,Qwen2.5-7B/72B-Instruct得分从Qwen2-7B/72B-Instruct的52.9/69.0上升到了 75.5/83.1。

6、更符合人类偏好:Qwen2.5生成的内容更加贴近人类的偏好。具体来看,Qwen2.5-72B-Instruct的Arena-Hard得分从 48.1 大幅提升至 81.2,MT-Bench得分也从 9.12 提升到了 9.35,与之前的Qwen2-72B相比提升显著。

7、其他核心能力提升:Qwen2.5在指令跟随、生成长文本(从1K升级到 8K tokens)、理解结构化数据(如表格),以及生成结构化输出(尤其是JSON)上都有非常明显的进步。此外,Qwen2.5能够更好响应多样化的系统提示,用户可以给模型设置特定角色或自定义条件。

模型基础信息


本次发布的 Qwen2.5 语言模型系列包括七个开源模型,规模从 0.5B 到 72B 不等。大多数模型支持 128K(131,072)个 token 的上下文长度,并能生成 8K token 的文本,支持长篇内容创作。除部分特殊版本外,模型主要采用 Apache 2.0 开源许可协议,而 Qwen2.5-3B 和 Qwen2.5-72B 分别使用 Qwen Research 许可协议 和 Qwen 许可协议。


模型表现


在这一部分,我们将通过大量的基准测试来评估 Qwen2.5 基础语言模型和指令调优模型的表现。

Qwen2.5 基础语言模型评估

评估主要考察基础模型在自然语言理解、通用问答、代码、数学、科学知识、推理及多语言能力等方面的表现。

涉及的评估数据集包括:

· 通用任务:MMLU (5-shot)、MMLU-Pro (5-shot)、MMLU-redux (5-shot)、BBH (3-shot)、ARC-C (25-shot)、TruthfulQA (0-shot)、Winogrande (5-shot)、HellaSwag (10-shot)·通用任务:MMLU (5-shot)、MMLU-Pro (5-shot)、MMLU-redux (5-shot)、BBH (3-shot)、ARC-C (25-shot)、TruthfulQA (0-shot)、Winogrande (5-shot)、HellaSwag (10-shot)

· 数学与科学任务:GPQA (5-shot)、Theorem QA (5-shot)、GSM8K (4-shot)、MATH (4-shot)

· 代码任务:HumanEval (0-shot)、HumanEval+ (0-shot)、MBPP (0-shot)、MBPP+ (0-shot)、MultiPL-E (0-shot) (Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript)

· 多语言任务:Multi-Exam (M3Exam 5-shot、IndoMMLU 3-shot、ruMMLU 5-shot、mMMLU 5-shot)、Multi-Understanding (BELEBELE 5-shot、XCOPA 5-shot、XWinograd 5-shot、XStoryCloze 0-shot、PAWS-X 5-shot)、Multi-Mathematics (MGSM 8-shot)、Multi-Translation (Flores-101 5-shot)

Qwen2.5-72B 表现:







Qwen2.5-72B 基础模型在各类任务上明显超过同类模型,以不到 1/5 的参数达到了与 Llama-3.1-405B 相当的表现。相比它的前身 Qwen2-72B,Qwen2.5-72B 几乎在所有基准评测上都有显著提升,尤其在通用任务、数学和代码竞赛中。

Qwen2.5-14/32B 表现:


Qwen2.5-14B 模型在多项任务中表现稳健,尤其是在像MMLU和BBH这样的通用任务上,分别取得了 79.7 分和 78.2 分,超越了许多规模更大的竞争对手。Qwen2.5-32B 表现尤为出色,甚至优于参数更大的同类模型。特别是在数学和代码等挑战性任务中,Qwen2.5-32B 大幅领先其前身 Qwen1.5-32B,在 MATH 中获得 57.7分,在MBPP中获得 84.5 分。

Qwen2.5-7B 表现:


Qwen2.5-7B在多个基准测试中超越了它的前代和同类竞争者。尽管它的非嵌入参数更少,但能够在各类任务中的表现更加出色。例如,Qwen2.5-7B 在 MMLU 通用基准测试中得分 74.2,在数学测试MATH中的得分为 49.8,而在代码任务HumanEval中取得了 57.9 分。

Qwen2.5-0.5B/1.5B/3B 表现:


对于移动端模型,Qwen2.5-0.5B、1.5B 和 3B 在几乎所有评测中都表现了强劲的性能。值得一提的是,Qwen2.5-0.5B 模型,在一些数学和编程任务中甚至超过了Gemma2-2.6B。

指令微调模型评估:

评估主要考察指令微调模型在自然语言理解、通用问答、推理、代码、数学、指令遵循及人类对齐等方面的表现。涉及的评估数据集包括:

· 通用任务:MMLU-Pro、MMLU-redux

· 数学与科学任务:GPQA、GSM8K、MATH

· 代码任务:HumanEval、MBPP、MultiPL-E、LiveCodeBench 2305-2409、LiveBench 0831指令和对齐任务:IFeval strict-prompt、Arena-Hard、AlignBench v1.1、MTbench

Qwen2.5-72B-Instruct 表现:


Qwen2.5-72B-Instruct 模型展现出了极为优异的表现,甚至在多个核心任务上超越了参数量巨大的 Llama-3.1-405B,在数学(MATH: 83.1)、代码(LiveCodeBench: 55.5)以及对话任务(Arena-Hard: 81.2)中表现尤为突出。与基础模型 Qwen2.5-72B 及前身 Qwen2-72B-Instruct 相比,Qwen2.5-72B-Instruct 在各项任务上的表现都有显著提升。

Qwen2.5-Turbo、Qwen2.5-14B-Instruct、Qwen2.5-32B-Instruct 表现:


Qwen2.5-32B-Instruct 在大多数任务中表现优于同类规模的模型。与 GPT-4o-mini 相比,我们的开源模型 Qwen2.5-14B-Instruct 与 API 模型 Qwen-Turbo也在所有任务都中展现出了相当的竞争力。

Qwen2.5-7B-Instruct 表现:


Qwen2.5-7B-Instruct 在除了 IFeval 的所有任务中表现均优于竞争对手 Gemma2-9b-IT 和 Llama3.1-8B-Instruct,尤其是在数学(MATH: 75.5)和代码(HumanEval: 84.8)任务上优势明显。

Qwen2.5-3B-Instruct 表现:


在适用移动端的指令模型中,Qwen2.5-3B-Instruct 的参数量虽然少于 Phi3.5-mini-Instruct 和 MiniCPM3-4B,但在数学和编程任务上仍然具有优势,同时在语言理解方面也展现出不错的实力。

Qwen2.5-0.5B/1.5B-Instruct 表现:


Qwen2.5-1.5B-Instruct 及 Qwen2.5-0.5B-Instruct 的性能相比前代大幅提升,使它们尤其适合在资源极度受限的端侧场景下应用。

多语言表现

为了更好地评估指令微调模型的多语言表现,我们收集并扩展了以下基准测试:

· IFEval(多语言):我们将IFEval进行翻译,构建了多语言版本的 IFEval。在此过程中,我们移除了语言特定(例如“以字母A开头”)的测试用例。每种语言我们都收集了100个测试用例,包括阿拉伯语(ar)、西班牙语(es)、法语(fr)、印尼语(in)、日语(ja)、韩语(ko)、葡萄牙语(pt)和越南语(vi)。所有用例都由付费标注人员进行检查,并在必要时进行修改。

· 知识能力测试:我们选用了五个类似 MMLU 的多选题基准测试来验证 Qwen2.5 系列模型的多语言知识掌握情况,包括:AMMLU(阿拉伯语)、JMMLU(日语)、KMMLU(韩语)、IndoMMLU(印尼语)和 TurkishMMLU(土耳其语)。此外,我们还展示了翻译版MMLU(即 okapi_MMLU,将英文MMLU翻译为多种语言)的性能表现。

· MGSM8K(扩展版):在原版 MGSM8K 包含的语言外,我们还增加了阿拉伯语(ar)、韩语(ko)、葡萄牙语(pt)和越南语(vi)的支持。我们将 250 个测试用例翻译成这四种语言,保持与其他 MGSM8K 支持语言测试数量一致。所有示例也由付费标注人员进行了检查和必要的修改。

· 文化差异:我们还使用了 BLEnD 基准测试,旨在评估大模型对于文化差异的处理能力,以进一步验证 Qwen2.5 系列模型的表现。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询