我要投稿

通义千问Qwen2.5开源，媲美Llama3.1-405B

发布日期：2024-09-19 08:50:48 浏览次数： 4801 作者：AI工程师笔记

通义千问Qwen2.5开源，媲美Llama3.1-405B

介绍

就在今天早些时候，阿里发布了新的语言模型 Qwen2.5，以及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型，包括：

• Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
• Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
• Qwen2.5-Math: 1.5B, 7B, 以及72B。

Qwen2.5 所有模型都在最新的大规模数据集上进行了预训练，该数据集包含多达 18T tokens。新模型在指令执行、生成长文本（超过 8K 标记）、理解结构化数据（例如表格）以及生成结构化输出特别是 JSON 方面取得了显著改进。Qwen2.5 模型总体上对各种system prompt更具适应性，增强了角色扮演实现和聊天机器人的条件设置功能。与 Qwen2 类似，Qwen2.5 语言模型支持高达 128K tokens，并能生成最多 8K tokens的内容。它们同样保持了对包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种以上语言的支持。我们在下表中提供了有关模型的基本信息。

专业领域的编程模型 Qwen2.5-Coder 和数学模型 Qwen2.5-Math，相比其前身 CodeQwen1.5 和 Qwen2-Math 有了实质性的改进。具体来说，Qwen2.5-Coder 在包含 5.5 T tokens 编程相关数据上进行了训练，使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。同时，Qwen2.5-Math 支持中文和英文，并整合了多种推理方法，包括CoT（Chain of Thought）、PoT（Program of Thought）和 TIR（Tool-Integrated Reasoning）。

以下是整体的模型参数信息介绍：

模型性能

Qwen2.5-72B在多个基准测试中展示了经过指令调优的版本的综合结果，评估了模型的能力和人类偏好。从评测结果可以看到全方位领先Llama3.1-70B，甚至在部分优于Llama3.1-405B。

Qwen2.5-72B 的基础语言模型性能达到了顶级水准，同样是在与 Llama-3-405B 这样更大的模型对比时也不落下风。

Qwen2.5重新发布了140 亿参数和 320 亿参数模型，即Qwen2.5-14B 和 Qwen2.5-32B。两款指令微调模型在多样化的任务中超越了同等规模或更大规模的基线模型，例如 Phi-3.5-MoE-Instruct 和 Gemma2-27B-IT。

Qwen2.5-3B小参数模型仅凭约 30 亿参数就实现了Qwen2-7B、Llama3-8B、MiniCPM3-4B的同等性能，展示了其相对于前辈模型的高效性和能力。

Qwen2.5-Coder编程模型的性能也基本全方位领先于其他模型，如DeepSeek-Coder 33B-Instruct和CodeStral-22B。

Qwen2.5-Math相比于上个月刚刚发布的 Qwen2-Math，在更大规模的数学相关数据上进行了预训练，并且增加了对中文的支持，并通过赋予其进行 CoT（Chain of Thought）、PoT（Program of Thought）和 TIR（Tool-Integrated Reasoning）的能力来加强其推理能力。Qwen2.5-Math-72B-Instruct 的整体性能超越了 Qwen2-Math-72B-Instruct 和 GPT4-o，甚至是非常小的专业模型如 Qwen2.5-Math-1.5B-Instruct 也能在与大型语言模型的竞争中取得高度竞争力的表现。

支持框架

• Finetuning: ChatLearn, Llama-Factory, Axolotl, Firefly, Swift, XTuner, Unsloth, Liger Kernel
• Quantization: AutoGPTQ, AutoAWQ, Neural Compressor
• Deployment: vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino, TGI
• API Platforms: Together, Fireworks, OpenRouter
• Local Run: MLX, Llama.cpp, Ollama, LM Studio, Jan
• Agent and RAG Frameworks: Dify, LlamaIndex, CrewAI
• Evaluation: LMSys, OpenCompass, Open LLM Leaderboard
• Model Training: Arcee AI, Sailor, Dolphin, Openbuddy

昨天发布的最新版的ollama-0.3.11已支持Qwen2.5

参考

https://qwenlm.github.io/zh/blog/qwen2.5/

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-12

2025年值得关注的21个RAG开源项目

2025-04-12

元老级自动化 AI 工作流平台 n8n 简介｜安装n8n指南

2025-04-12

阿里达摩院开源的AI组件ChatUI，效果不错可以了解

2025-04-12

Refly正式发布 v0.5.0完全开源，自由画布进入强「知识库」时代！

2025-04-12

您的公司也许更需要小型语言模型

2025-04-12

Gemma3-OCR 功能强大且灵活的开源 OCR 项目

2025-04-12

“谷歌版MCP”来了，开源A2A 谷歌这回赢麻了

2025-04-12

GitHub 5k+ Star 开源项目 | AI 驱动的浏览器自动化神器 Nanobrowser

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

为什么大模型本地部署后“没了下文”？

2025-04-03

阿里搞了个大新闻！这AI能听会看还会实时唠嗑，科幻片都不敢这么拍？

2025-04-03

Agent框架大比拼：谁将引领智能应用的未来？

2025-04-01

OWL团队万字分享：复现Manus最好的团队，如何看待Agentic AI的落地现状？

2025-03-31

字节的开源 Manus — Agent Tars，我们离真正的复杂工作流还有多远？

2025-03-25

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB