我要投稿

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

发布日期：2024-09-20 10:35:01 浏览次数： 13750

作者：AI赋能实验室

微信搜一搜，关注“AI赋能实验室”

昨晚，QWEN2.5正式开源上新，作为最新一代的国产开源模型，QWEN2.5不仅在性能上有了显著提升，还重新带来了14B和32B这两个适合本地单卡部署的模型。

QWEN一直是国内最重要的开源模型系列。我们也对新版本的QWEN2.5进行了初步实测。本文超过2K字；可能会带给你对国产开源模型完全不一样的认知。

Qwen2.5的核心特点

一、全面性能提升

Qwen2.5是在前代基础上进行了大幅度升级的结果。该系列包括从1.5B到72B参数规模的不同版本，每个版本都针对特定需求进行了优化。最新的发布版本包括 LLMs Qwen2.5，以及针对编码的专用模型 Qwen2.5-Coder 和数学的专用模型 Qwen2.5-Math。

特别是其中的14B/32B版,是最适合单卡部署的大小。据官方信息显示，Qwen2.5在自然语言理解、代码编写、数学解题以及多语言处理等多个方面都有显著增强。

本次开源的模型规格。

与 Qwen2 相比，Qwen2.5 获得了显著更多的知识（MMLU：85+）并在编码（HumanEval 85+）和数学（MATH 80+）方面能力大幅提升。此外，新模型在指令遵循、生成长文本（超过 8K token）、理解结构化数据（例如，表格）以及生成结构化输出（尤其是 JSON）方面取得了显著进步。

Qwen2.5 模型通常对系统提示的多样性更具弹性，增强了角色扮演实现和聊天机器人的条件设置。与 Qwen2 相同，Qwen2.5 语言模型支持高达 128K 个标记，并可以生成高达 8K 个 token。它们还支持超过 29 种语言，包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

对于程序员而言，一个能够帮助编写高质量代码的语言模型无疑是非常吸引人的。Qwen2.5-Coder特别强调了这一点，通过增加代码训练数据量并改进算法设计来提升编码能力。这里面，2.5版本的7B能力已经超过了DEEPSEEK开源的V2-LITE, 16B MOE多专家模型；而且，还有一个超大杯的32B CODER版本还在路上。

坤叔非常认可阿里在这波技术开源的战略气度，下面是阿里的一段原话：

“我们将我们基于 API 的模型最新版本Qwen-Plus与领先的专有和开源模型进行了基准测试，包括 GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B 和 DeepSeek-V2.5。这次比较展示了 Qwen-Plus 在当前大型语言模型领域的竞争优势。我们表明Qwen-Plus在许多方面显著优于 DeepSeek-V2.5，并在 Llama-3.1-405B 方面表现出竞争力，但在某些方面仍不及 GPT4-o 和 Claude-3.5-Sonnet。”

我认为这段话本身的态度就很好，没有“遥遥领先”，也没有“天天赶超”，有的是不卑不亢，也承认差距。

至于性能，除了72B毫无疑问的大幅提升之外；更让人惊喜的是32B和14B。