AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


QWEN2.5开源上新,14B/32B回归实测:这就是最强单卡本地模型!
发布日期:2024-09-20 10:35:01 浏览次数: 1524



昨晚,QWEN2.5正式开源上新,作为最新一代的国产开源模型,QWEN2.5不仅在性能上有了显著提升,还重新带来了14B和32B这两个适合本地单卡部署的模型。


QWEN一直是国内最重要的开源模型系列。我们也对新版本的QWEN2.5进行了初步实测。本文超过2K字;可能会带给你对国产开源模型完全不一样的认知。



Qwen2.5的核心特点


一、全面性能提升

Qwen2.5是在前代基础上进行了大幅度升级的结果。该系列包括从1.5B到72B参数规模的不同版本,每个版本都针对特定需求进行了优化。最新的发布版本包括 LLMs Qwen2.5,以及针对编码的专用模型 Qwen2.5-Coder 和数学的专用模型 Qwen2.5-Math


特别是其中的14B/32B版,是最适合单卡部署的大小。据官方信息显示,Qwen2.5在自然语言理解、代码编写、数学解题以及多语言处理等多个方面都有显著增强。


本次开源的模型规格。


与 Qwen2 相比,Qwen2.5 获得了显著更多的知识(MMLU:85+)并在编码(HumanEval 85+)和数学(MATH 80+)方面能力大幅提升。此外,新模型在指令遵循、生成长文本(超过 8K token)、理解结构化数据(例如,表格)以及生成结构化输出(尤其是 JSON)方面取得了显著进步。

Qwen2.5 模型通常对系统提示的多样性更具弹性,增强了角色扮演实现和聊天机器人的条件设置。与 Qwen2 相同,Qwen2.5 语言模型支持高达 128K 个标记,并可以生成高达 8K 个 token。它们还支持超过 29 种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。


对于程序员而言,一个能够帮助编写高质量代码的语言模型无疑是非常吸引人的。Qwen2.5-Coder特别强调了这一点,通过增加代码训练数据量并改进算法设计来提升编码能力。这里面,2.5版本的7B能力已经超过了DEEPSEEK开源的V2-LITE, 16B MOE多专家模型;而且,还有一个超大杯的32B CODER版本还在路上。


坤叔非常认可阿里在这波技术开源的战略气度,下面是阿里的一段原话:


我们将我们基于 API 的模型最新版本Qwen-Plus与领先的专有和开源模型进行了基准测试,包括 GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B 和 DeepSeek-V2.5。这次比较展示了 Qwen-Plus 在当前大型语言模型领域的竞争优势。我们表明Qwen-Plus在许多方面显著优于 DeepSeek-V2.5,并在 Llama-3.1-405B 方面表现出竞争力,但在某些方面仍不及 GPT4-o 和 Claude-3.5-Sonnet。”


我认为这段话本身的态度就很好,没有“遥遥领先”,也没有“天天赶超”,有的是不卑不亢,也承认差距。


至于性能,除了72B毫无疑问的大幅提升之外;更让人惊喜的是32B和14B。




首先是32B,整体输出对比下来,32B的能力和72B相差不到5%;由于32B可以单卡部署(24G显存),从效率性价比来说,32B变成了单卡部署的首选。


坤叔也真实的加载了一下32B。OLLAMA部署。


如果你显存够,可以直接用 ollama run qwen2.5:32b 下载。



占用显存21G,非常好。


我让它写一个带简单UI的PYTHON程序,允许用户输入多个目录地址A1/A2/A3和目标地址B,执行后将以上目录下所有图片文档复制到B地址。程序应该可以记住上次输出的目录地址参数;下次启动可以直接使用无需再次输入


结果:成功运行!


本地模型的代码一次通过率那么高,至少说明表现靠谱~


其次,别盯着32B,还有14B,我们同样要注意这次的2.5版本的14B模型,在各项评分和QWEN2的70B模型打的有来有回;也就是说,三四个月前要用双卡4090,5万块钱服务器才能达到的效果;现在不到2000块钱配个单卡3060,改用14B模型,大概也能跑出来个9成。


小模型兴起,别以为大就是好!


最近,大模型向小型语言模型(SLMs)的转变十分显著。值得注意的是,甚至只有 30 亿参数的模型现在也能提供极具竞争力的结果。随附的图表描绘了一个显著趋势:在 MMLU 中得分超过 65 分的新模型越来越小,这突显了语言模型中知识密度的加速增长。



Qwen2.5-3B是一个突出的例子,它仅用大约 30 亿参数就实现了令人印象深刻的性能,展示了其与前辈相比的效率和能力。


比如,去年同期发布的LLAMA2-70B用700亿参数才刚刚摸到MMLU65分;而现在的QWEN2.5-3B仅用30亿参数就达到了。这背后是大模型知识蒸馏技术的进步。


3B-4B这个大小,意味着模型量化之后可以做到2G的体积,非常适合放在手机里面。这也是为什么英伟达、微软都非常在乎小模型。


最后,我要讲讲为什么在国产模型中,我一直很粉QWEN系列。



因为上面这张图。


这张图上,是开源体系的各种框架,表明的是QWEN和整个开源社区框架是完全接轨的。无论是训练、微调、量化、部署以及应用框架乃至评估体系。一切都是可公开的;可以公开验证的。


自我吹嘘一百倍,不如模型放出来真正比一比。自我吹嘘“自研”,不如把可以无缝对接的社区顶级项目列出来……


开放,靠的是行动,不是说说而已。


相比之下,国内巨头有的默默的抄,有的打死不开源,有的开源了模型极其糟糕……还有的干脆自己不开发了,净玩整合;具体是谁我不公开说~大家都知道。禁止对号入座。


即便是国内的AI小龙们,现在也不乐观;除了豆包COZE非常好的拿到了用户生态;KIMI和MINIMAX的模型升级已经停滞很久了;而GLM4虽然也算是国产开源的先锋,但和QWEN相比,开源的力度完全不在一个档次(GLM4仅放出9B模型)。


要知道,在O1已经出现的时代,还在计较自己那点过时的玩意,堪忧~


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询