微信扫码
与创始人交个朋友
我要投稿
昨晚,QWEN2.5正式开源上新,作为最新一代的国产开源模型,QWEN2.5不仅在性能上有了显著提升,还重新带来了14B和32B这两个适合本地单卡部署的模型。
QWEN一直是国内最重要的开源模型系列。我们也对新版本的QWEN2.5进行了初步实测。本文超过2K字;可能会带给你对国产开源模型完全不一样的认知。
Qwen2.5是在前代基础上进行了大幅度升级的结果。该系列包括从1.5B到72B参数规模的不同版本,每个版本都针对特定需求进行了优化。最新的发布版本包括 LLMs Qwen2.5,以及针对编码的专用模型 Qwen2.5-Coder 和数学的专用模型 Qwen2.5-Math。
特别是其中的14B/32B版,是最适合单卡部署的大小。据官方信息显示,Qwen2.5在自然语言理解、代码编写、数学解题以及多语言处理等多个方面都有显著增强。
本次开源的模型规格。
与 Qwen2 相比,Qwen2.5 获得了显著更多的知识(MMLU:85+)并在编码(HumanEval 85+)和数学(MATH 80+)方面能力大幅提升。此外,新模型在指令遵循、生成长文本(超过 8K token)、理解结构化数据(例如,表格)以及生成结构化输出(尤其是 JSON)方面取得了显著进步。
Qwen2.5 模型通常对系统提示的多样性更具弹性,增强了角色扮演实现和聊天机器人的条件设置。与 Qwen2 相同,Qwen2.5 语言模型支持高达 128K 个标记,并可以生成高达 8K 个 token。它们还支持超过 29 种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
对于程序员而言,一个能够帮助编写高质量代码的语言模型无疑是非常吸引人的。Qwen2.5-Coder特别强调了这一点,通过增加代码训练数据量并改进算法设计来提升编码能力。这里面,2.5版本的7B能力已经超过了DEEPSEEK开源的V2-LITE, 16B MOE多专家模型;而且,还有一个超大杯的32B CODER版本还在路上。
坤叔非常认可阿里在这波技术开源的战略气度,下面是阿里的一段原话:
“我们将我们基于 API 的模型最新版本Qwen-Plus与领先的专有和开源模型进行了基准测试,包括 GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B 和 DeepSeek-V2.5。这次比较展示了 Qwen-Plus 在当前大型语言模型领域的竞争优势。我们表明Qwen-Plus在许多方面显著优于 DeepSeek-V2.5,并在 Llama-3.1-405B 方面表现出竞争力,但在某些方面仍不及 GPT4-o 和 Claude-3.5-Sonnet。”
我认为这段话本身的态度就很好,没有“遥遥领先”,也没有“天天赶超”,有的是不卑不亢,也承认差距。
至于性能,除了72B毫无疑问的大幅提升之外;更让人惊喜的是32B和14B。
首先是32B,整体输出对比下来,32B的能力和72B相差不到5%;由于32B可以单卡部署(24G显存),从效率性价比来说,32B变成了单卡部署的首选。
坤叔也真实的加载了一下32B。OLLAMA部署。
如果你显存够,可以直接用 ollama run qwen2.5:32b 下载。
占用显存21G,非常好。
我让它写一个带简单UI的PYTHON程序,允许用户输入多个目录地址A1/A2/A3和目标地址B,执行后将以上目录下所有图片文档复制到B地址。程序应该可以记住上次输出的目录地址参数;下次启动可以直接使用无需再次输入。
结果:成功运行!
本地模型的代码一次通过率那么高,至少说明表现靠谱~
其次,别盯着32B,还有14B,我们同样要注意这次的2.5版本的14B模型,在各项评分和QWEN2的70B模型打的有来有回;也就是说,三四个月前要用双卡4090,5万块钱服务器才能达到的效果;现在不到2000块钱配个单卡3060,改用14B模型,大概也能跑出来个9成。
小模型兴起,别以为大就是好!
最近,大模型向小型语言模型(SLMs)的转变十分显著。值得注意的是,甚至只有 30 亿参数的模型现在也能提供极具竞争力的结果。随附的图表描绘了一个显著趋势:在 MMLU 中得分超过 65 分的新模型越来越小,这突显了语言模型中知识密度的加速增长。
Qwen2.5-3B是一个突出的例子,它仅用大约 30 亿参数就实现了令人印象深刻的性能,展示了其与前辈相比的效率和能力。
比如,去年同期发布的LLAMA2-70B用700亿参数才刚刚摸到MMLU65分;而现在的QWEN2.5-3B仅用30亿参数就达到了。这背后是大模型知识蒸馏技术的进步。
3B-4B这个大小,意味着模型量化之后可以做到2G的体积,非常适合放在手机里面。这也是为什么英伟达、微软都非常在乎小模型。
最后,我要讲讲为什么在国产模型中,我一直很粉QWEN系列。
因为上面这张图。
这张图上,是开源体系的各种框架,表明的是QWEN和整个开源社区框架是完全接轨的。无论是训练、微调、量化、部署以及应用框架乃至评估体系。一切都是可公开的;可以公开验证的。
自我吹嘘一百倍,不如模型放出来真正比一比。自我吹嘘“自研”,不如把可以无缝对接的社区顶级项目列出来……
开放,靠的是行动,不是说说而已。
相比之下,国内巨头有的默默的抄,有的打死不开源,有的开源了模型极其糟糕……还有的干脆自己不开发了,净玩整合;具体是谁我不公开说~大家都知道。禁止对号入座。
即便是国内的AI小龙们,现在也不乐观;除了豆包COZE非常好的拿到了用户生态;KIMI和MINIMAX的模型升级已经停滞很久了;而GLM4虽然也算是国产开源的先锋,但和QWEN相比,开源的力度完全不在一个档次(GLM4仅放出9B模型)。
要知道,在O1已经出现的时代,还在计较自己那点过时的玩意,堪忧~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-21
OpenAI开源:20分钟构建多Agent语音系统!
2025-01-18
Wren AI Text-to-SQL: 颠覆数据库交互的秘密武器!(开源)
2025-01-17
企业为何需要小型语言模型(SLMs):AI 应用的新趋势与策略
2025-01-17
斯坦福大学开发的智能体Agent:写文献综述,它来了!
2025-01-17
首个线性注意力架构的大模型来了,MiniMax 400 万超长上下文大模型重磅开源!
2025-01-16
AI自主化:深入解读腾讯开源的通用Agent系统 Cognitive Kernel
2025-01-16
构建企业私有RAG大模型: (可商用)DeepSeek-V3开源部署,真的强吗?
2025-01-15
MiniMax-01开源:新架构开启Agent时代
2024-07-25
2024-05-06
2024-08-13
2024-06-12
2024-07-11
2024-07-20
2024-09-20
2024-06-16
2024-06-10
2024-06-06
2025-01-16
2024-12-24
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13
2024-11-13