支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Qwen3中性能最强MOE模型部署抛砖引玉 + 实测

发布日期:2025-04-29 12:06:37 浏览次数: 1626 作者:oldpan博客
推荐语

Qwen3系列模型的部署实测与性能分析,揭示AI模型的新高度。

核心内容:
1. Qwen3系列模型的性能优势与特点
2. MOE模型与Dense模型的性能对比和部署要求
3. 不同硬件配置下的推理速度实测结果

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
 


深夜发布的Qwen3系列模型,很强!

一共开源了:

  • 两个 MoE 模型的权重:Qwen3-235B-A22B 和 Qwen3-30B-A3B
  • 六个 Dense 模型,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B

其中性能部分,这次主要关注MOE,MOE因为激活参数少,虽然占的显存大,但是实际对算力的要求不高,所以性价比更高,同时MOE模型的性能也普遍大于同尺寸Dense模型:

  • 旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比表现极具竞争力
  • Dense模型Qwen3-32B更强了,我很喜欢,这个尺寸的稠密模型实用性很高
Qwen3-235B-A22B
Qwen3-235B-A22B
  • 小型MoE模型Qwen3-30B-A3B仅使用10%的激活参数就能超越QwQ-32B的性能,而Qwen3-4B这样的小模型甚至能匹敌Qwen2.5-72B-Instruct
Qwen3-30B-A3B
Qwen3-30B-A3B

这回Qwen3系列模型的主要技术优势包括:

  • 支持思考模式和非思考模式的切换,可以根据任务需求选择深度思考或快速响应
  • 在36万亿token上进行预训练,是Qwen2.5训练数据量的两倍,支持119种语言和方言
  • 通过改进模型架构和训练方法,Qwen3系列的基础模型性能可与参数量更大的Qwen2.5模型相当,特别在STEM、编码和推理等领域表现更为出色

部署方面

依然是两个MOE的模型比较香,Qwen3-235B-A22B 和 Qwen3-30B-A3B。另一个Qwen3-32B稳步提升,32B也是个人比较喜欢的一个尺寸。

不过这里还是先讨论MOE,为什么MOE模型相比Dense模型香呢:

  • 激活参数数量少,这样计算部分不多,需要的算力也就不大,所以推理速度更快
  • 内存需求低 + 更高的计算资源利用率,MoE模型的稀疏激活机制使得计算资源集中用于处理最相关的专家网络,避免了对所有参数的全面计算,这样内存也不需要全放到计算的显存中

先看第一个,Qwen3-30B-A3B需要什么配置可以跑起来?

Qwen3-30B-A3B

  • RX 6550M(4GB显存) + 32GB DDR5 4800内存 + 量化方式:q4_k_m-> 推理速度:约 20 tokens/s
  • RTX 3090显卡(24GB显存) -> 约 75 tokens/s
  • 2080Ti显卡(22GB显存)+ 量化方式:IQ4_XS -> 推理速度:约 50 tokens/s
  • 12GB VRAM(如3060)可达 12 tokens/s 的推理速度(Q6 量化),远超 QwQ 相同硬件下的体验
  • 16GB VRAM (3080Ti-laptop) -> 13 tokens/s
  • 5090 显卡 上 Q4 版本 -> 140-155 tokens/s

相比之前的QwQ-32B,Qwen3-30B-A3B更节省“思考”Token,实际推理中除了实际算力需要的少,模型思考长度也少了不少,实际好用率大大提高

  • 在低至Q3量化时,甚至手机/平板(16GB RAM)理论上也能跑得动,极大拓展了推理设备的范围。
  • 对比 QwQ,Qwen3-30B-A3B 在同等量化等级下的推理速度快数倍,且代码生成质量、世界知识理解等能力都有提升。

Qwen3-235B-A22B

Qwen3-235B-A22B尺寸类似于Deepseek-v2,略大一丢丢,实际性能参考后者就行:

Deepseek-v2
Deepseek-v2

当然有人实际跑起来了:Qwen3-235B-A22B-4bit量化版本在 Apple Mac Studio M2 Ultra 能跑到 28 toks/sec,大概占用 132GB 内存。如果使用8x4090或者2xH20会跑的更快,不过也就失去折腾的意义了。

另外AMD的AI MAX 395 128G版本也有人跑起来DeepSeek-V2 236B,不过目前没有开源相关推理代码,门槛相比nvidia和mac高一些,不过也不是不能试试。

128G共享显存运行236B模型
128G共享显存运行236B模型

我个人有一台AI MAX 390 + 128G的配置,在配环境中,AMD的rocm + HIP相比nVidia的CUDA来说还是有点难用,如果能配起来,可能也是跑Qwen3-235B-A22B性价比高的一款机器了。

往期回顾


关注oldpan博客”,持续酝酿深度质量文
我是老潘,我们下期见~
   
       打上星标✨不再错过老潘的及时推文 
    如果觉得有收获,来个点赞加好看

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询