我要投稿

Qwen3 即将推出！

发布日期：2025-03-30 19:35:23 浏览次数： 1680 作者：大卷学长

最近在 huggingface/transformers 的 pr 中看到来自 Qwen3 和 Qwen3MoE 的请求。

原文：https://github.com/huggingface/transformers/pull/36878

浏览代码可以看到这次的更新有：

https://huggingface.co/Qwen/Qwen3-15B-A2B (MOE model)
https://huggingface.co/Qwen/Qwen3-8B-beta
Qwen/Qwen3-0.6B-Base

看来本次针对更新的都是一些小参数的模型，比较期待有一个 30-40B 的 MoE

与传统 MoE 的差异

特性：

路由策略：传统MoE采用全局路由，即所有专家参与计算。Qwen3Moe采用稀疏路由，仅Top-K个专家参与计算。
负载均衡：传统MoE没有显式优化，容易出现专家坍塌。Qwen3Moe集成load_balancing_loss，以惩罚不均衡的情况。
计算复杂度：传统MoE的计算复杂度为O(N×E)，其中N为序列长度，E为专家数。Qwen3Moe的计算复杂度为O(N×K)，其中K为Top-K参数。
动态适应性：传统MoE使用固定频率的RoPE。Qwen3Moe动态调整RoPE频率，属于动态类型。

与 Qwen2.5 的比较

特性：

RoPE类型： Qwen-2.5仅支持静态RoPE。Qwen3Moe支持dynamic、yarn、llama3等多种类型。
稀疏层调度： Qwen-2.5未明确支持。Qwen3Moe通过mlp_only_layers和sparse_step实现灵活控制。
注意力后端： Qwen-2.5仅基础实现。Qwen3Moe集成Flash Attention 2和SDPA加速。
生成缓存管理： Qwen-2.5使用传统KV缓存。Qwen3Moe支持滑动窗口缓存（sliding_window）。
MoE实现： Qwen-2.5未使用MoE。Qwen3Moe实现稀疏MoE + 负载均衡损失。

Qwen3Moe 的优势

特性：

动态 RoPE：支持多种缩放策略，适配长序列和不同硬件。
稀疏 MoE：通过 Top-K 路由和负载均衡损-失，提升模型容量与训练稳定性。
高效注意力：集成 Flash Attention 2 和 SDPA，优化生成速度。
模块化设计：继承并扩展 Llama/Mistral 组件，提升代码可维护性。
生成优化：滑动窗口缓存和动态 KV 更新，降低解码内存占用。

总结

目前在小参数模型中，个人总体使用感觉来说，qwen 模型是首选，特别是此次将要更新的 Qwen3-15B-A2B，15B 总参数量的稀疏 MoE 模型，实际激活参数量为 2B，所以要求的硬件设备资源更低，速度可以更快

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-23

超强辅助，Bolt.diy 一步搞定创意建站

2025-04-22

AI新手村：Hugging Face

2025-04-22

6.4K star！轻松搞定专业领域大模型推理，这个知识增强框架绝了！

2025-04-22

mcp-sse-webui可视化实战项目：基于MCP的webui服务，支持连接多个sse服务端（附完整源码）

2025-04-22

008-蹭了个热点，一次对内部普通人的DeepSeek培训课

2025-04-22

大模型部署框架Ollama和vLLM怎么选？一文讲透两大框架的优缺点和适用场景

2025-04-22

爬虫新宠Crawlee：解锁数据抓取与自动化的超能力

2025-04-21

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

2025-04-21

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB