我要投稿

阿里 Qwen3 正式发布，一口气开源8款模型！这个五一注定不太平！

发布日期：2025-04-29 07:37:34 浏览次数： 1634 作者：AI智见录

大模型圈又要热闹了！

就在刚刚，阿里云正式发布了 Qwen（通义千问）系列大模型的最新成员 —— Qwen3。这次发布包含了 8 个不同规模的模型，其中最大的模型有 235B 参数。

重磅升级，对标顶级模型

Qwen3 的旗舰模型是 Qwen3-235B-A22B。这个模型在代码、数学和通用能力等方面的测试中，已经可以和 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型一较高下。

Qwen3 系列包括：

2 个 MoE 模型：Qwen3-235B-A22B 和 Qwen3-30B-A3B
6 个标准模型：从 0.6B 到 32B 不等

亮点一：双模式思考能力

Qwen3 最大的创新是支持两种思考模式：

思考模式：模型会一步步推理，适合复杂问题。比如做数学题时，模型会像人类一样先分析问题，再逐步解答。
快速模式：模型直接给出答案，适合简单问题。比如问候、闲聊这类问题，模型会立即回应。

用户可以根据需要切换这两种模式。测试数据显示，在思考模式下，模型在 AIME（美国数学邀请赛）和 GPQA（通用问答）等任务上的表现会随着思考时间的增加而提升。

亮点二：超大规模预训练

Qwen3 的训练数据比上一代翻了一倍多：

Qwen2.5：18 万亿 token
Qwen3：36 万亿 token

训练数据来源广泛：

网络文本
PDF 文档
教科书
代码库
数学题库
多语言语料

训练过程分三步：

基础训练：用 30 万亿 token 训练基础语言能力
专业训练：加入 5 万亿专业领域数据（STEM、编程等）
长文本训练：把上下文长度扩展到 32K token

亮点三：创新的后训练方法

Qwen3 采用了四阶段后训练流程：

长文本冷启动：帮助模型适应长文本输入
推理强化学习：提升模型的推理能力
思维模式融合：把快速反应和深度思考能力结合
通用强化学习：在 20 多个领域进行能力训练

对于轻量级模型（如 Qwen3-4B/8B/14B），还使用了知识蒸馏技术，把大模型的能力传授给小模型。

亮点四：性能大幅提升

小模型也有大能力！Qwen3 的小型 MoE 模型 Qwen3-30B-A3B 只用了 QwQ-32B 十分之一的参数量，就取得了更好的效果。

就连最小的 Qwen3-4B 模型，也能达到 Qwen2.5-72B-Instruct 的水平。

亮点五：开箱即用

Qwen3 现在已经登陆各大平台：

Hugging Face
ModelScope
Kaggle

开发者可以用多种方式部署 Qwen3：

云端部署：用 SGLang 和 vLLM
本地部署：用 Ollama、LMStudio、MLX、llama.cpp 等工具

访问 https://chat.qwen.ai/ 在线体验。也可以在 App 上进行体验。

亮点六：多语言支持

Qwen3 支持 119 种语言，这让它可以服务全球用户。不管是中文、英文，还是小语种，Qwen3 都能应对自如。

大模型竞争加剧

就在 Qwen3 发布前，业内有爆料传出 DeepSeek R2 即将发布的消息。据说这个模型有这些特点：

1.2T 参数，78B 激活参数
比 GPT-4 便宜 97.3%
5.2PB 训练数据
视觉能力强，COCO 测试达到 92.4%
在华为 Ascend 910B 上利用率达到 82%

未来展望

大模型领域的竞争正在加剧。Qwen3 的发布表明：

中国大模型技术正在快速追赶
模型性能和效率都有明显提升
开源生态越来越完善

这个五一假期，大模型圈注定不会平静。让我们拭目以待更多精彩的发展！

参考

https://x.com/Alibaba_Qwen/status/1916962087676612998
https://github.com/QwenLM/Qwen3
https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

热文推荐

我的第一本 Cursor 小册上线了！

Cursor首席设计师警告：不想写出烂代码？这12条黄金法则必须掌握！

MCP、@Agent、上下文、自定义规则，网友开始催收费了！" data-itemshowtype="0" target="_blank" linktype="text" data-linktype="2">Trae全新升级：MCP、@Agent、上下文、自定义规则，网友开始催收费了！

Cursor最新版详解：MCP图片上下文、自动生成项目规则等实用功能！

Gemini2.5 Pro Canvas向所有人免费开放，实测真的很酷！

- 这是底线 -

扫描以下二维码加小编微信，备注 “ai”，一起交流 AI 技术！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-29

阿里 Qwen3 技术详解: 4B 参数媲美 72B，MoE 架构的开源突破

2025-04-29

PAI-Model Gallery 支持云上一键部署 Qwen3 全尺寸模型

2025-04-29

Qwen3中性能最强MOE模型部署抛砖引玉 + 实测

2025-04-29

体验了最新的Qwen3之后，端侧之王果然没有让我失望！

2025-04-29

Qwen3 重磅开源！

2025-04-29

Qwen3深夜正式开源，小尺寸也能大力出奇迹。

2025-04-29

猛击OpenAI o1、DeepSeek-R1！刚刚，阿里Qwen3登顶全球开源模型王座，深夜爆火

2025-04-29

阿里Qwen3正式发布：最小6亿参数，叫板Gemini-2.5Pro

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

DeepSeek本地化部署有风险！快来看看你中招了吗？

2025-04-28

AGI｜智能体总忘事？Letta框架如何让AI告别"金鱼记忆"？

2025-04-28

杨植麟再掀 AI 风暴！Kimi-Audio 如何让机器听懂人类 “弦外之音”？

2025-04-28

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

2025-04-21

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB