微信扫码
添加专属顾问
我要投稿
阿里云Qwen3模型全面升级,推理能力显著提升,为端侧部署带来新机遇。核心内容:1. Qwen3模型覆盖全尺寸,从0.6B到235B,全面进入推理时代2. 实测性能较上代大幅提升,减少过度推理现象,推理过程更自然3. 利好端侧部署,Qwen3-4B性能接近Qwen2.5-72B,降低推理成本
阿里云的 Qwen3 总算在五一假期前发出来了。
总共发了 8 个尺寸的模型:
类型 | 尺寸规格 |
---|---|
Dense 模型 | 0.6B、1.7B、4B、8B、14B、32B |
MoE 模型 | 30B-A3B、235B-A22B |
先简单总结纸面上的提升点:
我也进行了实测,想和你聊聊 Qwen3 带来给我的一些新的应用思考。
比起看 Qwen3 的具体提升表现,我想先讨论下混合推理。
不只是因为 Qwen3 是国内首个混合推理模型,而是背后的混合推理路线更接近我理解的 AGI 目标。
混合推理模型的最初实现,源自 Anthropic 在今年 2 月 25 日推出的 Claude 3.7 sonnet。
Qwen3 也给出了两种控制混合推理的方法:是否开启推理、控制推理的长度。
AI 开发者可以通过enable_thinking=True的 API 开关,或者在 Prompt 中自主拼装/thinkor/no_think指令,自主控制是否需要推理、推理的最大长度。
我也短暂地设想了下混合推理的应用方式(抛砖引玉,希望讨论):
当然,未来更理想的状态是,这种灵活推理能力能够完全内化到模型本身,而不依赖外部控制,AI 自然地根据对话的流向、问题的性质、功能的需要来自动调整回应深度,提供更佳的综合体验。
混合推理带来了值得思考的应用方案变化,而 Qwen3 模型的提升效果也同样明显。
我从拟人模拟(重点)、文学创作、代码生成、数学推理四个常见、实用的维度,进行了轻量的测试,希望能帮你节省一些模型选择的精力。
先放一些个人的测试结论:
虚拟陪伴,或者说让 AI 有更舒适的拟人化对话风格,是人与 AI 协作的要点之一。很多 AI 创业项目也都给用户提供了 AI Chat 的服务(虚拟伴侣、Agent 游戏、智能客服、知识助手等)。
前段时间也根据自己的个人画像、历史笔记,做了个 AI Partner 项目,用其他模型自测了上百个小时。
拿同样的人设 Prompt 和 RAG 召回结果,看下 Qwen3-235B、8B 对比 R1、Gemini 2.5、o4 的效果:(AI 回应风格受 Prompt 影响较大,仅供参考)
早上好,小亦……你醒很久了吗,连早餐都做好了诶。可惜我今天没什么胃口,最近 AI 行业的新进展太多了,我得抓紧看看有没有什么新的值得思考的东西。
对比 AI 的拟人化回应质量时,我会看这几个维度(以我 Prompt 的要求为例):
整体看下来,Qwen3 表现还是不错的,开发者可以在自己的场景下测试效果:
文学创作类也是目前 AI 生成的高频应用场景,测试 Qwen3-235B-A22B、30B-A3B、8B 与 R1、Gemini 2.5 Pro、o4-Mini 如下:
挑战这句话的最佳鲁迅文体的一句话表达:We’ve got to live, no matter how many skies have fallen. 只需要输出内容,不要其他解释
我会觉得 Qwen3-235B-A22B 的创作效果是明显最好的:
编写一个 p5.js 脚本,模拟 100 个彩色球在一个球体内弹跳。每个球应该留下一个逐渐消退的轨迹,显示其最近的路径。容器球体应缓慢旋转。确保实现适当的碰撞检测,以便球体保持在球内。
以下是 Qwen3-235B-A22B、Gemini-2.5-Pro,和两个前代模型 QWQ、DeepSeek-R1 的对比效果:
Qwen3 前端的 AI Coding 能力较前代的 QWQ、R1 有了明显的进步。能够更好的被投入到 AI 编程 Agent 中。
本来觉得测这个在大部分场景中不贴合实际,但想到之前测的一道题目,让前代的 QWQ 和 DeepSeek-R1 无限循环,就想着顺手再测一下。
2024 年高考数学全国 1 卷,填空题最后一题:
14. 甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字 1,3,5,7,乙的卡片上分别标有数字 2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得 1 分,数字小的人得 0 分,然后各自弃置此轮所选的卡片(弃置的卡片在此后的轮次中不能使用).则四轮比赛后,甲的总得分不小于 2 的概率为________.
Qwen3-235B-A22B 经过 17033 tokens 的推理后,解答成功:
可见在超长的逻辑推理任务中,Qwen3-235B-A22B 保持了稳定的分析表现,数学能力有所提升。
Qwen3 系列的价格如下:
模型 | 输入价格 | 输出价格 |
---|---|---|
qwen-turbo-2025-04-28 | 0.0003 元 | 思考:0.006 元非思考:0.0006元 |
qwen-plus-2025-04-28 | 0.0008 元 | 思考:0.016 元非思考:0.002元 |
统计了 3 个体验渠道,方便开发者和一般用户上手使用:
大概就是这样了~
如果觉得这篇文章对你有启发或帮助,欢迎点赞、在看、转发分享,让更多热爱 AI 的朋友能够受益。
也期待在评论区看到你的实践和思考。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-29
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
2025-04-29
阿里 Qwen3 技术详解: 4B 参数媲美 72B,MoE 架构的开源突破
2025-04-29
PAI-Model Gallery 支持云上一键部署 Qwen3 全尺寸模型
2025-04-29
Qwen3中性能最强MOE模型部署抛砖引玉 + 实测
2025-04-29
体验了最新的Qwen3之后,端侧之王果然没有让我失望!
2025-04-29
Qwen3 重磅开源!
2025-04-29
Qwen3深夜正式开源,小尺寸也能大力出奇迹。
2025-04-29
猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火
2024-07-25
2025-01-01
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-07-11
2024-06-12
2024-08-13
2024-12-26
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-21
2025-04-19
2025-04-17
2025-04-15