微信扫码
添加专属顾问
我要投稿
阿里开源的 QwQ-32B 推理模型,参数仅 320 亿,在能力测试中竟与 6710 亿参数的 DeepSeek R1 媲美。本文教你如何在 MacBook 上部署 QwQ 模型。 核心内容: 1. QwQ-32B 模型与 DeepSeek R1 参数对比及其能力 2. 强化学习原理及其在 QwQ 模型中的应用 3. 在 MacBook 上部署 QwQ 模型的详细步骤
阿里最近放了个大招,相当大。
他们刚开源了一个叫做 QwQ-32B 的推理模型,一个参数仅 320 亿的模型,在各项能力测试中居然达到了 6710 亿参数的满血版 DeepSeek R1 的水平。
下图是和满血 R1(671B)、o1-mini、70B R1 以及 32B R1 的对比,可以看出这个颜文字模型 QwQ 32B 的能力已经和满血 R1 相当了。
QwQ 这么厉害的诀窍在于使用了大规模的强化学习(RL)。
啥子是强化学习?
想象你是一个第一次学做菜的新手,厨房是环境,你的目标是炒出最好吃的菜。
每次你尝试不同的调料搭配(动作),尝一口后根据味道(奖励)调整下次放多少盐或糖。一开始可能太咸或太淡(试错),但通过反复调整,最终找到最佳配方(最优策略)。
强化学习就像这个过程:通过行动的结果反馈,不断优化选择,直到达成目标。
模型就是在这样一个不断折腾和反馈的过程中反复迭代,最终炼制成功,得道成仙。
仅 DeepSeek 二十分之一的参数,这样的参数规模,可以部署在配置稍微好点的个人电脑上,而满血的 DeepSeek R1,你没个 400G 内存应该是跑不下来……
好,下面我就来尝试在 MacBook 本地部署一下QwQ。现在有了各种方便的工具,比如 Ollama、Cherry Studio 等等,折腾起来也非常简单。
当然,本地部署的优势在于隐私保护和本地知识库,另外就是一个主打折腾的 Geek 精神。
如果你没有这些需求,使用免费的 DeepSeek、元宝客户端,或者调用廉价的 API,都比本地部署要省心和划算。
Ollama 是一个可以在本地运行大语言模型(LLM)的命令行工具,如果你之前安装过,部署过其他模型,那就可以跳过这一步。
首先进入 Ollama 的官网:
https://ollama.com/
点击神兽图标下方的「Download」,去下载 macOS 版本。
国内网络用浏览器直接下载可能会比较慢,你可以把下载链接复制到迅雷里下载,速度很快。
下好后解压缩,先把这个神兽图标拖到「应用程序」里。
然后,打开 Ollama,点中央的 Install,这时候需要输入 Mac 的解锁密码。
出现下面这样的提示就说明装好了。
打开「终端」,输入这个命令:
ollama run qwq
然后就开始下载模型了,大概 19G 多一些,网速快的话很快就好。
如果你看到 Success 的提示,就说明模型下载成功了,随后模型会自动加载并运行,会看到三个尖括号:「>>>」,这样就表明可以和模型聊天了。
我们随便发句话试试:
它做出了思考并回复了我,很好,模型已经运行成功。
当然,在命令行里聊天的体验非常糟糕,也不能保存记录,所以我们要给它搭配一个聊天 UI,请看下一步。
Cherry Studio 是一个 AI 对话客户端,支持各种服务商的 API 或者本地模型的接入,还支持本地知识库(RAG),功能很全面。
它和 Chatbox、ChatX 一样,都是 AI 聊天客户端,你可以选一个自己习惯的来用。
我最近换了 Cherry Studio,体验不错,所以下面就以 Cherry Studio 为例来进行说明。
首先到官网下载它:
https://cherry-ai.com/
安装好后,进入设置界面,找到「模型服务」,找到「Ollama」。
在右边的窗口里,检查「API 地址」是否正确,一般就是默认的本地 11434 端口,密钥不用填,如下图所示:
然后点最下方的「添加」,增加qwq:latest
模型,并在更多设置中勾选「推理」。
保存之后,确认一下 Ollama 旁的开关已打开,这样就 OK 了。
回到 Cherry Studio 的聊天窗口,点击聊天窗口上方,选择我们刚创建好的模型,就可以开始和本地的 QwQ 聊天了。
现在我就让它和我本地的 32B DeepSeek R1 (部署参考:手把手|在MacBook本地部署DeepSeek R1是一种什么体验?)对比一下,看看它俩谁厉害。
出个小作文题目吧:
以“一个发现时间可以倒流,但每次只能倒退5秒的普通人”为主角,写一个300字的故事,需包含冲突和转折。
先来看看 32B R1,它思考了 34 秒,给出了这个故事:
再来看看 QwQ 32B,它思考的时间翻了一倍,达到 76 秒。来看看它的作品:
好家伙,QwQ 写的有深度多了,同是 320 亿参数,QwQ 表现亮眼不少。
另外,在我的 M4 Pro 的 MacBook 上,32B R1 的输出速度 14token/s,而 QwQ 32B 是 16token/s,略快一些。
好,就写到这里,各位可以回家去折腾自己的电脑了。
END
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-24
MCPify.ai:一句话构建一个MCP
2025-03-24
AIBrix 深度解读:字节跳动大模型推理的云原生实践
2025-03-24
DeepSeek-R1复现之集大成者
2025-03-24
又一个“Manus”开源,完全本地化替代品AgenticSeek
2025-03-24
Vercel AI SDK 4.2 重要更新支持MCP
2025-03-24
阿里开源多语言大模型,支持全球90%人口
2025-03-24
Voice Agent 开源框架 TEN,让你的 AI Agent 能听能说!
2025-03-24
字节开源 Agent TARS,可惜我还不能用
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-08-13
2024-07-11
2024-12-26
2025-03-22
2025-03-19
2025-03-17
2025-03-17
2025-03-13
2025-03-13
2025-03-08
2025-03-03