我要投稿

阿里大模型QWQ-32B低成本部署（两分钟了解AI社区最新动态）

发布日期：2025-03-17 18:58:35 浏览次数： 1536 来源：夜航星robot

近些年AI Agent井喷式发展，涌出一大批高性能的大模型，大大推动各行业发展和智能化水平发展。然而，性能优越的大模型往往具有庞大的参数量，想要部署到本地设备进行使用的话，对硬件性能要求较高，高性能的推理模型往往需要在高端的专业级显卡或者大规模的服务器集群上才能部署成功并进行使用，较高的使用成本和技术门槛使很多开发者和企业望而却步。

性能强大却难以部署的困局

以满血版DeepSeek R1为例，其功能十分强大，但想要在GPU 上实现其满血版模型的部署可能要花费10万美元以上！如果采用CPU进行部署，需要24条32GB的内存条才能装得下，并且生成token的速度会很慢。Q4量化的版本DeepSeek R1-Q4_K_M，也得需要404GB空间，仍然很大，更何况Q8量化版本！

谷歌开发者专家、UCL计算机系博士生Xihan Li曾分享了部署Q4版本的过程，除了模型参数占用的内存+显存空间（404GB）以外，实际运行的时候还需额外预留一些空间用于上下文缓存，总计约500GB。在4×24GB显卡（RTX 4090）和4×96GB内存配置下，DeepSeek R1-Q4_K_M的短文本生成的速度只有约3token/秒，长文本生成时速度甚至会降到1token/秒。这样的速度显然难以应用到实际中。

小体量大模型带来福音！

因此，小体量成为了阿里巴巴大模型QWQ-32B的最重要的亮点之一！QWQ-32B只有320亿参数量，和拥有6710亿参数（其中370亿参数被激活）的DeepSeek R1m模型相比，QWQ-32B的参数量只有其1/20！在部署方面，QWQ-32B和以往高性能推理大模型相比，QwQ-32B能够在消费级显卡上就能实现本地部署，满足快速响应和数据安全需求，这无疑是向众多开发者和企业送去福音。

QWQ-32B的三种部署方式

比如，阿里巴巴在Hugging Face上开源的QwQ-32B版本，以Q4量化精度为例，只需占用不到20GB空间。除了4-bit量化的版本，Hugging Face上还有从2位、8位等不同版本，最小仅需不到13GB空间，将本地部署的难度直接拉到最低！普通的办公电脑都能运行得起来。本地部署成功后，加载与运行也是相当容易，十几行代码就能完成模型加载、处理问题并生成答案整个过程。

除了Hugging Face上开源的版本，Ollama也上线了Q4版本的QwQ-32B模型，安装Ollama后只需复制ollama run qwq到终端，即可体验。具体操作可参考我们以往发布的文章，链接在此：

https://mp.weixin.qq.com/s/5lhOsy_DGQiEK-yIx1QErA

此外，还可以通过“算了么”算力共享平台进行一键部署。只需进入“算了么”官网进行下载并安装，打开应用后在右上角应用商店下载对应模型即可，非常简便！“算了么”官网链接：https://suanleme.cn/

麻雀虽小，五脏俱全。QwQ-32B虽然体量轻便，但在与原始 DeepSeek-R1、DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini等模型的基准对比测试中，QwQ-32B表现优异！

QwQ-32B取得了小体量和高性能双重优势，这一模型的开源不仅代表着生成式大模型技术的又一次飞跃，更预示着“最强模型”走入个人设备时代的来临！让我们一起期待这一科技盛世早日惠及更多人！

每日更新2分钟系列英伟达、索尼、苹果、三星、AI等科技产品信息与行业发展咨询，只做原创，您的关注就是最大的支持！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-03-17

使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

2025-03-17

终于把深度学习中的微调、提炼和迁移学习搞懂了！！

2025-03-17

Trae 接入硅基流动 SiliconCloud，高效提升开发者编程体验

2025-03-17

《大模型微调的十种方法》

2025-03-17

AI Code 在团队开发工作流的融合思考

2025-03-16

使用Ollama部署deepseek大模型

2025-03-16

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

deepseek-r1:32b在低性能电脑部署运行

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

2025-03-11

Manus，为何是他们做出来了？

2025-03-07

在树莓派5上运行9款流行的AI模型：哪些能用？哪些不行？

2025-03-05

DeepSeek到底用了多少GPU？

2025-03-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）杨小姐 186 6662 7370

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204 陈先生 185 8882 0121

上海：上海市浦东新区金新路58号1602室戴先生 186 1639 7587

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部