我要投稿

使用vLLM部署工具加速QWQ，推理速度比ollama更快、并发更高

发布日期：2025-03-12 07:45:34 浏览次数： 1873 作者：口袋大数据

与传统的HuggingFace Transformers相比，vLLM的吞吐量高达24倍，且无需改变模型架构，它采用创新的PagedAttention算法，优化了注意力键和值的管理，从而提升了推理速度，并且其能够有效地利用多核CPU和GPU资源，显著提升LLM的推理速度。

相比于ollama，vllm输出的速度更快，支持的并发更高，目前也没有遇到安全问题，稳定性非常好，更适合作为服务器的接口服务来部署。

但相应的，vllm会把服务器的GPU显存都占满，使得机器无法再部署其他服务，同时ollama部署更加的简单，也是因为这个原因ollama在最近部署deepseek的热潮中被提到的更多一些，因此个人使用可能ollama更合适。

vLLM本地环境准备

vllm需要使用最新的0.7.3版本，支持思考过程增加<think>标签。

建议用conda新建一个环境来安装

pip install vllm==0.7.3

python环境我这里使用的是python3.8，显卡为a40显卡40g显存版本。

模型权重下载

因为网络问题，建议在阿里魔塔社区下载QWQ模型。

选择好对应的版本后，使用pip安装modelscope，便可以下载选中的版本模型了：

from modelscope import snapshot_download model_dir = snapshot_download('qwen/QWQ-32B')

vLLM部署运行模型

因为之前已经配置好vLLM的环境，所以使用以下命令可以运行模型：

/root/miniconda3/envs/vllm/bin/python  -m vllm.entrypoints.openai.api_server --served-model-name qwq-32b --model /root/.cache/modelscope/hub/qwen/QWQ-32B

参数解析：

模型路径：--model /root/.cache/modelscope/hub/qwen/QWQ-32B

模型名称：–served-model qwq-32b

写在最后

2025年的今天，AI创新已如井喷，几乎每天都有新的技术出现。作为亲历三次AI浪潮的技术人，我坚信AI不是替代人类，而是让我们从重复工作中解放出来，专注于更有创造性的事情，关注我们公众号口袋大数据，一起探索大模型落地的无限可能！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-19

低延迟小智AI服务端搭建-ASR篇（续）：CPU可跑

2025-04-19

LoRA 与QLoRA区别

2025-04-18

DeepSeek-V3-0324 本地部署，vLLM和SGLang的方法

2025-04-18

Ollama对决vLLM：DEEPSEEK部署神器选谁？90%人选错！这份实测攻略让你秒懂！

2025-04-18

ollama v0.6.6 震撼发布！推理能力翻倍、下载提速 50%，对比 vLLM/LMDeploy 谁更强

2025-04-17

从零开始开发 MCP Server

2025-04-17

AI 应用开发不要在大模型迭代必经之路上

2025-04-17

阿里百炼出手了！MCP 现在配置门槛下降了 100 倍

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

2025-03-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部