AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


使用vLLM部署工具加速QWQ,推理速度比ollama更快、并发更高

发布日期:2025-03-12 07:45:34 浏览次数: 1561 来源:口袋大数据
推荐语

vLLM部署工具为QWQ带来革命性的推理速度提升,性能远超ollama。

核心内容:
1. vLLM与HuggingFace Transformers的性能对比
2. vLLM的PagedAttention算法和多核优化
3. vLLM和ollama的部署差异及适用场景

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

与传统的HuggingFace Transformers相比,vLLM的吞吐量高达24倍,且无需改变模型架构,它采用创新的PagedAttention算法,优化了注意力键和值的管理,从而提升了推理速度,并且其能够有效地利用多核CPU和GPU资源,显著提升LLM的推理速度。


相比于ollama,vllm输出的速度更快,支持的并发更高,目前也没有遇到安全问题,稳定性非常好,更适合作为服务器的接口服务来部署。


但相应的,vllm会把服务器的GPU显存都占满,使得机器无法再部署其他服务,同时ollama部署更加的简单,也是因为这个原因ollama在最近部署deepseek的热潮中被提到的更多一些,因此个人使用可能ollama更合适。


vLLM本地环境准备


vllm需要使用最新的0.7.3版本,支持思考过程增加<think>标签。

建议用conda新建一个环境来安装

pip install vllm==0.7.3


python环境我这里使用的是python3.8,显卡为a40显卡40g显存版本。


模型权重下载


因为网络问题,建议在阿里魔塔社区下载QWQ模型。



选择好对应的版本后,使用pip安装modelscope,便可以下载选中的版本模型了


from modelscope import snapshot_download model_dir = snapshot_download('qwen/QWQ-32B')

vLLM部署运行模型


因为之前已经配置好vLLM的环境,所以使用以下命令可以运行模型:

/root/miniconda3/envs/vllm/bin/python  -m vllm.entrypoints.openai.api_server --served-model-name qwq-32b --model /root/.cache/modelscope/hub/qwen/QWQ-32B


参数解析:

模型路径:--model  /root/.cache/modelscope/hub/qwen/QWQ-32B

模型名称:–served-model qwq-32b



写在最后


2025年的今天,AI创新已如井喷,几乎每天都有新的技术出现。作为亲历三次AI浪潮的技术人,我坚信AI不是替代人类,而是让我们从重复工作中解放出来,专注于更有创造性的事情,关注我们公众号口袋大数据,一起探索大模型落地的无限可能

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询