我要投稿

告别复杂配置！轻松使用VLLM部署大模型

发布日期：2025-03-25 07:43:25 浏览次数： 1576 来源：青菜浪人

环境准备

1. anaconda

2. python 环境

3. VLLM（注：只可运行在Linux系统中）

4. 云服务器或本地物理服务器；（本文以云服务器部署为例）

配置步骤

一、配置 GPU 云服务器

1.购买云服务器 GPU 计算型

根据实际需要选择

等待实例初始化

2.在本地电脑使用 ssh 连接服务器

这里我使用私钥进行连接

二、安装 conda

在 Ubuntu 中下载对应版本安装

https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.1-Linux-x86_64.sh

下载成功后，执行安装文件

#赋予文件可执行权限chmod +x Anaconda3-5.3.1-Linux-x86_64.sh#执行安装脚本./Anaconda3-5.3.1-Linux-x86_64.sh

根据提示输入 yes 敲回车，等待安装完成即可，下图为安装成功截图。注：重启终端或打开新终端生效

三、显卡驱动安装

1.导入官方源

add-apt-repository ppa:graphics-drivers/ppaapt update

2.手动或自动安装驱动程序

#安装驱动检查工具apt install ubuntu-drivers-common alsa-utils -y#自动检查安装与当前显卡兼容的驱动程序ubuntu-drivers autoinstall#列出可用驱动ubuntu-drivers devices#手动安装apt install nvidia-driver-470

3.安装完成后，输入以下命令查看当前显卡

nvidia-smi

4.安装 cuda

选择合适自己的版本进行下载

https://developer.nvidia.com/cuda-toolkit-archive

我这里安装 cuda12.6 ，与上一步中显示的版本号保持一致。如安装版本与本文一致，可按以下顺序执行安装。

#默认为root用户，如不是root用户请加sudo
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pinmv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600wget https://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda-repo-ubuntu2404-12-6-local_12.6.0-560.28.03-1_amd64.debdpkg -i cuda-repo-ubuntu2404-12-6-local_12.6.0-560.28.03-1_amd64.debcp /var/cuda-repo-ubuntu2404-12-6-local/cuda-*-keyring.gpg /usr/share/keyrings/apt-get updateapt-get -y install cuda-toolkit-12-6

5.查看 cuda 版本，出现下图则表示安装成功

#配置环境变量vi ~/.bashrc   //在文件末尾添加以下内容export PATH=/usr/local/cuda-12.6/bin:$PATHexport LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH#使配置立即生效source ~/.bashrc#查看版本nvcc -V

四、vllm 安装

新创建一个 python3.10 的环境

#创建一个名称为vllm的python环境conda create -n vllm python=3.10 -y#激活conda activate vllm

进入终端，可以看到当前 python 版本为 3.10

3.更新 pip，保证其为最新版

#安装前更新pippython -m pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple

4.安装 vllm

python -m pip install vllm -i https://mirrors.aliyun.com/pypi/simple

安装成功如下图所示：

五、大模型下载与运行

1）手动下载模型文件

访问https://huggingface.co/models或https://modelscope.cn/models 官网，选择你需要下载的模型

将以下文件，全部下载到同一目录中

（1）运行模型

#设置GPU并行数为2vllm serve /mnt/models --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager --gpu-memory-utilization 0.9#不设置GPU并行数，使用默认值。设置api-key为test@123vllm serve  /mnt/models/ --max-model-len 32768 --enforce-eager --gpu-memory-utilization 0.9 --api-key test@123

更多参数可参考官网手册：

https://vllm.hyper.ai/docs/models/engine-arguments#命名参数

（2）运行成功后，会给出 api 调用地址，如服务器为云端则需要在安全组中放行对应端口

2）通过下载工具下载

1.安装下载工具

python -m pip install modelscope -i https://mirrors.aliyun.com/pypi/simple

2.下载模型到指定目录内，这里以DeepSeek-r1-1.5B为例

modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --local_dir /mnt/models2

PS：启动方式与上面的一致，这里不再赘述。

客户端调用测试

1.安全组内放行服务端口

这里为云服务器部署，需要先放行 8000 端口.

2.在电脑打开客户端工具cherry studio=>新添加一个接口=>提供商类型选择 OpenAI

填写API地址和密钥，API地址填写为http://公网IP:8000即可。

回到对话界面，选择添加的模型，就可以正常进行对话了

PS：部署时请根据实际使用场景，配置必要的安全策略。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-03-26

软标签：知识蒸馏的核心机制与应用

2025-03-26

基于特征的模型蒸馏：深层次知识转移的挑战与局限

2025-03-26

我也曾一上来就想微调大模型，直到我发现自己错得离谱！

2025-03-26

AI开发进入“全民时代”？百度秒哒全量上线，首日吸引2万用户

2025-03-25

AI训练存储方案选谁？DeepSeek 3FS与JuiceFS的全面对比

2025-03-25

Ollama v0.6.1重磅更新！1110亿参数模型上线，AI性能炸裂！

2025-03-25

MCP实用指南

2025-03-25

30行代码让DeepSeek做Web自动化测试

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

2025-03-11

Manus，为何是他们做出来了？

2025-03-07

在树莓派5上运行9款流行的AI模型：哪些能用？哪些不行？

2025-03-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

告别复杂配置！轻松使用VLLM部署大模型

目录

环境准备

配置步骤

一、配置 GPU 云服务器

二、安装 conda

三、显卡驱动安装

四、vllm 安装

五、大模型下载与运行

1） 手动下载模型文件

2） 通过下载工具下载

客户端调用测试

PS：部署时请根据实际使用场景，配置必要的安全策略。

1）手动下载模型文件

2）通过下载工具下载