微信扫码
添加专属顾问
我要投稿
选择企业私有大模型部署方案,Ollama还是vLLM?深入对比分析,助你做出明智选择。核心内容:1. Ollama与vLLM的核心定位与部署方式对比2. 技术特点差异:简化部署、资源优化、高效内存管理等3. 适用场景分析:轻量级应用、高并发服务、资源密集型任务
对数据敏感的企业想要部署自己的大模型该(如:DeepSeek R1)该选用什么方式呢? Ollama还是vllm呢? 我先说结论:Ollama适用于开发测试,vLLM适用于生产环境部署
下面我会进行详细的选型对比,让你有一个更清晰的认知。
Ollama与vLLM都是针对大语言模型(LLM)部署和推理的开源框架,但它们在设计目标、技术特点和适用场景上有显著的差异。下面通过多个维度给出具体对比说明
Usage:
ollama [flags]
ollama [command]
Available Commands:
serve 启动 Ollama 服务
create 从 Modelfile 创建一个模型
show 查看模型详细信息
run 运行一个模型
stop 停止正在运行的模型
pull 从注册表拉取一个模型
push 将一个模型推送到注册表
list 列出所有可用的模型
ps 列出当前正在运行的模型
cp 复制一个模型
rm 删除一个模型
help 获取关于任何命令的帮助信息
Flags:
-h, --help helpfor ollama
-v, --version Show version information
拉取模型并运行 ollama pull 具体的模型,这里以deepseek为
选择模型 搜索你想要的模型:比如 deepseek,qwen 选择你的模型
ollama pull deepseek-r1:14b
$ ENV OLLAMA_HOST=0.0.0.0:11434 ollama serve
注意:如果你对外提供公网服务,请勿设置OLLAMA_HOST=0.0.0.0:11434
,因为无需授权即可访问所有的接口,这是一个严重的安全风险。
vLLM安装稍微复杂一点,需要你有熟悉服务器的门槛,接下来我们开始
$ curl -LsSf https://astral.sh/uv/install.sh | sh
初始化虚拟环境
$ uv venv vllm --python 3.12 --seed
$ source vllm/bin/activate
安装vllm,这里假设你用的NVIDIA显卡,其他的环境参照着官方文档一步一步安装即可
$ pip install vllm
$ uv pip install vllm
执行vllm -h可以看到下面信息
$ vllm -h
usage: vllm [-h] [-v] {chat,complete,serve} ...
vLLM CLI
positional arguments:
{chat,complete,serve}
chat Generate chat completions via the running API server
complete Generate text completions based on the given prompt via the running API server
serve Start the vLLM OpenAI Compatible API server
options:
-h, --help show this help message and exit
-v, --version show program's version number and exit
启动vllm服务,并指定相应的模型,这里以deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B(https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B?local-app=vllm)为例:
然后用下面命令启动,启动过程中会去下载模型,这个根据你的网络情况
env OPENAI_API_KEY=123456 vllm serve "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
其中OPENAI_API_KEY为外部工具调用接口需要配置的key值,看到下面内容说明启动成功
通过http://你服务器IP:8000/docs,可以访问所有接口文档
这里我介绍两款工具的使用方法, 一款是PC软件,一款是浏览器服务:
下载后直接按提示安装,安装后并打开该软件
配置vllm服务,创建模型供应商
1. 模型名字填写:vllm
2. 模型提供商选择OpenAI, 因为vllm兼容OpenAI的接口
接下来填写接口信息
1. key在启动参数的地方设置过,直接填写
2. vllm服务地址
3. 然后点击下面按钮添加模型
1. 模型名字:deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
接下来创建聊天助手:
1. 选择聊天
2. 设置助手模型
3. 选中我们配置的模型
开启聊天
docker compose 配置文件
version: '3'
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main # 镜像略大,下载情况根据你网速
ports:
- "3000:8080"
environment:
- OPENAI_API_KEY=123456 # api key
- OPENAI_API_BASE_URL=http://你服务器地址:8000/v1/ # vllm服务地址
volumes:
- ./data:/app/backend/data # 挂载数据卷(根据项目需求调整路径)
restart: always
启动docker服务
$ docker-compose up -d
访问web客户端,地址: http://你的服务器IP:3000, 由于服务启动比较慢,当你看到下面界面说明启动成功
接下来配置用户名和密码
配置后登录
开启聊天:
剩下的功能就有你来探索吧。
?喜欢的小伙伴欢迎关注+点赞
,在看
+转发
,我会不定时的分享一些干货,你们的支持就是我最大的动力。同时也欢迎大家留言交流。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-20
2025-04-01
2025-03-31
2025-03-20
2025-03-16
2025-03-16
2025-03-13
2025-03-13