微信扫码
添加专属顾问
我要投稿
想在家部署Kimi-K2.5模型?这篇教程手把手教你用Docker轻松搞定8卡RTX 6000 PRO的私有化部署! 核心内容: 1. 环境准备:安装NVIDIA驱动、Docker和NVIDIA Container Toolkit 2. 两种部署方式:单命令Docker运行和Docker Compose管理 3. 模型下载与验证测试完整流程
Kimi-K2.5
RTX 6000 PRO x 8 私有化部署教程
「从零开始,手把手教你把Kimi请回家」
Ubuntu + Docker + vLLM | 包含 Docker 单命令 & Docker Compose 两种方式
系统 Ubuntu 22.04+ | 显卡 RTX 6000 PRO x 8 | 显存 单卡 96GB / 总 768GB |
最近 Kimi-K2.5 模型火了,性能强悍,开源免费。很多朋友想把它部署到自己的服务器上,既保护数据隐私,又能随意折腾。但一看部署文档——一堆命令行参数,头大了。
别急!这篇教程就是你的“救命稻草”。我们会用最通俗的语言,手把手带你完成以下操作:
•环境准备:安装 Docker、NVIDIA 驱动、NVIDIA Container Toolkit
•下载模型:把 Kimi-K2.5 模型文件下载到服务器
•方式一:用一条 docker run 命令直接起飞
•方式二:用 Docker Compose 优雅管理,适合长期运维
•验证测试:确认服务起来了,而且好用
适合谁读? 有一台装了 8 张 RTX 6000 PRO 显卡的 Ubuntu 服务器,想拿它跑 Kimi-K2.5 的同学。哪怕你是“命令行新手”,跟着做就行! |
在跑模型之前,我们得先把“地基”打好。主要包括三件事:NVIDIA 驱动、Docker 和 NVIDIA Container Toolkit。
先看看你的显卡驱动装好了没有,运行以下命令:
nvidia-smi
如果能看到 8 张 RTX 6000 PRO 整整齐齐地排列,恭喜,说明驱动没问题。如果报错,请先安装 NVIDIA 驱动(推荐 550+):
sudo apt updatesudo apt install -y nvidia-driver-550sudo reboot # 重启后再次运行 nvidia-smi 确
如果还没装 Docker,执行以下命令(官方推荐方式):
# 卸载旧版本(如果有的话)sudo apt remove docker docker-engine docker.io containerd runc# 安装依赖sudo apt updatesudo apt install -y ca-certificates curl gnupg lsb-release# 添加 Docker 官方 GPG keysudo install -m 0755 -d /etc/apt/keyringscurl -fsSL https://download.docker.com/linux/ubuntu/gpg \| sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg# 添加仓库echo "deb [arch=$(dpkg --print-architecture) \signed-by=/etc/apt/keyrings/docker.gpg] \https://download.docker.com/linux/ubuntu \$(lsb_release -cs) stable" \| sudo tee /etc/apt/sources.list.d/docker.list > /dev/null# 安装 Dockersudo apt updatesudo apt install -y docker-ce docker-ce-cli \containerd.io docker-compose-plugin
小贴士 安装完成后运行 docker --version 确认版本。建议把当前用户加入 docker 组,这样不用每次都加 sudo:sudo usermod -aG docker $USER,然后重新登录。 |
这个工具让 Docker 容器能“看到”你的 GPU。没有它,容器里的模型就是个“瞎子”,有显卡也用不上。
# 添加仓库distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpgcurl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list \| sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list# 安装sudo apt updatesudo apt install -y nvidia-container-toolkit# 配置 Docker 运行时sudo nvidia-ctk runtime configure --runtime=dockersudo systemctl restart docker
验证一下是否成功:
docker run --rm --gpus all nvidia/cuda:12.3.0-base-ubuntu22.04 nvidia-smi
如果能看到熟悉的 nvidia-smi 输出,恭喜你,GPU 已经在 Docker 里“上线”了!
Kimi-K2.5 是个“大家伙”,模型文件体积不小。我们需要把它下载到服务器的 /data/Kimi-K2.5 目录下。
# 安装 huggingface_hubpip install -U huggingface_hub# 创建目录sudo mkdir -p /data/Kimi-K2.5# 下载模型(具体仓库名以官方为准)huggingface-cli download moonshotai/Kimi-K2.5 \--local-dir /data/Kimi-K2.5
pip install modelscopemodelscope download --model moonshotai/Kimi-K2.5 \--local_dir /data/Kimi-K2.5
⚠️ 注意 模型文件很大,下载可能需要较长时间。建议使用 screen 或 tmux 在后台运行,避免 SSH 断开导致下载中断。另外,确保 /data 分区有足够的磁盘空间(至少预留 500GB+)。 |
这是最简单粗暴的方式,一条命令搞定。适合快速测试和“先跑起来再说”的场景。
复制以下命令,粘贴到终端执行:
docker run -d \--runtime nvidia \--gpus all \--name kimi-k25-0203 \-e SAFETENSORS_FAST_GPU=1 \-e LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:\/usr/local/cuda/targets/x86_64-linux/lib \-v /data/Kimi-K2.5:/data/Kimi-K2.5 \-p 8008:8008 \--ipc=host \--restart unless-stopped \vllm/vllm-openai:cu130-nightly \--model /data/Kimi-K2.5 \--served-model-name kimi-k2.5 \--tensor-parallel-size 8 \--trust-remote-code \--tool-call-parser kimi_k2 \--reasoning-parser DeepSeek_r1 \--enable-auto-tool-choice \--gpu-memory-utilization 0.92 \--max-model-len 65536 \--max-num-batched-tokens 32000 \--max-num-seqs 8 \--disable-custom-all-reduce \--api-key mykey \--port 8008 \--host 0.0.0.0
别被这一堆参数吓到,我们来逐个解读:
参数 | 说人话解释 |
--runtime nvidia --gpus all | 告诉 Docker:“把所有 GPU 都拿出来用!” |
-d | 后台运行,不占用你的终端窗口 |
--name kimi-k25-0203 | 给容器取个名字,方便后续管理 |
-e SAFETENSORS_FAST_GPU=1 | 加速模型加载,让显卡直接读取模型文件 |
-v /data/Kimi-K2.5:... | 把主机的模型目录“挂载”到容器里 |
-p 8008:8008 | 端口映射,外部访问用 8008 端口 |
--ipc=host | 共享主机内存,多 GPU 通信必备 |
--restart unless-stopped | 容器崩了自动重启,省心! |
--tensor-parallel-size 8 | 用 8 张卡并行计算,每张卡分担一部分 |
--gpu-memory-utilization 0.92 | 用 92% 显存,留点余地防爆显存 |
--max-model-len 65536 | 最大支持 64K token 的上下文长度 |
--max-num-seqs 8 | 最多同时处理 8 个请求 |
--api-key 8712011+a | API 密钥,请替换成你自己的密钥! |
--tool-call-parser kimi_k2 | 启用 Kimi 专用工具调用解析器 |
--reasoning-parser deepseek_r1 | 启用深度思考推理解析器 |
⚠️ 安全提醒 请务必修改 --api-key 为你自己的强密码!示例中的密钥仅用于演示,千万不要直接用于生产环境。 |
如果你打算长期运行这个服务,Docker Compose 是更好的选择。它用一个 YAML 文件记录所有配置,不用每次都输一大串命令,而且更容易管理和修改。
mkdir -p /opt/kimi-k25 && cd /opt/kimi-k25
创建文件 /opt/kimi-k25/docker-compose.yml,内容如下:
services:kimi-k25:image: vllm/vllm-openai:cu130-nightlycontainer_name: kimi-k25-0203runtime: nvidiaipc: hostrestart: unless-stoppedports:- "8008:8008"volumes:- /data/Kimi-K2.5:/data/Kimi-K2.5environment:- SAFETENSORS_FAST_GPU=1- LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:/usr/local/cuda/targets/x86_64-linux/lib- NVIDIA_VISIBLE_DEVICES=alldeploy:resources:reservations:devices:- driver: nvidiacount: allcapabilities: [gpu]command: >--model /data/Kimi-K2.5--served-model-name kimi-k2.5--tensor-parallel-size 8--trust-remote-code--tool-call-parser kimi_k2--reasoning-parser deepseek_r1--enable-auto-tool-choice--gpu-memory-utilization 0.92--max-model-len 65536--max-num-batched-tokens 32000--max-num-seqs 8--disable-custom-all-reduce--api-key mykey--port 8008--host 0.0.0.0
cd /opt/kimi-k25# 启动(后台运行)docker compose up -d# 查看日志(实时跟踪)docker compose logs -f# 停止服务docker compose down# 重启服务docker compose restart
对比项 | Docker Run | Docker Compose |
难度 | ⭐简单,一行命令 | ⭐⭐需写 YAML 文件 |
可维护性 | ⭐修改参数得重新输入 | ⭐⭐⭐改 YAML 就行 |
版本管理 | ⭐得查历史记录 | ⭐⭐⭐文件可 git 管理 |
多服务编排 | ⭐不支持 | ⭐⭐⭐原生支持 |
适合场景 | 快速测试、临时使用 | 长期运行、生产环境 |
简单总结:Docker Run 就像点外卖,方便快捷;Docker Compose 就像开餐厅,规范管理。看你的场景选择即可。
服务启动后,模型加载需要几分钟(这毕竟是个大模型)。先看看日志:
docker logs -f kimi-k25-0203
当你看到类似下面的输出时,说明服务已经准备就绪:
INFO: Uvicorn running on http://0.0.0.0:8008
试试发一个聊天请求:
curl http://localhost:8008/v1/chat/completions \-H 'Content-Type: application/json' \-H 'Authorization: Bearer mykey' \-d '{"model": "kimi-k2.5","messages": [{"role": "user", "content": "你好,介绍一下你自己"}],"max_tokens": 512}'如果收到了 JSON 格式的回复,包含模型的自我介绍,恭喜你,部署成功!
curl http://localhost:8008/v1/models \-H 'Authorization: Bearer mykey'
应该能看到 kimi-k2.5 在模型列表中。
如果你喜欢 Python,可以用 OpenAI SDK 无缝对接:
pip install openaifrom openai import OpenAIclient = OpenAI(base_url="http://localhost:8008/v1",api_key="mykey")response = client.chat.completions.create(model="kimi-k2.5",messages=[{"role": "user", "content": "用Python写一个快排算法"}],max_tokens=1024)print(response.choices[0].message.content)先查日志:docker logs kimi-k25-0203。常见原因是模型文件不完整或显存不足。确保模型已完整下载,或者尝试降低 --gpu-memory-utilization 的值(比如调成 0.85)。
显存爆了!试试减小 --max-model-len(比如改为 32768)或降低 --gpu-memory-utilization 值。另外确认没有其他程序占用 GPU。
用 lsof -i:8008 查看是谁在用 8008 端口,杀掉它或者换个端口。只需修改 -p 参数(比如 -p 8009:8008)。
正常现象,大模型首次加载需要几分钟到十几分钟。确保模型文件在 SSD/NVMe 上,以及 SAFETENSORS_FAST_GPU=1 已设置。耐心等待即可。
停止容器后重新拉取即可。Docker Run 方式用:docker stop kimi-k25-0203 && docker rm kimi-k25-0203,然后重新拉取镜像并运行。Docker Compose 方式更简单:docker compose pull && docker compose up -d。
运维必备的常用命令,建议收藏:
操作 | 命令 |
查看容器状态 | docker ps |
查看实时日志 | docker logs -f kimi-k25-0203 |
停止服务 | docker stop kimi-k25-0203 |
启动服务 | docker start kimi-k25-0203 |
重启服务 | docker restart kimi-k25-0203 |
删除容器 | docker rm -f kimi-k25-0203 |
查看 GPU 使用率 | nvidia-smi |
实时监控 GPU | watch -n 1 nvidia-smi |
查看容器资源占用 | docker stats kimi-k25-0203 |
Step 1 安装 NVIDIA 驱动 → 让服务器“认识”显卡 Step 2 安装 Docker + NVIDIA Container Toolkit → 让容器“看到”GPU Step 3 下载 Kimi-K2.5 模型文件 → 把Kimi“请回家” Step 4 用 Docker Run 或 Compose 启动 vLLM 服务 → “起飞” Step 5 curl / Python 验证服务正常 → 大功告成! |
写在最后:私有化部署大模型其实没那么可怕,只要你有合适的硬件和一份靠谱的教程。希望这篇文章能帮到你,如果遇到问题,欢迎在评论区留言交流。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-09
很多人突然不玩小龙虾而用Hermes Agent了。我替你试了,跟小龙虾到底有啥不同?
2026-04-08
开源模型首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA专家被冲了
2026-04-08
探索Agentic生产力:从“被动问答”到“自主分析”
2026-04-08
GLM-5.1 又是开源 SOTA?直接做个图片改字工具验验真假!
2026-04-08
GLM-5.1 开源:零介入,交付整套的 Linux 桌面系统
2026-04-08
DeepSeek 推出快速模式和专家模式
2026-04-07
vLLM v0.19.0 来了,适配 HuggingFace v5,多模态优化,CPU KV 缓存卸载
2026-04-04
Gemma 4开源!整整一年,谷歌终于想明白了!!!
2026-01-30
2026-01-27
2026-01-12
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-23
2026-01-26
2026-01-26
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26