我要投稿

腾讯云究极薅羊毛部署最近爆火的DeepSeek

发布日期：2025-02-08 12:45:44 浏览次数： 2231 作者：听道智能

如果你还在看如何用ollama在本地部署DeepSeek这样的入门级文章，那是时候来看看高级一点的玩法了！

ollama确实很适合新手小白，但是如果你看到的文章标题号称“企业级”还在教你下载ollama，那你可以直接拉黑那个文章作者了，确信无疑是在误人子弟和蹭热点。不会有哪个“企业”真的用ollama在生产环境部署大模型服务。

好了，进入正题！

既然是薅羊毛，就得找到这只羊，这次，我们选腾讯云。腾讯云最近推出的Cloud Studio 高性能计算空间，每个月可以用10000分钟。

“夺少？？”

“一万分钟！！”

系统还提供了一大堆常用的框架模板可供选择。

这里，也有ollama，你肯定也看到过一些介绍Cloud Studio的文章，教你用这里的ollama模板来部署，当然这也能用。

但是如果只到这一步，还完全没有达到薅羊毛的目的。大部分人是不可能用完这1万分钟的，或者，真的有大量需求的时候，ollama的推理速度慢导致的1万分钟都不够用。没有达到我们羊毛党的高标准高要求。

这时候，如果你再点一下“新建”按钮会发现，还可以创建一个空间。

这时候就有一个大胆的idea出现了！

一个空间是16GB的显存，那两个空间岂不是32GB了！

能否让两个空间一起运行，但是对外就提供一个接口来使用，这样对于使用者客户端来说，就是同一个服务，不需要在客户端做路由选择，也不需要在服务端增加负载均衡。

这时候就要使用真正企业级的推理框架了，本次我们选择vllm，最新版的vllm已经更新到0.7.1了，对DeepSeek也有了更好的支持。

不管使用的是哪个模板，都具备较为完整的CUDA环境和python环境，我们要做的就很简单，一条安装vllm的命令即可

pip3 install vllm "ray[serve]" requests

当然，启动的两个空间都做相同的操作，包括下载的模型位置也要一样。至于怎么下载模型，我相信你已经在海量的蹭热度的文章里学会了。

至此，准备环境结束，接下来要做的是让他们都运行起来！

因为有两台机器，我们把其中一台定为header，另一台定为worker。随便选一台，可以抛硬币来决定。

在head机器上运行

ray start --head

在另一台机器上运行，这里的10.x.x.x的IP地址，是head的IP地址，没有外网地址，是内网地址

ray start --address='10.x.x.x:6379' --num-gpus=1

这时候在head机器上运行命令查看ray集群状态

ray status

应该可以看到两个节点了。也能从dashboard页面看到信息。

接下来就可以在head机器上启动DeepSeek模型了！激动人心的时刻到了！

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --distributed-executor-backend ray

指定vllm使用的分布式后端是ray，不是默认的python。

这时候从ray的dashboard页面，就可以看到两个节点都有任务启动了。

调用一下大模型的chat接口试试看，同时观察dashboard上GPU的占用率情况。大功告成！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-27

演讲实录：中小企业如何快速构建AI应用？

2025-04-27

Cherry Studio v1.2.9:新增多个MCP特性

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

使用MCP进行AI集成的6大理由

2025-04-27

大模型微调技术全景解析：从理论到企业级实践（Python实战增强版）

2025-04-27

主流 Embedding 模型对比

2025-04-26

从原理到示例：Java开发玩转MCP

2025-04-26

LLM 微调的学习动力学：幻觉、挤压与优化的艺术（万字长文，实战解读）

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

演讲实录：中小企业如何快速构建AI应用？

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-23

MCP vs Function Calling，该如何选？

2025-04-20

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB