AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


腾讯云究极薅羊毛部署最近爆火的DeepSeek
发布日期:2025-02-08 12:45:44 浏览次数: 1549 来源:听道智能
推荐语

腾讯云Cloud Studio如何实现高性能薅羊毛?DeepSeek部署新技巧!

核心内容:
1. 腾讯云Cloud Studio高性能计算空间介绍
2. 利用Cloud Studio实现DeepSeek双空间部署
3. 企业级推理框架vllm的安装与配置

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


如果你还在看如何用ollama在本地部署DeepSeek这样的入门级文章,那是时候来看看高级一点的玩法了!

ollama确实很适合新手小白,但是如果你看到的文章标题号称“企业级”还在教你下载ollama,那你可以直接拉黑那个文章作者了,确信无疑是在误人子弟和蹭热点。不会有哪个“企业”真的用ollama在生产环境部署大模型服务。

好了,进入正题!

既然是薅羊毛,就得找到这只羊,这次,我们选腾讯云。腾讯云最近推出的Cloud Studio 高性能计算空间,每个月可以用10000分钟。


“夺少??”

“一万分钟!!”


系统还提供了一大堆常用的框架模板可供选择。


这里,也有ollama,你肯定也看到过一些介绍Cloud Studio的文章,教你用这里的ollama模板来部署,当然这也能用。

但是如果只到这一步,还完全没有达到薅羊毛的目的。大部分人是不可能用完这1万分钟的,或者,真的有大量需求的时候,ollama的推理速度慢导致的1万分钟都不够用。没有达到我们羊毛党的高标准高要求。

这时候,如果你再点一下“新建”按钮会发现,还可以创建一个空间。

这时候就有一个大胆的idea出现了!


一个空间是16GB的显存,那两个空间岂不是32GB了!

能否让两个空间一起运行,但是对外就提供一个接口来使用,这样对于使用者客户端来说,就是同一个服务,不需要在客户端做路由选择,也不需要在服务端增加负载均衡。

这时候就要使用真正企业级的推理框架了,本次我们选择vllm,最新版的vllm已经更新到0.7.1了,对DeepSeek也有了更好的支持。

不管使用的是哪个模板 ,都具备较为完整的CUDA环境和python环境,我们要做的就很简单,一条安装vllm的命令即可

pip3 install vllm "ray[serve]" requests

当然,启动的两个空间都做相同的操作,包括下载的模型位置也要一样。至于怎么下载模型,我相信你已经在海量的蹭热度的文章里学会了。

至此,准备环境结束,接下来要做的是让他们都运行起来!

因为有两台机器,我们把其中一台定为header,另一台定为worker。随便选一台,可以抛硬币来决定。

在head机器上运行

ray start --head

在另一台机器上运行,这里的10.x.x.x的IP地址,是head的IP地址,没有外网地址,是内网地址

ray start --address='10.x.x.x:6379' --num-gpus=1

这时候在head机器上运行命令查看ray集群状态

ray status

应该可以看到两个节点了。也能从dashboard页面看到信息。


接下来就可以在head机器上启动DeepSeek模型了!激动人心的时刻到了!

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --distributed-executor-backend ray

指定vllm使用的分布式后端是ray,不是默认的python。

这时候从ray的dashboard页面,就可以看到两个节点都有任务启动了。


调用一下大模型的chat接口试试看,同时观察dashboard上GPU的占用率情况。大功告成!

第一时间就把这个好消息跟哥们分享了,那时候还是春节前!


你问我Cloud Studio没有公网IP没法看dashboard呀,这个简单,frp整一把就可以了。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询