微信扫码
与创始人交个朋友
我要投稿
腾讯云Cloud Studio如何实现高性能薅羊毛?DeepSeek部署新技巧!核心内容:1. 腾讯云Cloud Studio高性能计算空间介绍2. 利用Cloud Studio实现DeepSeek双空间部署3. 企业级推理框架vllm的安装与配置
如果你还在看如何用ollama在本地部署DeepSeek这样的入门级文章,那是时候来看看高级一点的玩法了!
ollama确实很适合新手小白,但是如果你看到的文章标题号称“企业级”还在教你下载ollama,那你可以直接拉黑那个文章作者了,确信无疑是在误人子弟和蹭热点。不会有哪个“企业”真的用ollama在生产环境部署大模型服务。
好了,进入正题!
既然是薅羊毛,就得找到这只羊,这次,我们选腾讯云。腾讯云最近推出的Cloud Studio 高性能计算空间,每个月可以用10000分钟。
“夺少??”
“一万分钟!!”
系统还提供了一大堆常用的框架模板可供选择。
这里,也有ollama,你肯定也看到过一些介绍Cloud Studio的文章,教你用这里的ollama模板来部署,当然这也能用。
但是如果只到这一步,还完全没有达到薅羊毛的目的。大部分人是不可能用完这1万分钟的,或者,真的有大量需求的时候,ollama的推理速度慢导致的1万分钟都不够用。没有达到我们羊毛党的高标准高要求。
这时候,如果你再点一下“新建”按钮会发现,还可以创建一个空间。
这时候就有一个大胆的idea出现了!
一个空间是16GB的显存,那两个空间岂不是32GB了!
能否让两个空间一起运行,但是对外就提供一个接口来使用,这样对于使用者客户端来说,就是同一个服务,不需要在客户端做路由选择,也不需要在服务端增加负载均衡。
这时候就要使用真正企业级的推理框架了,本次我们选择vllm,最新版的vllm已经更新到0.7.1了,对DeepSeek也有了更好的支持。
不管使用的是哪个模板 ,都具备较为完整的CUDA环境和python环境,我们要做的就很简单,一条安装vllm的命令即可
pip3 install vllm "ray[serve]" requests
当然,启动的两个空间都做相同的操作,包括下载的模型位置也要一样。至于怎么下载模型,我相信你已经在海量的蹭热度的文章里学会了。
至此,准备环境结束,接下来要做的是让他们都运行起来!
因为有两台机器,我们把其中一台定为header,另一台定为worker。随便选一台,可以抛硬币来决定。
在head机器上运行
ray start --head
在另一台机器上运行,这里的10.x.x.x的IP地址,是head的IP地址,没有外网地址,是内网地址
ray start --address='10.x.x.x:6379' --num-gpus=1
这时候在head机器上运行命令查看ray集群状态
ray status
应该可以看到两个节点了。也能从dashboard页面看到信息。
接下来就可以在head机器上启动DeepSeek模型了!激动人心的时刻到了!
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --distributed-executor-backend ray
指定vllm使用的分布式后端是ray,不是默认的python。
这时候从ray的dashboard页面,就可以看到两个节点都有任务启动了。
调用一下大模型的chat接口试试看,同时观察dashboard上GPU的占用率情况。大功告成!
第一时间就把这个好消息跟哥们分享了,那时候还是春节前!
你问我Cloud Studio没有公网IP没法看dashboard呀,这个简单,frp整一把就可以了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-08
2个安装包1条命令搞定:DeepSeek-R1最佳本地部署+知识库+联网搜索
2025-02-08
新增AI Agent,GitHub Copilot重大更新,超强自动化编程
2025-02-08
微调碾压RAG?大模型意图识别工程化实践
2025-02-08
微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变
2025-02-07
我们应如何看待DeepSeek的557.6万美元训练成本?|甲子光年
2025-02-07
10分钟让WPS接入DeepSeek,实现AI赋能
2025-02-07
“李飞飞团队50美元复刻DeepSeek R1”之辨
2025-02-07
DeepSeek V3:AI领域的全新突破,性能与效率双重飞跃
2024-09-18
2025-02-04
2024-07-11
2024-07-11
2024-07-26
2024-07-09
2025-02-04
2024-12-29
2025-01-27
2024-06-11