微信扫码
添加专属顾问
我要投稿
企业私有化部署的新选择,提升DeepSeek推理效率80%以上。 核心内容: 1. TencentOS Server AI全栈式AI环境介绍 2. 私有化部署TencentOS Server AI版Linux操作系统 3. 性能实测:相比开源方案提升80%以上
考虑到信息安全和个性化,很多企业都开始做私有化DeepSeek的部署,然而在部署过程中,通常一开始就会遇到这2个问题:部署复杂度高、推理性能不及预期。
腾讯云针对这两个问题,发布了TencentOS Server AI,提供了从操作系统到AI框架以及模型的全栈式AI环境,一方面简化部署,另一方面通过高性能的AI框架,实现大模型如DeepSeek推理效率成倍的增加。
本文介绍如何通过TencentOS Server AI快速构建私有化的DeepSeek服务,实测相比其他开源方案超过80%的性能提升。
本次部署采用以下配置及版本:
硬件配置 | 软件版本 |
CPU:AMD384核 内存:2304GB 硬盘:2048GB GPU:8 张 NVIDIA 卡 | 操作系统:TencentOS Server AI版 内核版本:5.4.119-19.0009.56 |
私有化环境中部署TencentOS Server AI版Linux操作系统,在操作系统部署过程中,默认会进行AI基础环境的部署,从而获得开箱即用的AI 软件栈环境。
相关AI基础环境的部署主要包括:
1) 针对AI场景的内核优化
TencentOS Server AI版针对内存透明大页、IO子系统、CPU调度、文件句柄数扩展做了优化,使OS在承载AI大模型时,运算更加迅速。
2) GPU驱动
TencentOS Server AI版在安装过程中会检测GPU的类型,并且自动安装GPU驱动,目前提供的Nvidia驱动版本为535.216.01。
3) 容器环境
TencentOS Server AI版提供大模型运行所依赖的docker环境,系统当前提供的docker版本为26.1.3,同时还会部署nvidia-container-toolkit,当前版本为1.13.5,系统完成安装后,Docker服务默认为启动状态。
4) tencentos-ai工具
tencentos-ai是一个命令行工具,能够自动地实现基于Docker的大模型框架部署、配置、启动以及模型的加载等功能。
5) 推理框架和基础模型的准备
TencentOS Server AI完成系统安装后,会自动创建/opt/tencentos-ai目录,同时会拷贝光盘中的taco-llm推理框架到/opt/tencentos-ai/engine中,会拷贝光盘中的DeepSeek-R1:7b模型到/opt/tencentos-ai/models中。
3.1 概述
部署一个DeepSeek的私有化服务,需要完成推理框架的部署以及模型的加载,在TencentOS Server AI的iso光盘中,默认提供了腾讯自研的大模型推理框架TACO-LLM以及DeepSeek的7b模型。
TACO-LLM(TencentCloud Accelerated Computing Optimization LLM),是腾讯云自研的一款面向大模型的推理框架,TACO-LLM默认集成在了TencentOS Server AI中,相比其他开源框架,TACO-LLM具有更好的稳定性、安全性以及更高的性能,通过采用自研的Lookahead 加速技术以及针对DeepSeek模型的输出特征优化,能够大幅提升DeepSeek的tokens吞吐能力。
1) 获得DeepSeek-R1:70b模型
TencentOS Server AI除了在光盘中默认提供DeepSeek-R1:7b模型外,还通过极光系统提供DeepSeek其他大小的模型,可以联系腾讯获得下载,也可以直接在modelscope等模型提供官网直接下载使用。
将下载后的模型拷贝到/opt/tencentos-ai/models中统一管理:
2) 配置tencentos-ai
修改tencentos-ai配置文件/etc/tencentos-ai/tencentos-ai.conf,修改以下片段
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
ENGINE=/opt/tencentos-ai/engine/taco-llm-v0.64.tgz
MODEL=/opt/tencentos-ai/models/DeepSeek-R1-Distill-Llama-70B
3) 初始化DeepSeek运行环境
使用tencentos-ai的init指令实现自动化的配置动作,配置过程会读取tencentos-ai.conf的配置信息,自动完成推理框架容器镜像的加载和配置
tencentos-ai init
4) 运行DeepSeek
tencentos-ai支持使用start、stop命令来启动、停止taco-llm,这里启动taco-llm框架,启动时会自动读取tencentos-ai.conf中的MODEL字段来加载模型
tencentos-ai start
DeepSeek服务启动后,可以tencentos-ai支持使用test命令来对本地的DeepSeek进行简单的测试
tencentos-ai test --prompt="你是谁"
看到以下回应,表示服务正常
本次测试采用行业内主流基准测试框架,通过标准化的测试流程和评估指标,比较不同私有化部署方案之间的性能差异,评估中重点关注三大指标:输出token速率(tokens/s)、平均首token时延(ms)和平均生成token时延(ms),其中输出token速率和平均生成token时延会极大的影响用户的使用体验(快不快),也是对GPU资源效能的重要评估指标。
本次性能评估涵盖了代码生成、对话问答、预训练、医疗四个目前AI的主流应用场景,使用目前业内公开的数据集进行测试,对比了较为流行的开源部署方案-vLLM。
使用github_sample数据集来进行测试,以下为测试结果:
从上图中可以观察到,相比vLLM,TencentOS Server AI版在对话问答场景中token吞吐速率平均提升53.4%,平均生成token时延降低39.5%。
● 预训练场景:
使用c4_sample数据集来进行测试,以下为测试结果
从上图中可以观察到,相比vLLM,TencentOS Server AI版在预训练场景中token吞吐速率提升117.2%,平均生成token时延降低55.9%。
● 医疗场景:
使用medical数据集来进行测试,以下为测试结果:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-09
8分钟打造一个DeepSeek API智能测试引擎:当咖啡还没凉,测试报告已出炉
2025-03-09
lceberg 助力 B 站商业化模型样本行级更新的实践
2025-03-09
单卡4090微调DeepSeek-R1-32B
2025-03-08
QwQ总结能力测评,32b小模型真能超过deepseek吗
2025-03-08
为什么vLLM做不到?解密Ollama越级部署黑科技:以DeepSeek-R1-8B为例
2025-03-07
为什么Manus底层模型没用DeepSeek?——Manus六问六答
2025-03-07
Cherry Studio 发布 v1.0.0 版本支持联网搜索
2025-03-07
Claude 3.7 Sonnet 使用结论
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01