AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


速抢!体验TencentOS Server AI 全栈DeepSeek工具箱,获得80%提速

发布日期:2025-03-05 07:53:22 浏览次数: 1569 来源:TencentOS
推荐语

企业私有化部署的新选择,提升DeepSeek推理效率80%以上。

核心内容:
1. TencentOS Server AI全栈式AI环境介绍
2. 私有化部署TencentOS Server AI版Linux操作系统
3. 性能实测:相比开源方案提升80%以上

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

考虑到信息安全和个性化,很多企业都开始做私有化DeepSeek的部署,然而在部署过程中,通常一开始就会遇到这2个问题:部署复杂度高、推理性能不及预期。


腾讯云针对这两个问题,发布了TencentOS Server AI,提供了从操作系统到AI框架以及模型的全栈式AI环境,一方面简化部署,另一方面通过高性能的AI框架,实现大模型如DeepSeek推理效率成倍的增加


本文介绍如何通过TencentOS Server AI快速构建私有化的DeepSeek服务,实测相比其他开源方案超过80%的性能提升 

01
环境配置信息



  
01
高考注意事项


  本次部署采用以下配置及版本:

本次部署采用以下配置及版本:


硬件配置


软件版本


CPU:AMD384核


内存:2304GB


硬盘:2048GB


GPU:8 张 NVIDIA 卡


操作系统:TencentOS Server AI版


内核版本:5.4.119-19.0009.56 

 

02

TencentOS Server AI 操作系统部署





私有化环境中部署TencentOS Server AI版Linux操作系统,在操作系统部署过程中,默认会进行AI基础环境的部署,从而获得开箱即用的AI 软件栈环境。


相关AI基础环境的部署主要包括:


1)  针对AI场景的内核优化


TencentOS Server AI版针对内存透明大页、IO子系统、CPU调度、文件句柄数扩展做了优化,使OS在承载AI大模型时,运算更加迅速。


2)  GPU驱动


TencentOS Server AI版在安装过程中会检测GPU的类型,并且自动安装GPU驱动,目前提供的Nvidia驱动版本为535.216.01。


3)  容器环境


TencentOS Server AI版提供大模型运行所依赖的docker环境,系统当前提供的docker版本为26.1.3,同时还会部署nvidia-container-toolkit,当前版本为1.13.5,系统完成安装后,Docker服务默认为启动状态。


4)  tencentos-ai工具


tencentos-ai是一个命令行工具,能够自动地实现基于Docker的大模型框架部署、配置、启动以及模型的加载等功能。


5)  推理框架和基础模型的准备

TencentOS Server AI完成系统安装后,会自动创建/opt/tencentos-ai目录,同时会拷贝光盘中的taco-llm推理框架到/opt/tencentos-ai/engine中,会拷贝光盘中的DeepSeek-R1:7b模型到/opt/tencentos-ai/models中。

 

    03
  在TencentOS Server AI上部署DeepSeek


 

3.1 概述

部署一个DeepSeek的私有化服务,需要完成推理框架的部署以及模型的加载,在TencentOS Server AI的iso光盘中,默认提供了腾讯自研的大模型推理框架TACO-LLM以及DeepSeek的7b模型。


相关部署、配置以及管理动作可以利用腾讯针对AI场景提供的CLI管理工具tencentos-ai来统一进行管理。


3.2 大模型推理框架TACO-LLM


TACO-LLM(TencentCloud Accelerated Computing Optimization LLM),是腾讯云自研的一款面向大模型的推理框架,TACO-LLM默认集成在了TencentOS Server AI中,相比其他开源框架,TACO-LLM具有更好的稳定性、安全性以及更高的性能,通过采用自研的Lookahead 加速技术以及针对DeepSeek模型的输出特征优化,能够大幅提升DeepSeek的tokens吞吐能力。

3.3.  部署DeepSeek-R1:70b


1)  获得DeepSeek-R1:70b模型


TencentOS Server AI除了在光盘中默认提供DeepSeek-R1:7b模型外,还通过极光系统提供DeepSeek其他大小的模型,可以联系腾讯获得下载,也可以直接在modelscope等模型提供官网直接下载使用。


将下载后的模型拷贝到/opt/tencentos-ai/models中统一管理:

2)  配置tencentos-ai


修改tencentos-ai配置文件/etc/tencentos-ai/tencentos-ai.conf,修改以下片段



CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7



ENGINE=/opt/tencentos-ai/engine/taco-llm-v0.64.tgz



MODEL=/opt/tencentos-ai/models/DeepSeek-R1-Distill-Llama-70B

3)  初始化DeepSeek运行环境


使用tencentos-ai的init指令实现自动化的配置动作,配置过程会读取tencentos-ai.conf的配置信息,自动完成推理框架容器镜像的加载和配置



tencentos-ai init

4)  运行DeepSeek


tencentos-ai支持使用start、stop命令来启动、停止taco-llm,这里启动taco-llm框架,启动时会自动读取tencentos-ai.conf中的MODEL字段来加载模型



tencentos-ai start


3.4.  DeepSeek服务测试


DeepSeek服务启动后,可以tencentos-ai支持使用test命令来对本地的DeepSeek进行简单的测试



tencentos-ai test --prompt="你是谁"

看到以下回应,表示服务正常


 

   04
  性能评测


 

4.1 性能评测方法


本次测试采用行业内主流基准测试框架,通过标准化的测试流程和评估指标,比较不同私有化部署方案之间的性能差异,评估中重点关注三大指标:输出token速率(tokens/s)、平均首token时延(ms)和平均生成token时延(ms),其中输出token速率和平均生成token时延会极大的影响用户的使用体验(快不快),也是对GPU资源效能的重要评估指标。


本次性能评估涵盖了代码生成、对话问答、预训练、医疗四个目前AI的主流应用场景,使用目前业内公开的数据集进行测试,对比了较为流行的开源部署方案-vLLM。

4.2 与vLLM对比结果分析

 代码生成类场景:

使用github_sample数据集来进行测试,以下为测试结果:


从上图中可以观察到,相比vLLM,TencentOS Server AI在代码生成类场景中token吞吐速率提升53.6%,平均生成token时延降低38.9%。


● 对话问答场景:


使用ShareGPT_V3数据集来进行测试,以下为测试结果:


从上图中可以观察到,相比vLLM,TencentOS Server AI版在对话问答场景中token吞吐速率平均提升53.4%,平均生成token时延降低39.5%。


● 预训练场景:


使用c4_sample数据集来进行测试,以下为测试结果


从上图中可以观察到,相比vLLM,TencentOS Server AI版在预训练场景中token吞吐速率提升117.2%,平均生成token时延降低55.9%。


● 医疗场景:


使用medical数据集来进行测试,以下为测试结果:


从上图中可以观察到,相比vLLM,TencentOS Server AI版在医疗场景下token吞吐速率提升94.1%,平均生成token时延降低51.0%。


综上,TencentOS Server AI可快速完成DeepSeek-R1:70B(百亿模型)部署,并在代码生成、对话问答、预训练和医疗四类场景下,token输出分别提升53.6%、53.4%、117.2%和94.1%,平均token输出提升79.58%。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询