支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek开源DeepEP: 高效的专家并行通信库

发布日期:2025-02-26 07:41:17 浏览次数: 1689 作者:跳动的数据
推荐语

专为混合专家模型设计的通信库DeepEP,优化数据传输,提升分布式训练效率。

核心内容:
1. 支持全交换GPU核心,实现高吞吐低延迟通信
2. 动态资源调控,根据任务需求调整SM数量
3. 支持低精度运算,加速大规模分布式训练

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

DeepEP 是一个专为混合专家(Mixture-of-Experts, MoE)专家并行(Expert Parallelism, EP)设计的通信库。它提供了高吞吐、低延迟的全交换(all-to-all)GPU核心(kernels),即MoE的调度(dispatch)与合并(combine)操作,并支持FP8等低精度运算。

为适配DeepSeek-V3论文中提出的组限门控(group-limited gating)算法,提供了一组针对非对称域带宽转发优化的核心,例如将数据从NVLink域转发至RDMA域。这些核心具有高吞吐特性,适用于训练和推理预填充(prefilling)任务,同时支持流多处理器(Streaming Multiprocessors, SM)数量调控。

针对延迟敏感的推理解码场景,DeepEP包含一组基于纯RDMA的低延迟核心,以最小化通信延迟。此外,该库还引入了基于钩子(hook)的通信-计算重叠方法,此方法无需占用任何SM资源。

DeepEP主要解决MoE模型在分布式训练和推理中的通信瓶颈问题,通过优化数据传输和资源调度,实现“降本增效”。

高效的全对全通信(All-to-All)支持节点内(NVLink)和节点间(RDMA)的高带宽通信,优化数据在不同专家子网络间的快速交换

动态资源调控:基于群组限制门控算法(group-limited gating),动态分配GPU计算单元(SM)数量,任务多时增加资源,任务少时降低功耗,减少资源浪费。支持低精度运算:原生支持FP8格式,减少内存占用并加速计算,适用于大规模分布式训练


性能
常规内核(支持NVLink与RDMA转发)
我们在H800(NVLink最大带宽约160 GB/s)上测试了常规内核的性能,每台设备均配备CX7 InfiniBand 400 Gb/s RDMA网卡(最大带宽约50 GB/s)。测试遵循DeepSeek-V3/R1的预训练配置(每批次4096个令牌,隐藏层维度7168,前4组选择,前8位专家激活,采用FP8调度与BF16合并)。
低延迟内核(纯RDMA支持)
我们在H800上测试了低延迟内核的性能,每台设备均配备CX7 InfiniBand 400 Gb/s RDMA网卡(最大带宽约50 GB/s)。测试遵循DeepSeek-V3/R1的典型生产环境配置(每批次128个令牌,隐藏层维度7168,前8位专家激活,采用FP8调度与BF16合并)。

normal


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询