微信扫码
与创始人交个朋友
我要投稿
视频地址:
https://www.bilibili.com/video/BV1ompzeXEcx/
随着大模型的增长和摩尔定律放缓硬件性能的提升速度减慢,增加了对更高效网络设计和超大规模DC的需求。
当前基于Clos网络的架构(如常用的rail-optimized架构)提供any-to-any全连接,但由于LLM训练网络通信模式的稀疏性,即大部分GPU对之间不需要直接通信,这种通信模式与传统DC网络设计的any-to-any特性不匹配,导致资源利用不充分及大规模部署时的成本和功耗问题。
HB domain通常指的是一个局部的、高带宽的网络环境,其中包含若干GPU。这个域内的GPU通过专用高速网络互连技术(如NVIDIA的NVLink或AMD的Infinity Fabric)连接,以支持高数据传输速率。
通常具有高带宽、低延迟等特点。一般涉及大量的数据传输,如TP中的操作需要在参与同一并行任务的GPU之间快速同步数据。
NIC domain则是指跨越多个HB domains的更广泛的网络环境。在NIC域中不同的HB domains通过NIC接口+标准的网络技术(如以太网、InfiniBand等)连接。
通常具有良好的扩展性、网络负载拓扑灵活性及低成本效益等特点。一般需跨不同HB domain通信,如DP 和 PP操作等。
在NIC域内,大多数通信发生在同一个轨道内的GPU对之间,而不是跨越不同的轨道。同时提出分层集体通信算法。
这里Rail-轨道是指在具有同一个GPU ID的GPU集合。 K个rail也就表示1个HB域中几个GPU。
通过将相同ID的GPU连接到相同leaf交换机,Rail-only网络确保了这些GPU之间的最低延迟。
vs
注:这里rail交换机等同clos网络中的leaf交换机,具体拓扑上的差异参考PPT 5/17。
Rail-only网络设计
去除了传统Clos网络架构中spine交换机,仅保留leaf layer和连接GPU的轨道。结构上区别如上图所示,更多网络拓扑可参考分布式Infra中大模型高效训练综述一文,如下图所示。
路由策略
在Rail-only网络中,通过HB域转发数据来实现不同rail间的通信,这种转发策略虽增加了一定的带宽开销,但由于HB域的高带宽,这种开销对整体性能的影响很小。
故障容错
讨论了GPU平台异常及单GPU异常,在发生故障时,通过重新配置网络或迁移任务到健康的GPU来恢复服务。
性能评估
通过分析不同规模大小GPT模型,在不同GPU集群配置下的训练迭代时间,来评估rai-only网络性能,并使用硬件FLOPs利用率(HFU)指标验证准确性。如下图所示,对于GPT-1T模型rail-only网络的HFU与真实值的误差仅为1.8%。
最优HB域大小
分析了HB域大小对迭代时间的影响,发现随着HB域大小的增加,迭代时间减少。如GPT-1T模型在HB域大小为256时,与理想情况下的迭代时间差距仅为0.9%。
HB域大小和网络带宽影响
无论是增加HB(高带宽)域的带宽还是网络带宽,迭代时间都会减少。
当per-GPU的带宽从2.4 Tbps增加到9.6 Tbps时,对于K=8的配置,迭代时间平均改善了8.0%。对于K=256的配置,可以提高13.3%。
大的HB域对网络带宽的提升更为明显。将带宽从100 Gbps增加到400 Gbps,对于K=8的配置,可以带来35.9%的性能提升,但对于K=256的配置,提升仅为8.0%。
batch size对网络设计的影响
分析了不同batch size对迭代时间性能的影响。当batch size从256增加到4096时,K=256配置的相对性能从95%提高到99%。
成本和功耗分析
对比了Rail-only网络设计与传统Rail-optimized GPU集群在成本和功耗方面的差异。
对于32768个GPU的集群,Rail-only设计相比传统设计在成本上节省了38%至77%,在功耗上节省了37%至75%。
对于65536个GPU的集群,即使在spine交换机的 radix 为64,Rail-only设计也能实现与现有设计相当的性能,同时减少了成本和功耗。
会议分享PPT如下:
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-04-11
2024-08-21
2024-07-09
2024-07-18
2024-08-13
2024-10-25
2024-07-01
2024-06-17