支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


简单说说算力网络:阿里云万卡集群组网实战

发布日期:2025-04-03 14:06:18 浏览次数: 1544 作者:连通梦想
推荐语

探索阿里云万卡集群网络架构的高效设计与实战应用。

核心内容:
1. 万卡集群网络架构HPN 7.0的三层RoCE组网设计
2. 万卡集群网络的拓扑结构和端口配置详解
3. 故障处理机制与双上联设计的优势分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

因项目需要,最近在学习阿里云新一代万卡集群网络架构HPN 7.0

先说说从论文获取的信息,三层RoCE组网按1:1收敛比设计,整体组网拓扑如下图,每个Pod包含8Segment。

每个Segment包含16Leaf交换机,总共2048200Gbps下行端口,可连接128GPU服务器(2048200Gbps网口)。

因此,

每个Pod总共1024GPU服务器(8192张GPU卡)。

 

每台Leaf 交换机64400Gbps上行端口和128200Gbps下行端口,每个200Gbps下行端口对应GPU服务器的其中一个200Gbps网口每台GPU服务器有16200Gbps网口上行需要对应16Leaf交换机200Gbps端口


每台GPU服务器采用8200Gbps网卡,一共16200Gbps端口,采用双上联的方式,实现一个GPU对应两个上行链路,并且两个上行链路连接到不同的交换机也就是每个Group内的128GPU服务器,所有的1NIC端口连接到Leaf交换机1号端口16NIC端口连接到Leaf交换机16号端口。


这种双上联设计,每个SegmentGPU数量及通信带宽翻番,

Segment内部GPU之间通信,只需要经过一个Leaf交换机,最多可以支持1024 GPU互联,总通信带宽可以达409.6Tbps

此外,双上联设计

可以缓解网卡、交换机、光模块、光纤等导致的故障,例如,某一个上行链路故障或对应交换机故障时,流量可以切换到另一个端口提供服务而不至于训练任务中断当然,可能会影响训练速度)。出现故障的情况下,流量绕行路径如下图所示。



以上是Core交换机与Spine交换机按1:1收敛比设计。对于我近期接触的一个Case,按1:15收敛比设计,可能是阿里基于自身流量的长期观测和建模。网络拓扑图如下所示(只画了3个Unit)。


整个集群分为15个Unit,每个Unit一般128-136GPU服务器。按双平面设计Plan APlan B),每台GPU服务器16200Gbps端口中,其中8个上联到Plan A,另外8个上联到Plan B。因此,整个集群最大可以支持2040GPU服务器,1.6万张GPU卡。


每个Unit16Leaf交换机(Plan APlan B8台),15个Unit满配240台。每台Leaf交换机的上、下行分别为6068400Gbps端口,其中下行的68400Gbps端口可12200Gbps,即每台Leaf交换机136个下行200Gbps端口


满配情况下,Plan APlan B各配60Spine交换机。每台Spine交换机的上、下行分别为8120400Gbps端口,Spine交换机下行的每个400Gbps端口对应1Leaf交换机的上行400Gbps端口。


整个集群配置8Core交换机,每台Core交换机的上、下行分别为8120400Gbps端口,下行的每个400Gbps端口对应1Spine交换机。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询