微信扫码
添加专属顾问
我要投稿
探索阿里云万卡集群网络架构的高效设计与实战应用。 核心内容: 1. 万卡集群网络架构HPN 7.0的三层RoCE组网设计 2. 万卡集群网络的拓扑结构和端口配置详解 3. 故障处理机制与双上联设计的优势分析
因项目需要,最近在学习阿里云新一代万卡集群网络架构HPN 7.0。
先说说从论文获取的信息,三层RoCE组网按1:1收敛比设计,整体组网拓扑如下图,每个Pod包含8个Segment。
每个Segment包含16台Leaf交换机,总共2048个200Gbps下行端口,可连接128台GPU服务器(2048个200Gbps网口)。
因此,
每个Pod总共1024台GPU服务器(8192张GPU卡)。
每台Leaf 交换机有64个400Gbps上行端口和128个200Gbps下行端口,每个200Gbps下行端口对应GPU服务器的其中一个200Gbps网口。每台GPU服务器有16个200Gbps网口,上行需要对应16台Leaf交换机200Gbps端口。
每台GPU服务器采用8块双200Gbps网卡,一共16个200Gbps端口,采用双上联的方式,实现一个GPU对应两个上行链路,并且两个上行链路连接到不同的交换机,也就是每个Group内的128台GPU服务器,所有的1号NIC端口连接到Leaf交换机1号端口,16号NIC端口连接到Leaf交换机16号端口。
这种双上联设计,每个Segment的GPU数量及通信带宽翻番,
Segment内部GPU之间通信,只需要经过一个Leaf交换机,最多可以支持1024 张GPU卡互联,总通信带宽可以达到409.6Tbps。
此外,双上联设计还
可以缓解网卡、交换机、光模块、光纤等导致的故障,例如,某一个上行链路故障或对应交换机故障时,流量可以切换到另一个端口提供服务而不至于训练任务中断(当然,可能会影响训练速度)。出现故障的情况下,流量绕行路径如下图所示。
以上是Core交换机与Spine交换机按1:1收敛比设计。对于我近期接触的一个Case,按1:15收敛比设计,可能是阿里基于自身流量的长期观测和建模。网络拓扑图如下所示(只画了3个Unit)。
整个集群分为15个Unit,每个Unit一般128-136台GPU服务器。按双平面设计(Plan A和Plan B),每台GPU服务器16个200Gbps端口中,其中8个上联到Plan A,另外8个上联到Plan B。因此,整个集群最大可以支持2040台GPU服务器,1.6万张GPU卡。
每个Unit配16台Leaf交换机(Plan A、Plan B各8台),15个Unit满配240台。每台Leaf交换机的上、下行分别为60、68个400Gbps端口,其中下行的68个400Gbps端口可1分2为200Gbps,即每台Leaf交换机136个下行200Gbps端口。
满配情况下,Plan A和Plan B各配60台Spine交换机。每台Spine交换机的上、下行分别为8、120个400Gbps端口,Spine交换机下行的每个400Gbps端口对应1台Leaf交换机的上行400Gbps端口。
整个集群配置8台Core交换机,每台Core交换机的上、下行分别为8、120个400Gbps端口,下行的每个400Gbps端口对应1台Spine交换机。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-04
AI大会见闻:当“魔改”显卡开始摆上台面
2025-04-03
“AI眼镜的终极功能,是AI+社交” | 对话影目科技创始人
2025-04-03
最牛的 AI 应用开发者,都在做 AI 浏览器
2025-04-03
理想车载大模型为什么不直接用deepseek?
2025-04-02
Manus升级了!让我们看看Manus最近都增加了哪些新功能!
2025-04-02
ChatBox:一个功能强大的AI模型Chat客户端,支持DeepSeek等多个模型
2025-04-02
爆火的DeepSeek一体机,更多满足的是情绪价值|甲子光年
2025-04-01
DeepSeek在运维领域的落地场景探索
2024-03-30
2024-05-09
2024-07-07
2024-07-23
2024-07-01
2024-06-23
2024-06-24
2025-02-12
2024-10-20
2024-06-08
2025-04-03
2025-03-30
2025-03-28
2025-03-26
2025-03-13
2025-03-12
2025-03-10
2025-03-10