我要投稿

简单说说算力网络：阿里云万卡集群组网实战

发布日期：2025-04-03 14:06:18 浏览次数： 1606 作者：连通梦想

因项目需要，最近在学习阿里云新一代万卡集群网络架构HPN 7.0。

先说说从论文获取的信息，三层RoCE组网按1:1收敛比设计，整体组网拓扑如下图，每个Pod包含8个Segment。

每个Segment包含16台Leaf交换机，总共2048个200Gbps下行端口，可连接128台GPU服务器（2048个200Gbps网口）。

因此，

每个Pod总共1024台GPU服务器（8192张GPU卡）。

每台Leaf 交换机有64个400Gbps上行端口和128个200Gbps下行端口，每个200Gbps下行端口对应GPU服务器的其中一个200Gbps网口。每台GPU服务器有16个200Gbps网口，上行需要对应16台Leaf交换机200Gbps端口。

每台GPU服务器采用8块双200Gbps网卡，一共16个200Gbps端口，采用双上联的方式，实现一个GPU对应两个上行链路，并且两个上行链路连接到不同的交换机，也就是每个Group内的128台GPU服务器，所有的1号NIC端口连接到Leaf交换机1号端口，16号NIC端口连接到Leaf交换机16号端口。

这种双上联设计，每个Segment的GPU数量及通信带宽翻番，

Segment内部GPU之间通信，只需要经过一个Leaf交换机，最多可以支持1024 张GPU卡互联，总通信带宽可以达到409.6Tbps。

此外，双上联设计还

可以缓解网卡、交换机、光模块、光纤等导致的故障，例如，某一个上行链路故障或对应交换机故障时，流量可以切换到另一个端口提供服务而不至于训练任务中断（当然，可能会影响训练速度）。出现故障的情况下，流量绕行路径如下图所示。

以上是Core交换机与Spine交换机按1:1收敛比设计。对于我近期接触的一个Case，按1:15收敛比设计，可能是阿里基于自身流量的长期观测和建模。网络拓扑图如下所示（只画了3个Unit）。

整个集群分为15个Unit，每个Unit一般128-136台GPU服务器。按双平面设计（Plan A和Plan B），每台GPU服务器16个200Gbps端口中，其中8个上联到Plan A，另外8个上联到Plan B。因此，整个集群最大可以支持2040台GPU服务器，1.6万张GPU卡。

每个Unit配16台Leaf交换机（Plan A、Plan B各8台），15个Unit满配240台。每台Leaf交换机的上、下行分别为60、68个400Gbps端口，其中下行的68个400Gbps端口可1分2为200Gbps，即每台Leaf交换机136个下行200Gbps端口。

满配情况下，Plan A和Plan B各配60台Spine交换机。每台Spine交换机的上、下行分别为8、120个400Gbps端口，Spine交换机下行的每个400Gbps端口对应1台Leaf交换机的上行400Gbps端口。

整个集群配置8台Core交换机，每台Core交换机的上、下行分别为8、120个400Gbps端口，下行的每个400Gbps端口对应1台Spine交换机。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-24

方案 | 基于本地大模型开发CAD智能助手

2025-04-24

Fellou AI浏览器体验报告，它是未来AI应用的雏形

2025-04-23

DeepSeek 32B随便跑,万元超值组装AI大模型电脑主机

2025-04-23

扣子空间：当「AI实习生」开始主动对齐，人机协作的「共生进化」和「双向奔赴」

2025-04-21

微软Playwright MCP 服务器为LLM提供浏览器自动化能力

2025-04-21

爆火的扣子空间里，藏着什么秘密？

2025-04-20

Dia之后，Fellou是我非常推荐的又一AI浏览器

2025-04-20

实测扣子刚刚上线的新版扣子空间。自动化解放人类越来越近了。

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

大模型训练及推理【硬件选型指南】及 GPU 通识

2024-05-09

华为昇腾910B与英伟达B200性能对比

2024-07-23

【不看后悔】一文梳理端侧模型和小模型

2024-07-07

一文带你看懂英伟达A100、H100、A800、H800、H20系列

2025-02-12

NVIDIA消费级显卡4060/4090 AI训练能效比较

2024-07-01

对比A100和4090：两者的区别以及适用点

2024-06-24

私有化部署大模型非常重要环节：国产显卡和英伟达显卡到底该如何选择？

2024-06-23

手把手教你免费把AI大模型接入小米音箱，无需任何代码基础，小白级基础详细操作教程！

2024-10-20

小爱音箱大变身：接入 ChatGPT 和豆包，轻松打造专属 AI 语音助手！

2024-06-08

大家都在问

爆火的扣子空间里，藏着什么秘密？

2025-04-21

AI与自动化实战：n8n、Dify、Coze哪个更适合我们？

2025-04-13

经验分享：从买DeepSeek一体机到落地应用场景，有多远的距离？

2025-04-11

理想车载大模型为什么不直接用deepseek？

2025-04-03

JetBrains Junie 内测体验，能否挑战 Cursor？

2025-03-30

Tavily MCP Server深度解析：如何用Cline打造智能搜索神器？

2025-03-28

Claude Desktop- AI大模型+MCP Server结合，能够带给你哪些无限可能？

2025-03-26

罗永浩的AI新战场，能否打破“行业冥灯”魔咒？

2025-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部