微信扫码
添加专属顾问
我要投稿
Elon Musk 旗下 xAI 团队成功构建全球最大 AI 超级集群 Colossus,展示惊人技术实力。 核心内容: 1. Elon Musk 宣布 xAI 团队在短短 122 天内建成 10 万张 H100 的 Colossus 集群 2. Colossus 集群将扩展至 15 万张 H100 和 5 万张 H200,支撑 Grok 3 模型训练 3. xAI 依赖 OCI 训练 Grok 模型,从 16,000 个 Nvidia GPU 扩展至 10 万张 H100
2024 年 9 月 3 日,Elon Musk 在 X 上高调地宣布[1],其 xAI 的团队在 122 天时间内,就建成了10万张 H100的 Colossus 集群,并且未来还会扩展到15万张 H100和5万张 H200,向普罗大众们再次展示了其强大的执行力?。
近日,ServeTheHome 发布了一段参观 Colossus 超级集群的视频[2],本文将基于该视频,尝试去介绍 Colossus 超级集群的一些细节。在阅读本文之前,可以先观看视频,初步感受下 Colossus 的震撼。
Credit: 视频编译 by 7 号智算 AI for Seven
xAI 一直依赖于 OCI —— Oracle Cloud Infrastructure 来训练其 Grok 模型,使用了约 16,000 个 Nvidia GPU。随着 Grok 2 的发布[3],xAI 逐步赶上 GPT-4 水平,并计划训练 Grok 3。
随着模型的进一步 Scale,马斯克认为其大约需要 10 万张 H100 才能训练其 Grok 3 模型,他预计 Grok 3 将会达到 GPT-5 水平甚至超越 GPT-5[4]。
Let me give you one example of that, what Safra is describing, is we got enough Nvidia GPUs for Elon Musk's company, xAI, to bring up the first version -- the first available version of their large language model called Grok. They got that up and running. But boy did they want a lot more, boy did they want a lot more GPUs than we gave them. We gave them quite a few, but they wanted more, and we're in the process of getting them more.[5]
So, the demand, we got that up pretty quickly. I -- they were able to use it, but they want dramatically more as there's this gold rush toward building the world's greatest large language model. And we are doing our best to keep -- give our customers what we can this quarter and then dramatically increase our ability to give them more and more capacity each succeeding quarter.[5:1]
Oracle 最终还是没能满足 Elon Musk 的需求(是的,想要满足 Musk 的需求往往都不太容易?),丢掉了 xAI 的超级大单。Elon Musk 转向自建 GPU 计算集群,然后便有了 Colossus。
马斯克将其超算集群命名为 Colossus,既是致敬二战期间研发的世界上第一台可编程计算机[6]。
也是致敬 1970 年的一部经典科幻电影[7]。
当前,Colossus 的第一阶段建设已完成,集群全面上线。从设计集群到 LLM 第一次在 Colossus 训练总共用时122天,其中仅用 19天组装10万块 H100,对这种规模的集群这个时间一般得数年[8]。马斯克透露称,Colossus 将很快迎来升级,GPU 容量将翻倍,新增 15 万块 H100 GPU 和 5万块下一代 H200 GPU[9]。
Colossus 超级计算集群基于以太网,而不是 InfiniBand。从我们使用 InfiniBand 的经验来看,这真的是一个正确的选择 :)
While training the extremely large Grok model, Colossus achieves unprecedented network performance. Across all three tiers of the network fabric, the system has experienced zero application latency degradation or packet loss due to flow collisions. It has maintained 95% data throughput enabled by Spectrum-X congestion control.
This level of performance cannot be achieved at scale with standard Ethernet, which creates thousands of flow collisions while delivering only 60% data throughput.
Colossus 的每台服务器上基于 NVIDIA BlueField-3 SuperNIC DPU[7:1],提供 400Gbps 的网络连接。交换机采用 Spectrum SN5600 以太网交换机[10], 它支持 64 端口高达 800Gb/s 的端口速度,并基于 Spectrum-4 交换机 ASIC[8:1]。
xAI chose to pair the Spectrum-X SN5600 switch with NVIDIA BlueField-3® SuperNICs for unprecedented performance.[8:2]
关于 BlueFiled-3 DPU 可以进一步参考[11]:
Colossus 的基本构建模块是 Supermicro 液冷机架。它由 8 台 4U 服务器组成,每台服务器配备 8 个 NVIDIA H100,每台机架总共有 64 个 GPU。8 台这样的 GPU 服务器加上一台 Supermicro 冷却液分配单元 (CDU)和相关硬件构成了一个 GPU 计算机架。
再以8个计算机架为一组排列,共512个 GPU,再加上网络形成更大系统中的小型集群,所以整个 Colossus 集群有近200个机架阵列。
每个服务器都通过独立的液冷管路连接到机架上的歧管,方便维护和更换。机架底部是 Supermicro CDU(冷却分配单元),配备管理单元和冗余泵,可监控流量、温度等关键参数,并连接到中央管理界面进行远程监控。4U 的空间内集成了如此强大的计算能力,同时兼顾了可维护性,这是其他厂商难以比拟的。
在机器学习训练中,除了 GPU 还经常需要 CPU,比如进行数据准备等。Colossus 也配备了 CPU 计算节点,每个机架包含 42 台 1U 超微服务器。
为了支持大规模 CPU 和 GPU 访问大量的训练数据,Colossus 有一个专门的存储集群,提供远端访问存储。
xAI 发现,当所有的这 10 万张 H100 开始训练时,电力会出现毫秒级的微小波动,这种情况会导致电力基础设施出现各种问题。为了解决这些问题,AI 从发电机等设备输入电力到电池,然后再由电池放电为训练任务供电。
Colossus 超级计算集群的建成反映了当前科技巨头针对 AI 超算数据中心建设的激烈竞争。除了需要向 NVIDIA 争取更多的 GPU 订单,科技巨头们还需要应对能源的短缺。
Colossus 之所以选址在田纳西州孟菲斯,正是看中了孟菲斯土地辽阔,并且能够提供足够的电力。以 Colossus 为例,为了支持 10 万 H100,xAI 至少需要 200 兆瓦电力的需求。为了满足这些电力的需求,水资源的需求,超算中心也需要面对物理世界中各种实际的问题[12]。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-25
微信聊天框内置元宝,超级 App 又一轮进化开始
2025-03-25
万字长文,聊聊下一代AI Agent的新范式
2025-03-25
从FP8到安全张量,DeepSeek‑V3‑0324 重塑大模型生态的秘密武器
2025-03-25
体验实在Agent,这才是当前形成生产力的企业级通用智能体
2025-03-25
Tokens与大语言模型:你真的懂它们的关系吗?
2025-03-25
法律助手:LexisNexis助力法律AI
2025-03-25
Cherry Studio 入门 MCP:为你的大模型插上翅膀
2025-03-25
【AIOps】Prometheus/夜莺接入DeepSeek大模型
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-25
2025-03-23
2025-03-22
2025-03-22
2025-03-22
2025-03-22
2025-03-22
2025-03-21