AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


多数据中心训练:OpenAI 击败谷歌 Infra 的大计(两万字精校)
发布日期:2024-09-10 03:18:28 浏览次数: 2039 来源:特工宇宙



最近,国外的一份研究报告揭秘了 OpenAI、围绕和谷歌在 AI Infra 层的布局,我们将文章提炼出了核心观点,并进行精校翻译。

核心观点

1. AI模型越来越大,让基础设施需求激增,前沿AI模型训练集群已达万卡级,并且需求持续增长,同时大规模训练从单一数据中心逐渐转向多数据中心;

2. 高密度液冷 AI 芯片越发受到关注,Google 早年开始的持续布局已然于基础设施方面远超竞争对手;

3. 相比于模型架构等技术,各家厂商私有的容错训练技术成为更重要的更封闭的技术;

4. 大模型训练机制将逐渐由同步训练转向异步训练;

5. 格局方面,Google 在基础设施上有着巨大优势,但微软和OpenAI联合供应链合作商们,正多方面极速追赶;

6. 2025 年,电信行业将迎来显著增长,并且产生的实际影响或将震惊所有人。未来将有超过 100 亿美元的电信资本支出专门用于多数据中心训练,在新增量驱动因素将伴随着市场的周期性回升。

以下是文章精校翻译,预计阅读时长 30 分钟。

由于 Scaling Law 的持续推进,AI 基础设施建设的需求也不断增加。最领先的 AI 模型训练集群今年已扩展到 10 万个 GPU ,并计划到 2025 年将超过 30 万个 GPU 集群。考虑到时间成本、政策法规和可用电力资源等物理限制,传统的同时训练单个数据中心站点的大模型方法,已达到临界点。

Google、OpenAI 和 Anthropic 已经在执行一个计划,即将其大模型训练从一个站点扩展到多个数据中心(Multi-Datacenter)谷歌拥有当今世界上最先进的计算系统,并率先大规模使用了许多关键技术,这些技术直到现在才被其他公司采用,例如机架级液冷架构(rack-scale liquid cooled architectures)和多数据中心训练(multi-datacenter training)。

Gemini 1 Ultra 在多个数据中心上进行了训练。尽管他们拥有更多的 FLOPS(意指每秒浮点运算次数,理解为计算速度,是一个衡量硬件性能的指标),但他们现有的模型仍落后于 OpenAI 和 Anthropic,因为他们在合成数据、强化学习和模型架构方面仍在追赶,但即将发布的 Gemini 2 会改变这一现状。

此外,到 2025 年,谷歌将有能力在多个计算中心园区,进行千兆瓦级的训练。但令人惊讶的是,谷歌的长期计划并不像 OpenAI 和微软那么积极。

来源:Google

大多数公司才刚刚开始引入高密度液冷 AI 芯片,这些芯片采用 Nvidia 的 GB200 架构,预计明年将会达到数百万的出货量。而 Google 早已部署了数百万的液冷 TPU,液冷 AI 芯片的总容量超过 1 吉瓦(GW)。如此来看,基础设施方面,Google 与其竞争对手之间的差异性优势显而易见

来源:https://www.semianalysis.com/p/datacenter-model

上图展示的 AI 训练园区,目前的电力容量接近 300 兆瓦(MW),预计明年将提升至 500 兆瓦。除了规模庞大,这些设施的还非常节能。我们在下图可以看到,由水管连接的巨大的冷却塔和中央供水系统,能够散发近 200 兆瓦的热量。

借助这一系统,Google 在大部分时间无需使用传统冷却器,根据最新的环境报告,该系统允许 Google 全年大部分时间无需使用冷却器即可运行,从而在 2023 年实现 1.1 PUE(能源使用效率,PUE 值越低,表明数据中心的能效越高)

Source: Google

虽然上图只展示了设施的供水系统,但水也通过 Direct-to-Chip 系统输送到机架,液-液热交换器再将机架产生的热量传递到中央设施供水系统。这个极节能的系统与我们之前在 GB200 深度分析中提到的 Nvidia GB200 的 L2L 部署非常相似。

GB200 Hardware Architecture - Component Supply Chain & BOM:https://www.semianalysis.com/p/gb200-hardware-architecture-and-component

另一方面,Microsoft 目前最大的训练集群(如下图所示)并不支持液冷系统,尽管建筑的总建筑面积大致相同,但每栋建筑所能支持的计算资源却低了约 35%。公开数据显示其 PUE 为 1.223,但实际 PUE 计算因为不计入服务器内部风扇消耗,故对风冷系统更有利(以 H100 服务器为例,风冷系统中的风扇能耗占服务器总功率的 15% 以上,而液冷系统中仅占不到 5%)。

因此,对于提供到芯片的每瓦功率,Microsoft 需要额外增加大约 45% 的电力来供给服务器风扇、冷却设施以及其他非计算资源负载,而 Google 只需要额外增加约 15%,若是再加上 TPU 的更高效率,这两者对比的情况就会更加模糊复杂。

Source: SemiAnalysis Datacenter Model

此外,为了在沙漠地区(如亚利桑那州)实现合理的能源效率利用,Microsoft 需要大量用水,其水利用率(WUE,数值越小,代表数据中心利用水资源的效率越高)达到了 2.24 升/千瓦时,远高于行业平均的 0.49,Google 的平均值也仅略高于 1。

这种高水耗被许多媒体关注到,因此他们被要求在即将建设的数据中心中改用风冷式冷水机,这将减少每栋建筑的用水量,但会进一步增加 PUE,从而扩大与 Google 在能源效率上的差距。在后续的报告中,我们将更详细地探讨数据中心的运作方式以及典型的超大规模设计方案。

因此,基于现有的数据中心参考设计,Google 拥有更高效的基础设施,并且能够更快地建设兆瓦级数据中心,因为每栋建筑的容量超过 50%,且每单位 IT 负载所需的公共电力更少。

谷歌 AI 训练基础设施

Google 在建设基础设施方面一直有着独特的方式,虽然他们的单个数据中心设计已经领先于 Microsoft、Amazon 和 Meta,但这还不足以全面展现他们在基础设施方面的优势。

Google 在过去十多年中不断建设大规模的园区,一个很好的例子就是位于爱荷华州 Council Bluffs 的 Google 站点,尽管已经有多年历史,但其西部区域的 IT 容量仍接近 300 MW。

虽然其中相当一部分容量用于传统工作负载,但我们相信底部的建筑容纳了大量的 TPU。而东部的扩展区域采用了最新的数据中心设计,将进一步提升 AI 训练的能力。

Source: SemiAnalysis Datacenter Model

Google 最大的 AI 数据中心彼此之间也非常近。Google 有两个主要的多数据中心区域,分别位于俄亥俄州和爱荷华州/内布拉斯加州。如今,围绕 Council Bluffs 的区域正在积极扩建,容量将超过现有的两倍。

除了上面提到的园区外,Google 在该地区还拥有另外三个正在建设中的站点,并且这些站点都在升级高带宽光纤网络。

Source: SemiAnalysis Datacenter Model

在这片区域内,有三个站点相距约 15 英里,分别是 Council Bluffs、Omaha 和 Papillon Iowa,另一个站点位于 50 英里外的 Lincoln Nebraska

下图展示的 Papillion 园区将为 Google 在 Omaha 和 Council Bluffs 周边的业务增加超过 250 兆瓦的容量,与前面的站点合计,在 2023 年总容量超过 500 兆瓦,其中大部分被分配给 TPU。

Source: SemiAnalysis Datacenter Model

另外两个站点虽然规模尚不如其他站点大,但正在快速扩建,四个园区合并后,预计到 2026 年将形成一个千兆瓦级的 AI 训练集群。距离约 50 英里的 Lincoln 数据中心将成为 Google 最大的单个站点。

而 Google 庞大的 TPU 部署还远不止于此,另一个即将建成的千兆瓦级集群位于俄亥俄州哥伦布附近,该地区采用类似的模式,三个园区正在开发中,预计到 2025 年底总容量将达到 1 吉瓦!

Source: SemiAnalysis Datacenter Model

下图展示的 New Albany 集群将成为 Google 最大的集群之一,目前已经部署了 TPU v4、v5 和 v6。

Source: SemiAnalysis Datacenter Model

Google 在俄亥俄州和爱荷华州/内布拉斯加州的集中数据中心区域还可以进一步互联,为单个模型训练提供多吉瓦的算力支持。

我们在数据中心模型中详细记录了超过 5,000 个数据中心的季度历史和预测电力数据,涵盖了 AI 实验室、超大规模计算(hyperscalers)、新型云服务(neoclouds)以及企业的集群建设情况。关于多数据中心训练的软件栈和方法将在本文后续部分进行详细讨论。

Microsoft 和 OpenAI 的反击?

Microsoft 和 OpenAI 很清楚地意识到他们在短期内的基础设施劣势,因此他们已经启动了一项极具野心的基础设施建设计划,旨在超越 Google,试图在液冷的多数据中心训练集群方面击败 Google。

Microsoft 和 OpenAI 正在建设超高密度的液冷数据中心园区,规模接近千兆瓦级,并且与 Oracle、Crusoe、CoreWeave、QTS、Compass 等公司合作,帮助他们实现比 Google 更大的 AI 训练和推理总容量。

其中一些园区一旦建成,其规模将超过 Google 任何一个园区实际上,Microsoft 在威斯康星州的园区将比 Google 所有在俄亥俄州的园区加起来还要大,不过这项建设需要一些时间。

更有野心的是,OpenAI 和 Microsoft 计划将各个超大型园区互联,进行全国(美国)范围内的大规模分布式训练。Microsoft 和 OpenAI 将率先构建一个多吉瓦的计算系统,并与他们的供应链合作伙伴一起,推动有史以来最雄心的基础设施建设。

本文将在最后详细介绍 Microsoft 和 OpenAI 的基础设施建设计划。在此之前,我们将首先介绍多数据中心的同步和异步训练方法、滞后节点、容错机制、数据静默损坏以及与多数据中心训练相关的各种挑战。

再之后,我们将解释数据中心之间的互联,以及通过光纤通信网络实现的城域之间长距离连接的技术和设备。

最后,我们将探索电信供应链并讨论下一阶段人工智能基础设施建设的主要受益者,包括我们认为哪些公司在这方面的杠杆率最高。

多数据中心分布式训练

在深入探讨 Microsoft 和 OpenAI 的基础设施建设之前,先来了解一下分布式训练的基本概念。大语言模型(LLM)主要是同步训练的。

训练数据通常被分成多个较小的 mini-batch,每个 mini-batch 由运行在不同 GPU 集群上的模型副本分别处理。在处理完一个 mini-batch 后,每个副本会计算梯度,然后所有副本必须在每个 mini-batch 处理结束时同步。

这种同步过程通常涉及将所有副本的梯度聚合在一起,通过像 all-reduce 这样的集体通信操作完成。一旦梯度被聚合,它们将被平均,而后用于统一更新模型的参数,从而使得所有数据副本保持一致的参数,模型能够稳定地收敛。这种步调一致的过程要求所有设备在进入下一步之前彼此等待,确保没有任何设备在模型状态上过于超前或落后。

Source: Preferred Networks

虽然同步梯度下降能够提供稳定的收敛,但它也带来了显著挑战,尤其是在单个训练任务中使用超过 10 万个芯片时,通信方面的开销将大幅增加。同步训练的性质还意味着对延迟有严格的要求,必须有足够大的带宽来连接所有芯片,因为数据交换通常是突发式的。

当你尝试使用多个区域的 GPU 来执行相同的训练任务时,他们之间的延迟也会增加。即使是在光纤中以光速(208,188 公里/秒)传输,从美国东海岸到西海岸的往返时间(RTT)也需要 43.2 毫秒。此外,各种电信设备也会增加额外的延迟。对于标准的同步训练来说,这样的延迟是很大的。

根据 Amdahl’s Law,当存在大量同步活动时,向工作负载中添加更多芯片所带来的加速效益会逐渐减少。

随着芯片数量的增加,程序运行时间中需要同步的部分(即那些无法并行化的计算)保持不变,因此会达到一个理论极限,即使将 GPU 数量翻倍,整体吞吐量的提升也不会超过 1%。

Source: Wikipedia

除了 Amdahl’s Law 中描述的将更多 GPU 添加到单个任务中的理论限制外,使用同步梯度下降还面临实际挑战,如滞后问题。当仅一个芯片的速度慢了 10% 时,就会导致整个训练任务的速度降低 10%。

例如,在下图中,从第 7,500 步到第 19,000 步,字节跳动观察到他们的 MFU(机器利用率)逐渐下降,因为工作负载中的多个芯片一个接一个地变慢,导致整个工作负载受滞后芯片影响而变得效率低下。

Source: ByteDance

在识别并移除滞后的芯片后,他们从检查点重新启动了训练任务,使 MFU(机器利用率)恢复到正常水平。如图所示,MFU 从 40% 降到了 30%,下降了 25%。

当你拥有 100 万个 GPU 时,25% 的 MFU 下降相当于有 25 万个 GPU 处于闲置状态,而单单这部分 GPU 的 IT 资本支出就相当于超过 100 亿美元。

容错训练

容错训练(Fault Tolerant training)是所有分布式系统中的重要组成部分。


当数百万计的计算、内存和存储单元同时工作时,几乎必然会出现故障,甚至在所谓“相同”系统之间也可能因硅片差异(silicon lottery)而导致性能不同。

系统设计的初衷就是为了解决这些问题。然而,令人意外的是,在全球最大的计算难题——机器学习训练中,所采用的却是完全相反的策略。

所有芯片都必须完美运行,因为即便在 10 万个 GPU 中仅有一个 GPU 出现故障,这个 GPU 也会导致所有 10 万个 GPU 需要从检查点重新开始,从而造成大量 GPU 资源浪费。

而在容错训练中,当单个 GPU 出现故障时,仅少数几个 GPU 会受到影响,绝大多数 GPU 可以正常运行,无需从模型权重检查点重新启动。像 LLAMA 3.1 这样的开源模型已经因为缺乏合理容错训练机制,消耗了大量成本和时间

Nvidia 的 InfiniBand 网络也存在同样潜在的缺陷,其要求每个数据包必须按完全相同的顺序传递。任何顺序上的偏差或失败都会导致数据重传。如同在 10 万 GPU 集群报告中提到的那样,单纯的网络故障就可能需要花费数小时时间。

参考资料:https://www.semianalysis.com/p/nvidias-infiniband-problem-qmx-ai


实现容错训练的主要开源库叫做 TorchX(之前称为 TorchElastic),但它有明显的缺点,无法覆盖所有的长尾故障情况,也不支持 3D 并行性。这导致几乎每个大型 AI 实验室都在开发自己的容错训练系统。

正如预期的那样,Google 作为容错基础设施的领军者,通过 Borg 和 Pathways 实现了最好的容错训练。

这些库涵盖了最多的边缘情况,并且是高度垂直整合的一部分:Google 自己设计训练芯片,制造自己的服务器,编写自己的基础设施代码,并进行模型训练。

这类似于制造汽车,垂直整合越高,越能快速处理并解决根本性的问题。几年前推出的 Google Pathways 系统就是其技术实力的证明,我们将在后续进一步讨论。

总体而言,在超过 10 万个 GPU 的集群扩展到单一任务时,容错是必须解决的最重要问题之一。在 AI 系统的可靠性上,Nvidia 远远落后于 Google,这也是为什么负责容错性的职业在 Nvidia 的招聘信息中屡次被提及的原因…

Source: Nvidia Workday

在 CPU 领域的容错基础设施问题基本上已经解决。比如,Google 的内部数据库 Spanner 支撑着 Google 的所有生产服务,包括 YouTube、Gmail 和 Stadia(RIP)等,并且能够在全球范围内进行分布式扩展,同时对存储服务器和 NVMe 磁盘故障具有容错能力。

在 Google 数据中心,每小时有数百个 NVMe 磁盘发生故障,但对于终端用户和内部来说,Spanner 的性能和可用性保持不变。

另一个在大型集群中实现容错的传统 CPU 工作负载的例子是 MapReduce。MapReduce 是一种建模方式,用户可以通过处理数据样本进行 "Map",然后将多个数据样本 "Reduce" 成一个聚合值。

例如,统计一篇文章中有多少个字母 “W” 是一个很好的理论工作负载:映射每个单词,映射任务将输出每个数据样本中有多少个字母 “W”,然后归约任务将汇总所有样本中的字母 “W” 的总数。

MapReduce 通过检测哪些 CPU 工作节点出现故障来实现容错,并在另一个 CPU 工作节点上重新执行失败的映射和归约任务。

Source: Google

在 CPU 领域,大部分容错研究和系统开发是由 Jeff Dean、Sanjay Ghemawat 以及 Google 的许多世界级分布式系统专家完成的。尤其是在机器学习训练规模越来越大、对更好容错系统的需求不断增加的情况下,这些在创建强大、可靠系统方面的专业知识将成为 Google 的竞争优势之一。

通常,GPU 的故障呈现 U 型曲线,大多数故障发生在集群生命周期的初期和末期。这就是为什么集群的全面烧机测试极为重要。不幸的是,由于一些 AI Neoclouds 试图从集群生命周期中最大限度地榨取收益,故而往往没有为集群进行适当的烧机测试,导致最终用户体验极差。

相比之下,在超大规模公司和大型 AI 实验室,大多数集群都会在高温和急剧温度波动下进行长时间的烧机测试,以确保所有早期死亡故障都已过去,并进入随机故障阶段。充足的烧机时间必须与避免过度消耗 GPU 和收发器使用寿命之间取得平衡,特别是在它们已经通过早期问题之后。

磨损故障通常发生在组件使用寿命的末期,主要是由于长期使用导致的老化和损耗。通常在 24/7 的使用周期中,组件会在中高温之间快速波动,导致磨损加剧。尤其是收发器,由于剧烈的热循环,容易受到高强度的磨损。

Source: SemiAnalysis

在 CPU 领域,当托管虚拟机(VM)的物理主机出现较高错误率的迹象时,通常会将虚拟机迁移到另一台物理主机上。超大规模云计算公司甚至已经能够实现虚拟机的实时迁移,用户几乎无法察觉到迁移过程。这通常是通过在后台复制内存页面来完成的,当用户的应用程序短暂减速时,虚拟机会迅速切换到正常运行的第二台物理主机上。

Source: SemiAnalysis

有一个主流的 Linux 软件包叫做 CRIU(用户空间的检查点/恢复),它被用于主要的容器引擎,如 Docker、Podman 和 LXD。CRIU 允许在物理主机之间迁移容器和应用程序,甚至可以将整个进程状态冻结并保存到存储磁盘。长时间以来,CRIU 仅支持在 CPU 和 AMD GPU 上运行,因为 Nvidia 一直拒绝实现该功能,直到今年才有所改变。

从 2024 年开始,Nvidia GPU 也支持 CRIU 的检查点功能,这使得可以在不同物理主机之间更简化地迁移 CPU 进程状态、内存内容和 GPU 进程。

Source: SemiAnalysis

在 Microsoft 的 Singularity 集群管理器论文中,作者描述了他们如何使用 CRIU 来实现 GPU 虚拟机的透明迁移。Singularity 还从 0 开始设计能够支持 GPU 工作负载的全球调度和管理。该系统已经用于 Phi-3 训练(1024 个 H100 GPU)和其他许多模型。这表明 Microsoft 试图赶超 Google 的垂直整合 Borg 集群管理器。

Source: Microsoft

不幸的是,由于容错训练的重要性,这方面方法的发布实际上已经停止。当 OpenAI 等公司向硬件行业谈及这些问题时,他们的描述都非常模糊和概括,以避免透露任何分布式系统的技术细节。

而需要明确的是,这些技术比模型架构更加重要,因为它们都可以被视为计算效率的一部分。

Source: OpenAI

另一个常见的问题是静默数据损坏(Silent Data Corruption,SDC),它会导致计算机在处理结果时无意中产生静默错误,而不会向用户或管理员发出任何警告。由于“静默”意味着错误是不可察觉的,这个问题非常难以解决。

这些静默错误在很多情况下可能是微不足道的,但它们也可能导致输出被扭曲为 NaN(“非数字”)或输出梯度极大。正如下面 Google 的 Jeff Dean 所展示的梯度范数图所示,有些 SDC 可以通过在图表上看到梯度范数的峰值来轻松识别,但其他 SDC 通过这种方法无法检测到。

此外,还有一些梯度范数的峰值并非由硬件 SDC 引起,而是由于数据批量过大或超参数(如学习率和初始化方案)未正确调整所致。所有运行 GPU 集群的公司都会遇到 SDC 问题,但通常是资源有限的小型和中型 Neoclouds 无法快速识别和修复这些问题。

Source: Google

对于 Nvidia GPU,有一个名为 DCGMI Diagnostics 的工具可以帮助诊断诸如 SDC 之类的 GPU 错误。它可以捕捉到相当一部分常见的 SDC,但遗憾的是,它漏了许多导致数值错误和性能问题的边缘情况。

我们在测试来自不同 Neocloud 的 H100 GPU 时发现,尽管 DCGMI 诊断工具的第 4 级通过了,但 NVSwitch 的算术逻辑单元(ALU)没有正常工作,导致在使用 NVLS NCCL 算法时出现性能问题以及错误的 All-reduce 结果。我们将在即将发布的 NCCL/RCCL 集体通信文章中深入探讨我们的基准测试结果。

相比之下,Google 的 Pathways 系统在识别和解决 SDC 问题方面表现出色。由于 Google 的基础设施和训练堆栈的垂直整合,他们能够在大规模训练任务开始之前,在前置和后置阶段检查轻松识别 SDC。

Source: Google

异步训练曾经是一种广泛使用的训练技术。2012 年,来自 Google Brain 的著名 100x 工程师 Jeff Dean 发表了一篇名为《Distbelief》的论文,在其中描述了用于在数千个 CPU 核心集群上训练深度学习模型的异步(“Async”)和同步(“Sync”)梯度下降技术。该系统引入了一个全局“参数服务器”,并被广泛用于生产环境中,训练 Google 的自动补全、搜索和广告模型。

Source: ResearchGate

这种参数服务器风格的训练在当时的模型上运行得非常好。然而,由于新模型架构的收敛性挑战,大家逐渐简化了训练过程,回归到全同步梯度下降。目前和之前的所有前沿级模型,如 GPT-4、Claude、Gemini 和 Grok,都在使用同步梯度下降。然而,要继续扩大训练过程中使用的 GPU 数量,我们认为现在正在逐步回归到异步梯度下降。

训练策略

根据 Amdahl 定律,解决添加更多芯片时收益递减的一种方法是减少程序之间所需的全局同步次数,并让更多的工作负载在整体时间上(半)独立地运行。这种方法非常适合多园区、多区域甚至跨大陆的训练,因为不同 GPU 之间的延迟和带宽存在层次结构。

在一个园区内的建筑物之间(距离小于 1 公里),延迟非常低,带宽非常高,因此可以更频繁地进行同步。相比之下,当你在同一区域内(小于 100 公里)时,虽然带宽仍然很大,但延迟会更高,因此同步的频率应相应减少。此外,在不同园区之间拥有不同数量的 GPU 是可以接受的,因为负载均衡相对容易实现。例如,如果 A 园区有 10 万个 GPU,而 B 园区只有 7.5 万个 GPU,那么 B 园区的批次大小可能约为 A 园区的 75%,在同步时可以对不同园区的结果进行加权平均。

Source: SemiAnalysis

这一原理同样适用于多个区域和跨大陆的情况,在这些情况下,延迟更高,因此同步的频率应该进一步减少。实际上,这构成了一个同步的层次结构。

打个比方,这就像你更常见到离你距离较近的朋友,而不太常见到同一海岸线上的其他城市的朋友,至于那些生活在其他大陆城市的朋友,见面的频率就更低了。

Source: PyTorch

此外,分层同步梯度下降(SGD)的另一个好处是,它能有助于缓解滞后问题,因为大多数滞后现象通常只会在几个步骤中出现,随后会恢复到正常性能。

因此,同步次数越少,滞后现象在其异常表现期间打断同步过程的机会就越少。由于不是每次迭代都进行全局同步,滞后现象的影响变得不那么显著。分层同步梯度下降是近期多数据中心训练中非常常见的创新。

Source: PyTorch

另一种有前景的方法是重新审视 Jeff Dean 在 2012 年《DistBelief》论文中讨论的异步参数服务器的使用。每个模型副本处理自己的一批 tokens,每隔几步,模型副本就会与参数服务器交换数据并更新全局权重。

这类似于 Git 版本控制,每个程序员在自己的任务上工作几天后再将其合并到主分支(现称为 main 分支)。这种方法的简单实现可能会引发收敛性问题,但 OpenAI 能够通过各种优化器的创新来解决本地模型副本与参数服务器之间交换数据时的更新问题。

Source: Research Gate

MetaAI 的《Branch-Train-Merge》论文提出了一个类似的想法,即从现有的大语言模型(主分支)分支出来,然后在数据集的子集上进行训练,最后将其合并回主分支。我们认为这一方法的经验将会被整合到诸如 OpenAI 这样的公司使用的多园区训练技术中。

对于 Branch-Train-Merge 和其他类似方法的主要挑战在于,对于像 GPT-3 175B 或 GPT-4 1.8T 这样的现代大型语言模型,合并问题尚未得到解决。需要投入更多的工程资源来管理合并过程并更新主分支,以确保模型的收敛性。

Source: Meta

为了将这种方法扩展到层级结构,我们还需要引入多层的参数服务器,其中数据在模型副本与最近的参数服务器之间,以及参数服务器之间进行交换。

在最低层级,单个模型副本与其最近的参数服务器通信,更频繁地进行更新,以确保在本地组内更快地收敛和同步。

这些本地参数服务器将被分组到更高的层级,每个层级在向上传播之前汇总并精炼来自下层的更新。由于涉及到大量的 GPU,参数服务器可能需要以 FP32 形式保存主权重。这类似于 Nvidia 推荐的 FP8 训练服务器,将主权重保存在 FP32 以避免多个 GPU 累积时发生溢出。

然而,在进行矩阵乘法之前,训练服务器会将数据向下转换为 FP8 以提高效率。我们认为,这种方案仍然适用,即参数服务器中的主权重为 FP32,但实际计算将在 FP8 或更低的精度(如 MX6)下进行。

Source: SemiAnalysis

为了实现多园区训练,Google 目前使用了一个强大的分片器,称为 MegaScaler,它能够在一个园区内的多个计算集群(pods)之间以及一个区域内的多个园区之间进行分区,使用 Pathways 进行同步训练。MegaScaler 为 Google 提供了在扩大用于单一训练任务的芯片数量时强大的稳定性和可靠性优势。

不过,随着行业逐渐回归异步训练,这可能成为他们的一个障碍。MegaScaler 建立在同步训练的原则之上,即每个数据副本与所有其他数据副本进行通信以交换数据。将异步训练添加到 MegaScaler 中可能会非常困难,可能需要大规模重构,甚至可能需要启动一个全新的项目。

虽然 Pathways 是以异步数据流为基础设计的,但实际上,所有当前生产环境中的 Pathways 用例都是完全同步的 SGD 式训练。不过,显然 Google 拥有重新构建这个软件栈的能力。

Source: Google, Jeff Dean

跨区域连接数据中心时有两个主要限制因素:带宽和延迟。

我们普遍认为,从长远来看,限制因素将是由于光速在光纤中的延迟,而不是带宽。这是因为在园区之间和区域之间铺设光纤电缆的成本主要是许可和挖沟的费用,而不是光纤电缆本身。

因此,在凤凰城和达拉斯之间铺设 1000 对光纤的成本只会比铺设 200 对光纤略高一些。话虽如此,但该行业是在一个监管框架和时间尺度下运作的,在这个框架和时间尺度下,光纤对无法立即铺设,因此减少带宽的策略仍然非常关键。

Source: SemiAnalysis

我们认为,在这个多园区、多区域的训练集群上训练的模型规模将达到 100TB 以上。在一个区域内的可用区 (AZ) 之间,我们认为在园区站点之间扩展到大约 5Pbit/s 是一个合理的假设,且在区域之间 1Pbit/s 的带宽是合理的。

如果跨数据中心的带宽真的如此之高,那么在园区站点之间交换权重不会成为训练的主要瓶颈,因为在满速下只需要 0.64 秒。

当交换 400TeraBytes( 4Bytes = param)的权重时,考虑到每进行几个计算步骤所需的时间,仅需 0.64 秒的时间是非常理想的。


Source: SemiAnalysis

虽然 Nvidia 提供了一种名为 MetroX 的 InfiniBand 结构网络交换机,支持 40 公里以内的连接,但没有任何 AI 实验室在使用它,只有一些非 AI 的 HPC 集群跨越 10 公里以内的多个园区在使用。

此外,MetroX 每个机箱只有 2x100Gbps 带宽,相比之下,小于40 公里范围内的以太网解决方案生态系统已经相当成熟。因此,即使是大量使用 InfiniBand 的微软,也在数据中心之间使用以太网连接。

从千兆位到太比特:调制和多路复用

目前,数据中心内部的网络(即数据通信,Datacom)通常专注于通过光纤链路为每个终端设备(例如每个 GPU)提供高达 400Gbps 的速度。随着 Nvidia 逐步过渡到 Connect-X8 网络接口卡(NICs),预计明年将全面转向 800Gbps 以满足 AI 的使用需求。

相比之下,电信网络将一个设施内多个设备和服务器的通信需求聚合到更少数量的光纤上,并以更高的速度传输。

虽然运行在 800 Gbps 的数据通信(Datacom)收发器通常每对光纤只能使用最高 100 Gbps(如 DR8),因此需要多个独立的光纤对,但电信应用已经能够在一对单模光纤上实现超过 20-40Tbps 的传输速率,尤其是在海底电缆以及许多陆地和城市区域的部署中。

更高的带宽是通过以下几种方式的结合实现的:

1. 更高阶的调制方案,在给定的波长上每个符号传输更多比特。

2. 密集波分复用 (DWDM),将多个光波长合并到一根光纤上。

在调制方面,数据通信通常使用基于 VCSEL 和 EML 的收发器,这些收发器能够进行 PAM4 调制,一种强度调制方案(即强度调制直接检测 – IMDD 光学),通过使用四个不同的电平进行信号传输,每个符号编码两位数据。

Source: ResearchGate

更高的速度可以通过增加符号发送的速率(以千兆波特或 Gbd 为单位)或增加每个符号的比特数来实现。例如,400G SR8 收发器可以以 26.6 Gbd 的速率发送符号,并使用 PAM4 实现每符号 2 比特,总共每对光纤达到 50 Gbps。将 8 对光纤组合成一个连接器,总速率可以达到 400 Gbps。要达到 800 Gbps,可以通过将符号速率提高到 53.1 Gbd,同时在 8 条通道上继续使用 PAM4。然而,符号速率加倍通常比使用更高阶的调制方案更具挑战性。

16-正交幅度调制(或 16-QAM)是一种广泛应用于 ZR/ZR+ 光学和电信应用中的调制方案。它不仅通过编码四种不同的信号波幅,还使用两组载波,每组载波都可以有四种不同的幅度,并且两者相位相差 90 度,总共可以产生 16 种不同的符号,每个符号传输 4 比特数据。该方案进一步通过实现双极化扩展,利用另一组载波,一组载波在水平极化状态,另一组载波在垂直极化状态,总共可以产生 256 种符号,实现 8 比特数据。大多数 400ZR/ZR+ 和 800ZR/ZR+ 收发器仅支持 DP-16QAM,但在质量良好的光纤上运行的专用电信系统(具有更大体积)可以支持最高 DP-64QAM,从而每个符号实现 12 比特数据的传输。

16 different possible waveforms in 16-QAM. Source: EverythingRF

要实现使用不同相位的调制方案,必须使用相干光学。当光源发出的光波彼此之间都处于相同的相位时,光被认为是相干的。这在实现基于相位的调制方案时非常重要,因为不一致的(非相干的)光源会导致不一致的干涉,从而无法恢复相位调制信号。

相干光学需要使用能够处理高阶调制方案的相干数字信号处理器(DSP),以及可调谐激光器和调制器,但在 400ZR 的情况下,通常用硅光子学实现较低的成本。需要注意的是,可调谐激光器也非常昂贵,因此,也有人尝试在相干轻量化方案中使用更便宜的 O 波段激光器。


ZR/ZR+ 光学模块是一种越来越受欢迎的收发器类型,使用相干光学技术,专门为数据中心互连设计,能够在每对光纤上提供更大的带宽,并实现 120 公里至 500 公里的远距离传输。

这些模块通常采用 OSFP 或 QSFP-DD 形态,正是数据通信应用中常用的形态,这意味着它们可以直接插入用于数据通信的相同网络交换机中。

Source: SemiAnalysis

传统的电信系统可以用于数据中心互连,但与 ZR/ZR+ 插拔式模块相比,这需要更为复杂的电信设备链,占用数据中心更多的物理空间。ZR/ZR+ 插拔模块可以直接插入两端的网络端口,避免使用多个电信设备,大大简化了部署过程。

Source: Cisco

更高阶的调制方案能够在每对光纤上提供更多的带宽,比如与使用 PAM4 的强度调制直接检测 (IMDD) 收发器相比,双极化 16-QAM (DP-16QAM) 可以实现 8 倍的带宽提升。

然而,长距离传输仍然受到光纤的限制,因此可以使用密集波分复用 (DWDM) 来进一步增加每对光纤的带宽。DWDM 通过将多个波长的光合并到一对光纤中。在下面的示例中,C 波段(1530nm 至 1565nm)上的 76 个波长和 L 波段(1565nm 至 1625nm)上的 76 个波长被复用到同一对光纤中。

Source: Ciena

如果在这个系统上每个波长可以部署 800Gbps 的带宽,那么单根光纤对的总带宽可以达到 121.6Tbps。海底电缆通常会最大化使用波长数量,而有些部署可能使用不到 16 个波长,尽管使用 96 个波长的部署也并不罕见。目前的典型部署目标是每对光纤达到 20-60 Tbps 的带宽。

许多部署一开始只会在 C 波段点亮少数几个波长,并随着客户需求的增长逐步点亮更多 C 波段,最终扩展到 L 波段,从而使现有光纤的传输速度随着时间大幅提升。


超大规模的电信网络部署

美国大多数大城市仍有大量未使用的光纤可以激活并加以利用,而 AI 数据中心互连所需的大规模带宽正是充分利用这些容量的绝佳方式。在海底电缆中,由于物理电缆和部署成本随着光纤对数量的增加而上升,财团通常只部署 8-12 对光纤。

而在陆地电缆中,大部分成本在于挖掘沟渠的劳动力和设备(以及某些城市地区的通行权),而不是光纤本身,因此在大城市区域的陆地路线上,企业往往会铺设数百甚至数千对光纤。


跨洋训练将比跨陆训练困难得多。

典型的光纤业务案例可能会假设留出相当数量的光纤对以备未来需求。通常任何主要道路、输电线路、铁路或基础设施旁边往往都有光纤电缆铺设——任何进行基础设施建设的公司通常会将光纤作为附属业务一起部署,因为如果已经有施工队进行挖沟作业,增加光纤的成本几乎可以忽略不计。

在超大规模云服务商的电信网络建设中,他们更倾向于自建网络,而不是与电信提供商合作,直接与设备供应商和建筑公司合作,满足长途传输、城市区域以及数据中心互联的需求。

Source: Microsoft

数据中心互连是指通过点对点网络连接距离在 50 公里以内的两个数据中心,通常通过铺设数千对光纤来实现。超大规模企业可以将 ZR 收发器插入每个远程数据中心内的网络交换机,然后将收发器调至不同的光波长,并使用无源复用器(即 DWDM 链路)将多达 64 个收发器组合到一对光纤上,如果使用 400ZR,则每对光纤的带宽可以达到 25.5 Tbps,或者也可以直接将每个 ZR 收发器插入其专属的光纤对。


Source: Arista

更复杂的电信系统也可以通过实施 DWDM (密集波分复用)技术,将更多的 ZR 光学信号复用到更少的光纤对上,并支持非点对点的网络连接。但这需要占用一些机架空间来放置电信设备,如路由器、ROADM(可重构光分插复用器)、复用器和解复用器,以实现 DWDM 的功能。

由于大部分成本集中在为光纤挖掘管道上,大多数超大规模云服务商发现部署比实际需求更多的光纤对更为容易,这不仅节省了数据中心内部的空间,还避免了复杂的电信系统部署。

通常情况下,只有在光纤物理容量受限的情况下(如美国以外的某些地区),他们才会考虑在短距离内部署复杂的电信系统。在这些区域,光纤资源稀缺,超大规模云服务商可能不得不使用仅有的 2-4 对光纤对进行部署。

Source: Anritsu

然而,对于长途传输网络,超大规模云服务商需要使用一整套与数据通信领域产品截然不同的电信产品。典型的长途网络至少需要一些基础系统:收发器、DWDM 复用器/解复用器、路由器、放大器、增益均衡器和再生站点(Regenerator Sites)。

在大多数情况下,还需要使用 ROADM(可重构光分插复用器)和 WSS(波长选择开关),但并非所有情况下都会使用这些设备。

Source: TelecomHall

转发器(Transponder)在电信领域的功能类似于收发器,但其价格更高且运行功率更大。转发器的一侧连接到实际的电信网络(称为线侧),另一侧提供多种端口组合,供该位置的客户端设备连接(称为客户端侧)。

例如,转发器可能在线侧提供 800Gbps 的传输速率,而在客户端侧提供 4 个 200Gbps 的光学或电气端口,但客户可以选择无数种不同的端口容量和电/光组合。

客户端侧可以连接数据中心内部的路由器或交换机,而线侧将连接到复用器,通过 DWDM 将多个转发器的信号复用,可能还会通过 ROADM 实现光学切换,支持比简单的点对点连接更复杂的网络拓扑结构。

A typical transponder. Source: Ciena

DWDM(密集波分复用)通过复用器和解复用器(mux/demux)工作,它将每个转发器发出的稍有不同波长的光信号组合到一对光纤上。每个转发器都是可调谐的,可以设置特定的光波长,以便在同一对光纤上进行复用。

当使用 ROADM 时,转发器通常连接到无色的复用器/解复用器(colorless mux/demux),然后再连接到波长选择开关(WSS)。这使得 ROADM 可以动态调整转发器的波长,以优化网络的各种目标,实现灵活的网络配置和更复杂的光学信号管理。

光纤信号在长距离传输中会逐渐衰减,因此需要光放大器来增强光信号。通常,每隔 60-100 公里在光纤线路上放置一个放大器,它可以直接放大光信号,而无需将其转换为电信号。每经过三个放大器后,需要使用增益均衡器,以确保不同波长的光信号(由于不同的传输速度)能够均衡处理,避免出现错误。在某些超过数千公里的超长距离部署中,还需要进行信号再生,这涉及将光信号转换为电信号,重新整形和调整信号的时间,然后使用另一组转发器重新传输信号。

如果网络连接多个点,并且在多个节点处添加或接收流量,那么就需要使用 ROADM(可重构光分插复用器)。该设备可以在网络的特定部分光学地添加或删除特定波长的光信号,而无需将信号转换为电信号进行处理或路由。某一节点需要发送或接收的波长可以从主光纤网络中添加或删除,而不传输到该节点的波长可以不受干扰地通过 ROADM。ROADM 还具备控制平面,可以主动发现和监控网络状态,了解光纤网络中哪些信道是空闲的、信道信噪比、预留波长等,并且可以控制转发器,调整线侧的波长到合适的波长。

Source: Ciena

这些不同的组件通常组合在一个模块化的机箱中,看起来像这样:

Source: Optical Connection News

Ciena、诺基亚、Infinera 和思科是几家主要的全球电信系统和设备供应商,而 Lumentum、Coherent、Fabrinet 和 Marvell 则为这些主要供应商提供各种子系统和主动组件。

目前,这些组件供应商的优势主要体现在 ZR/ZR+ 光学产品上,用于数据中心互连。但随着超大规模企业和其他运营商对跨越邻近数据中心之外的训练需求愈发重视,他们在更高平均销售价格(ASP)的电信设备和系统上的投入可能会大幅增加。


非云计算客户对电信设备的需求似乎也已触底,并可能很快进入复苏阶段——这将提振各类电信供应商的前景。

接下来,让我们讨论 OpenAI 和 Microsoft 雄心勃勃的多数据中心训练计划,以及在这次大规模建设中电信领域的赢家。

OpenAI 和 Microsoft 计划如何超越谷歌


如前所述,Microsoft 的标准设计(如下图所示)在密度上相比 Google 存在劣势。尽管两者的建筑面积大致相同,但 Microsoft 的数据中心的兆瓦容量较低。

Google 的设施还拥有更低的 PUE(电源使用效率),这意味着更多的电力可以供应给 IT 设备,而相比之下,与网络设备、CPU、风扇等相关的电力消耗更少。因此,尽管 Microsoft 也有建设大型园区的经验,但其建设时间通常较长,规模总体上也小于 Google。


Source: SemiAnalysis Datacenter Model

Microsoft 最大的 AI 训练区域位于凤凰城,上述地点是其中最大的一部分,并将继续扩大到 10 座建筑。利用已经获得许可的多个站点,Microsoft 将使用上面所示的参考设计自行构建 24 个数据中心。

为了进一步增加容量,Microsoft 在凤凰城周围的租赁活动非常积极,这将显著扩大其在该地区的占地规模。不过,并不是所有这些数据中心都将用于 AI 训练,有些可能用于其他用途。

Source: SemiAnalysis Datacenter Model

为了在规模上击败 Google,Microsoft 和 OpenAI 无法依赖 Microsoft 之前的数据中心设计。他们正在通过自建大幅提高新设施的密度,尤其是在密尔沃基以及通过合作伙伴(如 Compass、QTS、Crusoe、Oracle、CoreWeave)在全美范围内进行扩建。在密尔沃基和亚特兰大(通过 QTS),Microsoft 正在建设全球最强大的单体建筑,100% 液冷,用于下一代 AI 硬件——具体细节可见链接:


https://www.semianalysis.com/p/datacenter-model

位于威斯康星州的自建超级园区在完全建成后,将成为 Microsoft 或 Google 全部设施中最大的单一数据中心园区。Meta 也在积极推进极具野心的单一站点计划。



Source: SemiAnalysis Datacenter Model

以上只是部分场地的小规模展示,但其扩展速度非常快。Microsoft 和 OpenAI 巨大基础设施的另一部分位于德克萨斯州,通过与 Oracle + Crusoe 以及 CoreWeave + Core Scientific 在 Abilene 和 Denton 的合作进一步扩大规模。

Source: SemiAnalysis Datacenter Model

有趣的是,在打造 AI 集群的过程中,Microsoft 还涉足了加密货币挖矿领域。CoreWeave 租赁了现有的 Core Scientific 加密矿场设施,而 Oracle 则与 Crusoe 合作使用其园区,Crusoe 过去也深耕于加密货币领域。比特币矿工习惯于高密度、高功率的数据中心,许多矿场都签署了大规模的电力供应合同。

正如 Core Scientific 的 10-K 文件所显示,其在多个站点上拥有 1.2GW 的合同容量。与全新建设数据中心相比,重新利用加密货币矿场的时间表要短得多,这使得这些设施在 AI 集群建设中的转型更加迅速和高效。

Source: Core Scientific

该公司正在大规模转向 AI 的数据中心托管,并与 CoreWeave 达成了一项大规模协议,涉及 382MW 的 IT 电力供应,且交付时间相对较短。CoreWeave 将采购 GB200 GPU,并将其租赁给 Microsoft 供 OpenAI 使用。我们认为,最重要的地点将是位于德克萨斯州丹顿的矿井。

Source: SemiAnalysis Datacenter Model


与 X.AI 的现场发电机类似,这个数据中心也拥有充足的电力基础设施。该站点拥有一个 225MW 的天然气发电厂,位于所有加密矿场的中心位置。加密矿场将被拆除并进行大规模改造,替换为符合数据中心级别的电力和冷却系统。但与 PUE 高于 1.3 的自构建数据中心相比,这个站点仍然非常低效。

另一个重要的园区由 Crusoe 在德克萨斯州阿比林开发。Crusoe 因其在北达科他州和怀俄明州的创新性燃烧气挖矿站点而闻名,正在建设一个千兆瓦级的数据中心,并将其第一部分租赁给 Oracle,后者将其填充为 GPU 和网络设备,然后再租给 OpenAI。通过实时低分辨率卫星,我们可以看到该园区的扩展速度。我们拥有精确详细的季度历史和预测电力数据,涵盖超过 5,000 个数据中心。这些数据包括 AI 实验室、超大规模云提供商、新兴云平台和企业的数据中心集群建设状态。

Source: SemiAnalysis Datacenter Model

在美国的其他地区,也有其他几个非常大的数据中心,如下图所示。为了简洁和竞争分析,我们不会逐一介绍简报中的每一个,但要点很清楚:

Source: SemiAnalysis Datacenter Model

通过极具野心的自建计划、积极的租赁、大型合作伙伴关系以及创新的超高密度设计,Microsoft 将以多 GW 级集群规模引领 AI 训练市场。


千兆瓦特巨型集群

Microsoft 正在寻求将多个园区互联,形成一个多 GW 级的庞大训练集群。光纤公司 Lumen Technologies 和 Zayo 已被签约合作,这为我们提供了一些线索。

Lumen 和 Zayo 的参与表明,Microsoft 可能正在利用先进的光纤技术和基础设施来支持其大规模的 AI 训练集群。这种大规模的数据中心互联需求意味着,Microsoft 正在构建一个能够处理海量数据的高性能计算网络,利用高速光纤网络实现多个园区之间的低延迟通信和数据传输,以满足 AI 模型训练的需求。

7 月 24 日,Lumen 宣布与 Microsoft 达成协议,互连多个数据中心。几天后,Lumen 又与 Corning 签署了一项协议,将在未来两年内保留 10% 的产能。我们认为未来还会有更多类似的协议出现,这可能会极大地扩大 Corning 的业务。

Source: Corning


Lumen Technologies (NYSE: LUMN) 2024 年 9 月 4 日宣布,由于 AI 推动的巨大连接需求,其已获得 50 亿美元的新业务。各行各业的大公司都在寻求快速获得光纤容量,因为随着 AI 需求的激增,这一资源变得越来越有价值,而且可能有限。

此外,Lumen 正在与客户进行积极讨论,希望再获得 70 亿美元的销售机会,以满足日益增长的客户需求。


Lumen Technologies 是一家大型电信公司,业务涵盖多个领域,其中最重要的是企业部门 (Enterprise)。Lumen 直接与企业合作,依靠其庞大的光纤网络,解决他们的连接需求,如下图所示。

Source: Lumen

如上文所述,该业务受到容量利用率问题的困扰,大量租用或拥有的光纤已部署,但却处于闲置状态,即所谓的暗光纤。Lumen 是美国最大的暗光纤供应商之一,与 Zayo、AT&T 和 Crown Castle 并列。

企业电信业务也面临挑战,因为由于互联网价格下降,许多企业已经将流量转移到互联网上运行,这损害了对 MPLS (多协议标签交换 - 一种主要的企业产品,提供远程办公室之间的数据连接)的需求,导致价格压力和资源利用率不足。同时,电信容量的购买者因超大规模云服务提供商的崛起而变得更加集中,更糟糕的是,这些云规模玩家倾向于自己构建电信网络。

这意味着许多光纤容量处于闲置状态,许多光纤对被点亮但只使用了很少的波长,并且仍在使用老旧的调制方案和较慢的数据速率。如果有像 AI 训练需求激增这样的推动力,升级这些闲置光纤容量将成为一个巨大的机会,因为这可以显著提升网络的传输能力。

维持如此庞大的基础设施需要大量的资本支出,和许多同行一样,Lumen 面临现金流问题和巨额债务负担。该公司拥有接近 200 亿美元的金融债务,几乎没有产生任何自由现金流,并且其收入增长趋势保持稳定甚至有所下降。

多园区 AI 训练的兴起改变了上述局面,因为它需要巨大的带宽需求。Microsoft 是促成 50 亿美元协议的关键客户,并且可能还有另一笔 70 亿美元的交易正在酝酿中。

像 Lumen 这样的公司能够达成这样的交易(并且它还提到可能会有价值 70 亿美元的交易)是因为它们拥有广泛的未使用光纤网络。所有这些闲置的容量和现有的路线使得超大规模云计算公司能够以成本效益高的方式构建大规模、超高带宽的网络。可能更重要的是市场投放时间:利用现有基础设施加速了原本需要数年时间的进程,尤其是在需要挖掘特别隧道的情况下。

对于 Lumen 来说,这笔 50 亿美元交易的经济效益如下:

  • 商业结构采用的是 IRU(不可撤销使用权),这是光纤行业的标准协议,本质上类似于资本化租赁。此类协议的典型期限为 20 年。
  • 交易价值的 85-90% 与基础设施相关,而剩余部分则涉及运营和维护,以及电力和托管服务。
  • Lumen 估计该交易的现金利润率为 30-35%,这意味着税前利润约为 15 亿美元。
  • 大部分基础设施费用将在合同的前 3-4 年内进行现金预付款,而剩余部分则会随着里程碑的实现而增加,并在合同期内按年费形式收取。

尽管与该交易相关的资本支出(CAPEX)和运营支出(OPEX)增加,导致 EBITDA下降,该交易仍大幅提升了 Lumen 的年度自由现金流预期。

Source: Lumen

这可能只是一个开始。明年电信行业将迎来显著增长,而这个沉寂已久的电信公司显然正引领着收入的大幅增长。光纤公司开始注意到这个机会,

但我们相信,实际影响将让投资者和该领域的公司都感到惊讶。以整个交换机、路由器和广域网(WAN)市场为例,其规模仅为 750 亿美元,因此一家公司50亿至100亿美元的增量投资将会产生巨大影响。

我们认为,未来将有超过100亿美元的电信资本支出专门用于多数据中心培训。这些都是额外的增量支出。同时,电信市场目前正处于周期性低谷。这是一个新的增量驱动因素,伴随着市场的周期性回升。

受益的公司

除了我们直接讨论过的 Corning 和 Lumentum ,Fabrinet 在数据中心互连产品方面也具有优势,尤其是其 400ZR 产品线,在截至 2024 年 6 月的财年第四季度中,400ZR 产品线占光学收入的 10% 。

Fabrinet 在电信领域的影响力远不止 400ZR 产品,其电信业务在 2024 财年第四季度占总收入的近 40% 。此外,Fabrinet 还拥有强大的数据通信收发器产品线,负责制造 Nvidia 的 800G 收发器,用于在计算结构/后端网络中连接 GPU。

ZR 光学的持续增长是该公司预计电信业务在下个季度将实现环比增长的关键原因之一。Fabrinet 将受益于 ZR 光学收入从占比约 10% 增长到未来超过 20%。Fabrinet 是唯一一家专注于光学系统和组件的合同制造商,在这个行业中被比作“台积电 (TSMC)” ,主要受益于产量,并且在市场上拥有强大的竞争地位。

在 2024 财年,Cisco 是 Fabrinet 的第二大客户,仅次于 Nvidia ,占其销售额的 13% 。加上其他电信客户,Fabrinet 在其电信业务方面获得了显著的增长动力。

此外,Fabrinet 刚刚赢得了 Ciena 作为客户,这表明 Ciena 明年可能会看到的订单量增长。过去,Lumentum 和 Infinera 也曾是其销售额超过 10% 的客户,这两家公司的复苏也将有助于推动电信收入的增长。

Lumentum 是另一家具有电信业务敞口的公司,预计其收入将在连续季度之间有显著提升,主要原因是 ZR/ZR+ 光学器件、ROADM 以及 C+L 波段产品的需求增加。

与 Lumentum 不同,Coherent 对未来的展望较为温和,预计电信市场在短期内整体仍将疲软,尽管其 400ZR+ 收发器业务表现强劲。Coherent 继续受到电信设备库存问题的困扰,其电信收入环比下降 6%,同比下降 38%。不过,其前瞻指引表明电信市场的底部可能已经接近。

尽管 Coherent 继承了 Finisar 的传统,但由于整合了多个非光学业务,电信业务在其总收入中的占比已经变得相当小——我们估计在截至 2024 年 6 月的财年下半年,电信业务仅占总收入的 13%。

我们认为 Lumentum 的业务组合比 Coherent 更好,资本结构也更加稳健。另一方面,如果 Coherent 能继续在数据通信业务上取得增长,并在电信领域取得一些进展,其债务可能会推动股本回报上升。

Ciena 和 Cisco 都是电信行业的巨头,不仅生产大量传统的电信设备,如线路卡/收发器、路由器、复用器/解复用器和 ROADM 。Cisco 拥有更广泛的产品组合,并涉足一些软件业务,而 Ciena 更专注于纯粹的电信设备领域。Infinera 也与电信行业密切相关,但即将被收购纳入 Nokia 的母公司体系中。

在我们看来,Ciena 是所有电信设备制造商中对电信行业最为专注的公司,因为它们更加聚焦于上面提到的电信网络硬件。Ciena 已经多次提到来自云客户的强劲需求,并且现在他们开始看到针对明年网络建设的巨大订单,特别是在 2024 财年第二季度的财报电话会议中明确提到这些订单与 AI 流量需求直接相关。

尽管 Ciena 的主要业务仍然是传统的电信网络设备(如收发器、ROADMs 等),而非数据中心互连,但它特别提到赢得了 18 项 400ZR+ 和 800ZR+ 的订单,其中许多具有战略意义。ZR 光学产品对 Ciena 来说是一个增值机会,因为其业务主要集中在大都会和长途网络,而不是数据中心互连。

我们认为 Ciena 在这些市场细分中都占据了非常强势的地位,并且为了支持 AI 训练而设计的电信网络将会有更高的链路密度。Ciena在内容和数量上都有增长的潜力,所有电信设备制造商中,Ciena 在 AI 电信网络建设中的比例敞口是最高的,涵盖了各种范围和部署。

Cisco 强调了,在截至 2024 年 7 月的财年下半年,超大规模客户收入的订单增长达到了两位数,这抵消了服务提供商(即电信运营商)业务的疲软。此外,它还获得了 10 亿美元的 AI 订单,主要集中在以太网和光学相关产品领域,并预计在 2025 财年再获得 10 亿美元的 AI 相关订单。

虽然在上个季度中并未详细提及 ZR 光学或数据中心互连,但 Cisco 在 2021 年收购了 Acacia ,以在 Coherent DSP 和 ZR 光学等产品方面占据有利位置,理论上应该具备相关的市场敞口,但在过去几次财报电话会议中,他们几乎没有提到 ZR 光学的任何机会。

另一个需要考虑的因素是 Cisco 的庞大收入基数,2024 财年全年收入达到 538 亿美元。因此,即使 AI 数据中心互连相关需求激增,对 Cisco 收入的百分比影响也远小于其他电信设备制造商或组件/系统供应商。

最后是 Marvell。通过收购 Inphi,Marvell 获得了在 PAM4 DSP 领域的主导地位,以及一系列 Coherent DSP 产品(包括 Deneb、Orion 和 Canopus)。

我们认为,历史上与 PAM4 相比,Coherent DSPs 在 Inphi / Marvell 业务中占比较小。然而,情况已经改变。Marvell 的 ZR 光学业务不仅由其 Coherent DSP 产品组合支撑,还包括其 COLORZ、COLORZ 400ZR/ZR+ 和 COLORZ 800ZR/ZR+ 数据中心互连收发器。

这项 ZR 业务正在迅速增长,并有望变得相当重要,甚至可以与规模可观的 PAM4 业务相媲美。ZR 收发器的平均销售价格(ASP)远高于 IMDD 收发器,并且预计将继续实现显著的出货量增长。

Marvell 在这一产品领域拥有更强的竞争优势,并且其 COLORZ 系列产品的市场推广非常有前景,已经在一家主要超大规模客户中取得了重大胜利。其多年来向该客户进行大量出货,并且出货量持续大幅增长。此外,Marvell 为该产品还增加了多个额外的客户。这种影响将远远超过任何潜在的短期 LRO 问题,Marvell 在这一趋势中将获得最高利润率的直接收入增长。

Source: Microsoft


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询