2030年,Scaling Law会到达极限吗?GPT-6能出来吗?
发布日期:2024-09-07 10:44:41
浏览次数: 1848
来源:Founder Park
9 月 2 日,马斯克发文称,其人工智能公司 xAI 的团队上线了一台被称为「Colossus」的训练集群,总共有 100000 个英伟达的 H100 GPU。他还表示,接下来的几个月里 Colossus 的规模将扩大一倍,达到 200,000 个 GPU,其中 5 万个是更为先进的 H200。毫无疑问,AI训练的规模正以惊人速度进化,年增长率已经高达400%。EPOCH AI 的这篇文章论证了四个可能存在的增长瓶颈:供电、芯片产能、数据稀缺、延迟。到2030年,AI训练的计算量有望达到2e^29 FLOP,预示着新一代AI模型的诞生。准备好迎接AI的下一个大爆炸了吗?这可能需要数千亿的投资,但回报可能是革命性的。- 2030年,很可能可以实现2e^29 FLOP的训练规模,2030的模型能力和现在相比,就像GPT-4和GPT-2的区别。
- 分布式训练有潜力克服集中式训练的电力瓶颈,实现比单一园区更大的训练规模。
- 到2030年,GPU的年产量预计将增长30%到100%。
- 五年内人类将耗尽全部文字语料,音视频数据或将缓解窘境,但质量没有保证。
- 计算和通信延迟几乎成了不可避免的限制,但为此焦虑还为时尚早。
- AI可能为经济带来10倍以上的增长提速。鉴于这一潜力,投资者可能会将大量资本从传统领域转向AI开发及其基础设施建设。
目录:
01 限制AI持续增长的四大瓶颈
02 供电是迫在眉睫的制约因素
03 分布式训练是潜在的解决之道
04 GPU供不应求,芯片产能仍需提高
05 文本语料将在五年内消耗殆尽
06 充满未知的救星:多模态数据
07 终极限制:延迟
08 哪个瓶颈限制最大?
09 尽管充满变数,2030实现飞跃仍有可能
01
限制AI持续增长的四大瓶颈
近年来,AI 模型的能力显著提升,其中算力资源的增长至关重要。稳定、持续、可预测的增长使各个AI实验室愿意持续提高训练规模,目前的训练计算量正在以每年4倍的速度扩大。这种每年4倍的增速已经超越了近代历史上最快的一些科技扩张,它已经超过了手机(1980-1987的每年两倍)、太阳能(2001-2010的每年1.5倍)以及人类基因组测序(2008-2015的每年3.3倍)的增长率峰值。本文讨论AI是否一直到2030年还能继续保持这个迅猛的增长势头,总结出了限制AI持续发展的四个重要因素:电力限制、芯片产能、数据稀缺和延迟限制。本文发现,2030年可能实现2e^29次浮点运算(FLOP)的训练。换句话说,到2030年,很可能有可能训练出规模超过GPT-4的模型,它的能力飞跃会像GPT-4超过GPT-2一样。如果愿意投资数千亿美元去追求这一目标,届时我们可能会看到AI的又一次重大进步。电力供应方面,已经有计划到2030年建设1-5吉瓦(GigaWatt, GW)的数据中心园区,这将支持从1e^28到3e^29 FLOP的训练规模(目前的GPT-4训练规模大约有2e^25 FLOP)。如果能够联合利用多个地区的能源基础设施进行分布式训练,那么规模还能进一步扩大。根据目前对美国电力现状进行的预测,美国建立的分布式电力网络可能能够提供2-45吉瓦的电力,如果带宽足够,这将支持从2e^28到2e^30 FLOP的训练规模。此外,如果在未来3-5年规划建设更多电站,那么还可以获得更多的电力资源。芯片产能方面,芯片是训练大型AI模型的关键。目前,芯片产能的扩张受到先进封装技术和高带宽内存生产能力的限制。但是,考虑到芯片制造商计划的产能扩张以及硬件效率的提升,预计2030年的芯片产能可以支持9e^29 FLOP的训练规模。不过这一预测存在很大的不确定性,我们总体预计2030年的芯片产能可以提供2千万到4亿H100等效的GPU,对应预计2030年1e^29到5e^30 FLOP的训练规模(比GPT-4大5000到30万倍)。数据资源方面,训练大型AI模型需要大量数据。目前,互联网上大约有500万亿字的独特文本,预计到2030年将增长50%。图像、视频和音频数据的多模态学习可能会适度增加可用于训练的数据量,可能使数据量增加三倍。在考虑了数据质量、可用性、训练周期和多模态分词器效率的不确定性后,我们估计到2030年将有400万亿到2万万亿个token可用于训练,这将支持6e28到2e32 FLOP的训练规模。另外,如果使用AI生成的合成数据可能会大幅增加这一数据量。延迟限制方面,模型训练需要一定的时间来完成前向传播和反向传播。随着模型规模的扩大,训练过程中需要更多的操作数,延迟的时间也就更长。虽然可以通过增加并行处理的训练token数量(即batch size)来减少这些延迟,但这种方法有其局限性。一旦超过“临界batch size”,继续增加batch size反而会导致效率下降。这为在一定时间内batch size的扩展和完成的训练FLOP数设定了一个上限。我们估计,在现代GPU设置上的累积延迟将限制训练规模在3e^30到1e^32 FLOP之间。要超越这个规模,可能需要寻求网络拓扑结构的优化,或者从计算和通信技术层面减少延迟。虽然仍有诸多不确定性,但到2030年大约2e^29 FLOP的训练规模是有可能实现的。这与当前模型相比有显著提升——类似于从GPT-2和GPT-4之间的差异。最可能首先成为限制因素的是电力供应,其次是生产足够芯片的能力。要实现更大规模的扩展,将需要大幅扩展能源基础设施和建设新的发电厂,以及更多分布式的数据中心,还有芯片产能的显著提升。02
供电是迫在眉睫的制约因素
到2030年,数据中心园区的用电规模可能在1到5吉瓦之间,这是一个相当巨大的数字。如此电力规模的园区能支持从1e^28到3e^29 FLOP的AI训练。这一估计参照了从亚马逊在宾夕法尼亚州960兆瓦的核电合同,以及OpenAI和微软计划建设的5吉瓦园区。另一方面,想要突破园区内的电力供应限制,可以采用分布式并行训练的方法,同时利用多个地区的能源基础设施。根据目前预测,一个分布式训练网络可能需要加起来2到45GW的电力,从而支持2e^28到2e^30 FLOP的训练活动。数据中心间的带宽也限制了这种网络能够执行的最大训练规模。具体来说,现有的数据中心一般是4到20Pbps的带宽,这将支持3e^29到2e^31 FLOP的训练活动。这种带宽水平已经很高,所以和电力供应问题相比,带宽不会是个主要限制。我们还预计,到2030年,支持GPU在训练期间所需的电力等基础设施成本将大约是GPU自身成本的40%。而且这个成本可以随着天然气或太阳能能替代能源的发展而进一步缩减。当前AI训练对电力的需求
AI模型训练目前仅占用了数据中心总电力消耗的一小部分,但这一比例正在迅速增长。大规模AI训练主要依赖GPU。目前最先进的GPU是英伟达的H100,其热设计功耗(Thermal Design Power, TDP)为700W。在考虑到集群互连和CPU等支持硬件,以及数据中心级的冷却和电力分配等开销后,每个GPU的峰值电力需求上升到约1700W。利用每个GPU的电力需求,我们可以估算出前端大模型的安装背后所需的电力。例如,最近的Llama 3.1 405B模型,其训练规模为4e25 FLOP,使用了16,000个H100 GPU,也就是说需要约27兆瓦的电能进行训练。虽然这不是当下最大的数据中心耗电水平,但和平均水平比,这已经非常高了。我们预计,到2030年,大模型训练规模将是Llama 3.1 405B的5000倍,也就是2e^29 FLOP。然而,我们不认为电力需求会以同样的幅度增长。这有几个原因:首先,硬件将随着时间的推移变得更加节能。2010年到2024年间,每个GPU能进行的FLOP运算每年增长1.28倍。如果这种趋势持续到2030年,训练运行的效率将提高4倍。其次,未来的AI训练将更加高效地使用硬件。虽然Llama 3.1 405B使用了FP16格式(16位精度),但FP8训练的使用日益增加。我们预计到2030年,训练运行将转向8位,这将提高约2倍的电力效率。第三,训练周期会更长。自2010年以来,模型的训练周期每年增加20%,到2030年将增长到3倍。较长的训练运行时间将随着时间的推移分散能源需求。鉴于上述所有因素,我们预计2030年的训练运行将比Llama 3.1 405B训练运行更加节能,比例约为24倍。因此,2030年的2e^29 FLOP训练运行将需要大约200倍于Llama 3.1 405B训练的电力,电力需求为6GW。这些数字与美国的1200吉瓦的总电力容量相比仍然相对较小。但考虑到当今美国所有数据中心的电力消耗总和仅有20GW,且很多耗电与AI训练无关,预测中的6GW还是相当大的数字。电力对集中式训练的限制
无论是由单个数据中心还是单一园区内的多个数据中心完成AI训练,有两种供电选项:园区内现场发电或通过当地电网从发电站获取电力,当下的公司更倾向于前者。Meta购买了密苏里州350兆瓦太阳能农场的电力输出权和亚利桑那州300兆瓦太阳能农场的电力输出权。亚马逊在宾夕法尼亚州拥有一个数据中心园区,与邻近的2.5吉瓦核电站签订了高达960兆瓦的合同。这些交易背后的主要动机是节省电网连接成本并保证可靠的能源供应。在未来几年中,这样的数据中心可能允许前所未有的大规模训练运行——960兆瓦的电力是今天模型训练所需27兆瓦的35倍以上。能否通过现场发电获得更多电力?目前,美国至少有27座发电能力超过2.5GW的发电厂,最大规模的发电厂是华盛顿州大库利水电站,发电能力达到了6.8GW。然而,由于已有的电力订单划走了这些电厂很大部分的电力供应,现有的发电厂可能难以适应未来更大规模现场发电订单。另外,由于能源的稀缺,大规模订单本身也被政府能源部门质疑。或许未来几年会建造更多的大型发电站,但近期在建的项目很少。大于3吉瓦规模的电站大约大约需要五年时间建造。也就是说2030年前来不及新建计划外的超级电站。当下的企业想扩大用电量在短期内只能更多地从电网获取电力。北弗吉尼亚是美国最大的数据中心枢纽,拥有近300个数据中心,总体峰值能消耗5GW的电力。北弗吉尼亚最大的电力供应商Dominion预计,未来十五年,他们的负载将增加4倍,这意味着年增长率为10%。以此类推到2030年,北弗吉尼亚数据中心枢纽的电力容量将增长到大约10GW。美国最大能源公司NextEra的CEO最近表示,虽然为一个5GW的AI数据中心找到一个场地将是具有挑战性的,但在美国确实存在能够支持1GW设施的地点。这也与媒体报道一致,报道称微软和OpenAI正在计划一个名为Stargate的AI数据中心园区,预计将在2028年需要“数GW电力”,到2030年将扩大到5GW。03
分布式训练,潜在的解决之道
将AI训练分布到多个数据中心并行可帮助规避本地电力限制。数据中心间的分布式训练可将工作负载分散到多个数据中心。业务范围广的大型技术公司适合这种方法,他们的数据中心已经遍布多个地区。例如,谷歌在15个不同的美国州运营数据中心。这种方法可以通过访问更广泛的电力资源池来实现更大规模的训练。这种分布式训练的可行性也得到了实践的可行性支持。据报道,谷歌的Gemini Ultra模型就是跨多个数据中心训练的。为了更精确分布式数据中心网络可以访问多少电力,我们需要明确两个关键的数据指标:一是数据中心实际消耗的平均电量,这个数据会考虑设备停机和负荷波动的情况;二是数据中心的额定峰值电力容量。据我们估计,现在美国数据中心的平均电力消耗已经超过了20GW。Dominion公司表示,他们服务的数据中心平均使用率为其总容量的60%,也就是说美国数据中心的总电力容量在33至50GW之间,我们可以大致估计为40GW。此外,根据SemiAnalysis提供的数据中心行业模型数据,到2023年底,美国的数据中心总容量大约为36GW,预计到2024年底将达到48GW,这与我们的估计相吻合。综合多方数据考虑,至少保持15%的年增长率似乎是可行的。这意味着到2030年,美国数据中心的电力容量可能从40GW增长到90GW。(这里使用的是实际增长预测的范围来估计可行增长,因此这个数字可能偏保守)目前,大多数美国数据中心的电力用于非AI用途,如互联网服务和云计算。但AI数据中心的电力需求份额正在上升。现有预测显示,非AI数据中心的年电力需求增长率约为8%到11%。如果按照8%的增长率计算,到2030年,非AI应用的需求将从目前的大约37GW增长到大约60GW,为AI业务留下的电力在30GW左右。我们估计,到2030年,分布式训练可以帮助美国资源最丰富的AI公司协调一个约8GW的训练。这个数字是在考虑到相关增长率和当前容量的不确定性后得出的保守估计。这表明分布式训练有潜力克服集中式训练的电力瓶颈,实现比单一园区更大的训练规模。分布式训练的可行性
通过分布式训练减轻电力限制在技术上是可行的。AI训练的基本结构很便于地理分布训练,因为数据集被分成多个batch,并且模型权重的更新只在每个batch结束时发生一次。在分布式设置中,这些batch可以在不同地点处理,数据中心只需要在每个batch结束时同步和共享梯度更新。在分布式训练中,数据中心之间的广泛分布受到通信延迟的限制。如果美国的主要数据中心通过一个11,000公里的光纤环路连接,通信延迟将大约是55毫秒。同步操作需要一次网络往返,总共耗时110毫秒。这种延迟在使用光纤通信时是无法减少的。因此,如果一个训练过程在300天内完成,最多可以进行2.4亿次梯度更新。我们不确定在不影响训练效果的情况下,batch可以有多大。我们假设最大batch大小为6000万个token,这与传闻中GPT-4在训练期间使用的最大batch大小相符。这将允许在训练期间处理大约1e^16个token,根据龙猫法则,这将允许进行约6e^31 FLOP的训练运行。即使网络中有的数据中心非常远,延迟也不太可能成为限制因素。除了延迟,带宽也影响着大规模分布式训练的可行性。目前的数据中心交换技术,例如Marvell Teralynx 10支持128个端口,每个端口400 Gbps,总带宽为51.2 Tbps。对于一个16T参数模型,使用8位精度进行标准两阶段环形全归约操作传输梯度更新,每次传输将需要4.9秒。加上每次全归约的110毫秒延迟,每次全归约的总时间将是5秒。这个模型大小将最大化在300天训练内可以完成的训练——大约3e28 FLOP的规模。然而,可实现的带宽可能会远远高于单个Teralynx 10以太网交换机可以管理的带宽。首先,数据中心对之间的链路可以由多个交换机和相应的光纤管理,实现更大的带宽。例如,谷歌的Stargate网络中的每个节点都有32个交换机管理外部流量。在环形全归约设置中,一个32个交换机的数据中心可以专门用16个交换机来管理与其两个邻居的连接。鉴于谷歌B4网络的先例,我们认为每个数据中心对应该有8到32个交换机的交换机配置是可行的。其次,未来的交换机和收发器可能会更好,从而增加可实现的带宽。ASIC交换机的更广泛趋势表明,带宽每年增加1.4到1.6倍,这将导致到2030年可能有380到850 Tbps的以太网交换机。我们对2030年数据中心间可实现带宽的最终估计为4到20 Pbps,这将允许进行3e^29到2e^31 FLOP的训练运行。鉴于此,与首先实现必要的电力供应相比,带宽不太可能成为分布式训练运行的主要限制,分布式训练是总体可行的。到了2030年,依靠本地电力供应的训练任务可能会需要1到5吉瓦的电力,并能够达到1e^28到3e^29 FLOP的计算量。同时,分布式训练任务可以汇聚2到45GW的电力,并在数据中心之间实现4到20 Pbps的连接速度,从而支持2e^28到2e^30 FLOP的训练任务。综合来看,到2030年,进行2e^28到2e^30 FLOP规模的训练任务是可行的,详见下图。04
GPU供不应求,
芯片产能仍需提高
GPU是训练AI模型的核心组件,对于AI技术的发展至关重要。近年来,GPU集群的扩张是推动计算能力增长的主要因素,更高性能、更低延迟和更大内存的GPU使我们能进行规模更大的模型训练。因此,AI的发展会受到GPU等芯片产能的限制。我们通过研究半导体行业的数据来预测未来的GPU产量及其可能的限制因素,包括封装产能的增长、晶圆产量的增长,以及对制造设施的投资。在足够的资金支持下,到2030年,GPU的年产量预计将增长30%到100%,这与CoWoS封装技术和HBM内存生产的增长率相吻合。我们预计未来有足够的生产能力制造出1亿个等同于H100的GPU,以支持高达9e29 FLOP的AI训练任务。这一预测考虑了GPU将在多个AI实验室中分配使用,并且部分GPU将用于模型的部署和服务。然而,这一预测存在很大的不确定性,主要是由于封装技术发展和高带宽内存扩产的具体情况尚不明朗。我们的预测范围从2000万个到4亿个H100级别的GPU,这可能使得AI训练任务的规模在1e^29到5e^30 FLOP之间,比GPT-4模型的训练规模大5000到250000倍。这一预测的实现将取决于半导体行业在封装技术和内存生产方面的进步,以及芯片制造商是否能够满足市场需求的增长。随着AI技术的不断进步,对高性能计算资源的需求也将持续增长,这可能会推动芯片制造商进一步扩大生产规模,以满足未来AI发展的需求。当前产量和预测
近年来,面向数据中心的GPU销售额增长迅猛。Nvidia在AI GPU领域占据着市场主导地位,据称在2023年向数据中心共发货了约376万台GPU,相较于2022年的264万台有了显著提升。截至2023年底,已有65万台Nvidia H100 GPU被送往各大科技公司。对于2024年的预测表明,发货量有望实现三倍增长,预计会达到150万至200万台H100 GPU。这样的数量足以支持高达6e^27 FLOP的大规模训练任务。但是,如果我们将目前每年增长4倍的计算训练趋势延续到2030年,我们预测届时将进行大约2e^29 FLOP的大规模训练。要达到这种规模的训练,可能需要近2000万个与H100相当的GPU。如果我们假设一个AI实验室最多能获得总产量的20%,那么到2030年,全球的制造能力需要达到近1亿个与H100相当的GPU。这个数字远远超过了现有的生产水平,GPU的生产规模需要大幅度扩张。台积电(TSMC)作为英伟达主要的芯片代工厂,目前面临着提升产能的多重挑战。其中一个迫在眉睫的问题是芯片封装能力的限制,尤其是台积电的CoWoS封装技术,这项技术是英伟达最新GPU的主要封装方式。该技术能够将逻辑单元与高带宽内存(HBM)结合,制造出即用的AI芯片。然而,这个封装过程难以快速扩大规模,因为它需要众多供应商提供的复杂设备,并且建设新设施还需要对员工进行专业培训。这些限制因素在一定程度上制约了台积电的AI芯片产量增速——即便英伟达的需求巨大。为了解决这一瓶颈,台积电正在大力提升其CoWoS封装能力,计划从2023年12月的每月1.4万至1.5万片晶圆提升至2024年底的每月3.3万至3.5万片晶圆。此外,台积电在2023年新开设的新工厂每月能处理多达8.3万片晶圆,这将使台积电的先进封装能力翻倍。台积电还宣布了一项计划,即通过2026年每年将封装能力提升60%。如果这一趋势持续,那么固定尺寸的芯片产量可能会以相似的速度增长。HBM内存的生产也是限制GPU制造的另一个重要因素。预计从2023年到2024年,HBM的产量将增长2到3倍,但这种增长很大程度上是从DRAM产能中重新分配而来而非整体制造产能的上升。预计在未来几年,HBM生产和台积电的CoWoS封装能力将以相似的速度增长,这可能会推动GPU生产的增长。尽管GPU产量大幅增长,但晶圆生产不太可能成为主要限制因素。目前,数据中心GPU在台积电总晶圆产量中所占比例较小。据估计,台积电2024年初5nm和3nm工艺节点的生产能力为每年220万片晶圆,而预计2024年的200万H100 GPU只会消耗5nm节点容量的约5%。即使考虑到预计的增长率,GPU制造也不太可能在短期内主导台积电的先进产能。相反,芯片封装和HBM生产似乎是扩大GPU生产的主要限制。AI GPU制造最终很可能会成为台积电未来的产业核心。苹果在2023年占据了台积电3nm产量的约90%。鉴于AI芯片的高利润率,英伟达可能会出价超过苹果和高通等竞争对手,以获取台积电的先进晶圆产能。台积电预测,未来五年AI服务器的需求将以年均50%的速度增长。考虑到台积电过去每年运营利润率提高5个百分点,并且投资者预计这一趋势将因价格上涨而持续,我们估计GPU的实际销量年增长率约为35%。这一预测相对保守,与其他预测相比:AMD预计到2027年,数据中心芯片的年增长率将达到70%,如果价格增长趋势相似,那么GPU的销量年增长率预计约为60%。这些更为激进的预测与我们之前讨论的CoWoS封装和HBM生产规模的近期扩张预测非常吻合,这增加了它们的可信度。我们综合这些预测,并预计GPU芯片的生产将以每年30%到100%的速度增长。未来的晶圆产能完全可以支持这种扩张。台积电的历史数据显示,从2014年到2023年,其资本支出年均增长15%,晶圆产能年均增长8%。台积电可能会增加用于扩大GPU生产的资本支出,并大幅增加专门用于GPU的晶圆生产、封装和其他生产环节。如果台积电加快资本支出的增长步伐,以匹配其预期的AI服务器市场50%的年增长率,那么根据输入和输出增长之间的历史关系,总晶圆产能可能每年增长27%。总体来看,这意味着先进晶圆生产的增长率将在每年5%到20%之间。我们对当前先进晶圆生产的确切数字并不确定,估计每月产量在10万到33万片之间。按照5%到20%的年增长率计算,我们预计到2030年,先进晶圆的总产量将在1000万到3700万片之间。根据台积电和其他机构的预测,我们预计这些晶圆中约有20%将专门用于生产数据中心的GPU。这些预测显示,到2030年,全球将生产出相当于每年支持计算2e^30到4e^31 FLOP的H100存量。综合所有因素,我们得到了以下预测。理论上可能有大约1亿个H100用于训练,以支持一个9e^29 FLOP的训练任务。然而,这一预测存在显著的不确定性,我们的估计范围从2000万个到4亿个H100,相当于1e^29到5e^30 FLOP。另外如果到2030年,台积电的全部5纳米及以下的产能都专门用于GPU生产,而不分配产能给其他业务,那么潜在的计算能力可能会增加一个数量级,达到1e^30到2e^31 FLOP,如图4所示。
05
文本语料将在五年内消耗殆尽
扩大AI训练的规模,还有一项很重要的需求就是获取更庞大的数据集。目前,研究机构主要依赖网络文本语料来支持训练过程。但每年新增的网络数据量增长速度并不能跟上训练数据的需求增长速度,所以仅靠网络数据是不够的。目前已知最大的训练数据集大约包含1.5万亿个token。去重后约有5000万亿个token,是已知最大训练数据集的30倍。如果只考虑像CommonCrawl这样已经整理好的语料库,这个数字可能低至100万亿;如果也包括私有数据,那么可能高达3000万亿。根据大模型扩张的龙猫法则,乐观估计计算量可达8e28 FLOP。如果按照目前每年计算能力增长4倍的趋势继续下去,我们大约在五年后就会面临文本语料的完全枯竭。但是,其他类型的数据和合成数据的生成可能会帮助我们突破这一限制。我们认为,多模态数据的有效数据存量可以达到4500万亿到2300万亿个token,这将支持6e^28到2e^32 FLOP规模的训练运行。此外,如果AI实验室将大量计算资源投入到数据生成上,合成数据可能会使我们的训练规模远远超出这个范围。06
充满未知的救星:多模态数据
图像、视频、语音等多模态数据是补充文本语料的途径之一,AI实验室可能会因此扩大相关视听数据训练的规模。强大的视觉能力可以使模型成为工作流程中的优秀助理,帮助组织信息或操作网络浏览器。具备流利、快速、多语言语音能力的模型可能会极大改善个人语音助手技术、实时翻译和客户服务,提供比仅文本交互更流畅的体验。虽然目前视觉模型的计算需求远低于语言模型,但如果文本数据成为瓶颈而图像数据充足,AI实验室在未来可能会投入更多资源到图像模型上。像蛋白质序列或医疗数据这样的额外数据类型也很有价值,但这类数据的存量可能不足以显著增加可用的训练数据。多模态数据还可以以多种方式帮助理解语言。例如,可以从音频、图像和视频数据中转录文本数据,可以增加与文本相关的数据存量。此外,非文本数据可能通过迁移学习或模态间的协同作用来提高语言能力。例如,结合语音和文本数据可以提高性能,而且这种协同作用似乎随着规模的增加而增强。然而,目前关于模态间迁移学习的研究还很少,还不能确定地说多模态数据的迁移学习一定会有用。互联网上大约有10万亿秒的视频,图像的数量也可能接近10万亿张。在这些模态和文本数据之间建立等价率是具有挑战性的。目前的多模态模型,如Chameleon-34B,将图像编码为1024个token,但我们预计随着技术的进步,这个数字将减少,目前理论研究得出图像的最少有效编码在22-32个token。我们以这个数字作为中心估计,这意味着图像和视频的多模态性可能会使可用于训练的数据存量增加到大约4000万亿token。这表明图像和视频内容可能各自对扩展的贡献与文本一样多,从而使训练运行的规模比仅使用文本数据时大十倍。此外,互联网上可能有大约5000亿到1万亿秒的公开可用音频,存储的总音频可能在5000万亿到1万万亿token之间,与文本和图像的估计相差不远。在考虑了所有模态的估计,并考虑了数据总量、数据质量、训练周期数量和分词器效率的不确定性后,我们得出了到2030年可用于训练的有效token在400万亿到2万万亿之间的估计,这将允许进行6e^28到2e^32 FLOP的训练运行,见图5。合成数据可行吗?
合成数据能极大地丰富我们的训练数据资源。我们已经见证了一些不依赖人类数据而取得重大突破的例子,比如AlphaZero和AlphaProof,它们分别在游戏和几何问题解决上达到了或超越了人类专家的水平。此外,通过在合成数据上进行微调,语言模型在编程和逻辑推理任务上的性能也得到了显著提升。即使是小型的语言模型,只要在精心策划的合成数据上训练,也能以更少的参数和数据达到与大型模型相当的性能。合成数据之所以有如此潜力,一个关键原因是验证一个输出的质量往往比生成它要简单。在那些我们可以明确设定正确性或质量标准的领域,这一点尤为明显。例如,在编程任务中,我们可以通过单元测试或样本输入的输出来验证代码的正确性。在数学问题上,我们也可以轻松发现并纠正逻辑或算术错误。利用这一优势,开发者可以利用计算资源生成大量候选解决方案,然后系统地验证每个解决方案的准确性或质量,保留高质量的结果,淘汰掉不合格的。这种方法可以在计算上创造出充满高质量合成样本的数据集。对于这些任务,我们可以通过增加推理计算的投入来生成更高质量的输出。“验证比生成容易”的原则可能不仅适用于编程,还可能适用于其他许多领域。例如,评审一篇研究论文的质量和创新性通常比从头开始撰写一篇原创论文要简单。同样,评估一个故事的连贯性和可信度也比从零开始创作一个引人入胜的故事要容易。在这些情况下,现代AI系统,特别是大型语言模型,已经展现出了与人类评审者相媲美的评估能力。这表明,AI驱动的验证可能有助于在这些复杂领域中创造出高质量的合成数据。合成数据已经证明在那些验证简单明了的领域(如数学和编程)或在收集高质量人类注释数据可能具有挑战性或成本高昂的领域(如工具使用、长文本数据或偏好数据)非常有用。基于这些成功案例,我们认为未来在更多领域里生成高质量的合成数据是可能的,尽管一些后果仍是未知数。但如果有了合成数据的加持,数据可用性大概率不会成为AI扩展的制约因素。我们预计合成数据可能有助于克服数据瓶颈。然而,关于合成数据的研究还处于初期阶段,因此本文保守地依赖多模态数据的估计,排除了所有类型的合成数据。07
终极限制:延迟
在AI的扩展过程中,延迟是一个不容忽视的制约因素。任何模型处理单个数据点都需要一定的时间,而这个延迟会随着模型规模的增大而被放大。训练数据被划分为多个batch,一次训练至少需要的时间等于处理一个batch所需的时间乘以batch的总数。虽然batch中的数据能够并行处理,但batch的大小却存在上限。在训练周期有限的情况下,这种关系限制了模型的规模、可训练数据的量,以及训练运行的总体规模。目前,这种限制对日常训练的影响并不显著,因为目前模型的规模还不大,通常的延迟时间非常短暂。但是,随着模型规模的持续扩大,延迟就会持续增加。这在更大规模的训练中可能会成为一个更加重要的问题。为了缓解这种延迟问题,可以通过在一定范围内增加batch size来实现。一方面允许同时处理更多的数据,另一方面batch size的增加能够提升随机梯度下降的收敛速度。然而,一旦超过“临界batch size”,继续增加batch大小将导致每个batch的收益急剧减少。因此,不能无限制地扩大batch size,我们更应该增加batch的数量而不是单个batch里并行处理的token数量。为了更具体地理解这一瓶颈的规模,我们对训练大型transformer模型时的延迟来源进行了研究。以6000万个token的batch大小(据推测这是GPT-4的batch size)为例,我们预计训练运行的计算量将在2e^30到2e^32 FLOP之间,这将导致每层至少270到400微秒的通信延迟。然而,这可能还是一个保守的估计,因为有研究表明,临界batch size大小可能会随着模型规模的增长而增长,如果batch大小可以按照模型规模的立方根比例进行扩展,我们估计,大约3e^30到1e^32 FLOP规模的训练运行将是可行的。目前单节点内的延迟问题
我们的分析首先着眼于单个节点内的延迟,即与单个节点(例如一台装载了多个GPU的服务器)相关的处理延迟。在此背景下,有两种延迟尤为关键:内核延迟反映了一次单独的矩阵乘法操作“matmul”计算所需的时间,而通信延迟则衡量了不同GPU间传输结果所需的时长。我们基于常用的机器学习硬件对这两种延迟进行了估算。实验数据显示,A100 GPU的内核延迟大约为4.5微秒。与此同时,在连接8个GPU的NVLINK pod中,完成一次全归约操作的通信延迟约为9.2微秒。因此,在一个NVLINK pod中,每次矩阵乘法操作的总延迟约为13.7微秒。接下来,我们可以根据这个基础延迟来估算Transformer模型中每一层的延迟。具体来说,一个标准的decoder-only transformer模型的每一层都包含四个连续的矩阵乘法操作,并且我们需要对每一层进行两次处理(分别进行前向和反向传播)。因此,每一层和每一批数据的最小延迟是单次矩阵乘法延迟的八倍,即110微秒。为了估算由延迟限制所允许的最大训练规模,我们需要对模型层数和训练数据量的扩展进行一些假设。我们假设模型的层数大致等于参数数量的立方根,并且训练数据集的大小将与参数数量成比例增长(遵循龙猫法则, Chinchilla Scaling Laws)。具体来说,如果假设每层的最小延迟为120微秒,batch大小为6000万个token,我们可以推算出,在九个月的训练周期内,可以训练的最大模型规模为7000万亿参数,这使得龙猫最优模型能够达到6e31 FLOP的计算量。需要注意的是,如果NVIDIA集体通信库(NCCL)在处理中等大小消息时的全归约操作延迟比目前报道的要慢,那么这个估算可能会过于乐观。未来多节点间的延迟计算
的张量并行通常完全在8-GPU NVLINK pod内进行,正是为了避免在每次连续的矩阵乘法操作中节点间通信。然而,未来持续的扩展将需要节点间的通信,这会不可避免地增加服务器之间的延迟。根据目前标准的InfiniBand树型拓扑,节点间的延迟与通信节点数量成对数关系增长。使用NVIDIA集体通信库(NVIDIA Collective Communications Library, NCCL),一次全归约操作最短时间为:其中N是 NVLINK Pod 内的 GPU 数量,以及 M 是参与的 NVLINK Pod 数量。对于使用二维张量并行的训练运行,pod的数量对应于协调二维张量并行计算的GPU数量。具体来说,每个8-GPU pod内平均有2.75个GPU在通信,总pod数就应该为:例如,使用2000路二维张量并行性的H100集群将涉及16个pods,导致50微秒的延迟。这相较于之前计算的每层400微秒延迟,这个集群大小允许在 9 个月内以60M batch size进行模型训练,达到 7e30 FLOP的训练量。该如何减少这些延迟?
为了显著降低通信延迟,我们可以通过优化网络拓扑结构来实现。例如,网状拓扑可以绕过节点间延迟的对数缩放,但是这需要在所有节点之间实现直接的连接,实现起来会复杂得多。另一种可能的解决方案是使用拥有更多GPU的大型服务器,以此减少服务器间的通信延迟,或者采用更高效的通信协议。例如,为了训练Llama 3.1,Meta对NVIDIA的集体通信库(NCCL)进行了优化,开发了名为NCCLX的版本,它针对高延迟环境进行了特别优化,据称可以在通信过程中减少数十微秒的延迟。我们也可以考虑其他方法,比如增加batch大小或减少模型层数。OpenAI的先前研究将临界batch size大小与梯度相对于训练数据的分散程度联系起来。基于此,研究人员预测batch size可能与模型损失的可减少部分成反比,按照龙猫法则,这大约与模型参数数量的立方根成正比。如果这一假设成立,它可能会令延迟减小一个数量级,具体见图6。目前,关于是否可以减少模型层数的研究还相对较少。一些研究表明,有可能在小幅牺牲性能的前提下,剪枝掉已经训练好的变换器模型中多达一半的中间层。这表明在训练前减少一些层数可能是可行的,尽管这一点还远未有定论,目前暂时不考虑这种可能性。在综合考虑了各种不确定性之后,我们得出结论,要实现超过1e^32 FLOP的扩展,将需要对网络拓扑进行调整,或者寻找其他解决方案。换句话说,由于延迟的存在,当下的模型结构训练规模的上限在1e^32 FLOP左右。08
哪个瓶颈限制最大?
以上文章内容,我们分别探讨了AI持续增长的四个主要瓶颈。综合来看,到2030年高达 2e^29 FLOP 的训练运行将是可行的。这意味着相对于当前GPT-4模型的规模扩大了大约 10,000 倍,如图7所示。在所有限制因素中,电力和芯片供应是最为紧迫的约束,如图7所示。在这两者中,电力问题最为紧迫,但长期来看解决可能相对容易。能源行业较为分散但总体产能很大。且有先例表明,如果提前三到五年进行规划,供应商应该能执行100GW的电力供应扩张。而扩大芯片制造则面临多重挑战:关键流程,如先进的封装技术的发展难以预测,而且建造新的芯片制造厂需要大量的资本投资和高度专业化的劳动力,整体芯片产能提升相对乏力。数据稀缺是最不确定的瓶颈,其不确定性范围跨越了四个数量级。我们对多模态数据的现有存量、质量以及图像标注方法的效率的估计,都比基于文本的数据的估计要不确定。合成数据虽然能实现数据稀缺问题的彻底解决,但是合成数据的可用性和带来的影响尚不明朗。最后,虽然通信延迟的限制是一个遥远的约束,但它是一个未来必须克服的障碍。通过采用更复杂的网络拓扑结构可能会推迟这一障碍的到来。实验室真的会尝试增长到这种规模吗?
根据本文推断,2030年我们将能进行高达2e^29 FLOP的训练运行。达到这一规模将符合历史趋势:迄今为止,最大规模的训练运行约为5e^25 FLOP,按照每年4倍的历史增长率,六年后刚好将达到大约2e29 FLOP的规模。进行此类训练所需的价格将达到数千亿美元。AI行业是否真的会寻求训练这种规模的模型?到目前为止,扩大AI模型的规模一直能够带来能力的提升。这培养了一种以规模扩展为中心的AI发展观,导致训练运行的支出每年增长约2.5倍。据报道,微软和OpenAI正在计划一个名为Stargate的数据中心项目,可能耗资高达1000亿美元,计划在2028年启动。这表明主要科技公司确实准备实现规模的持续扩张。GPT-4之后更大规模模型的发展也能为企业带来非常可观的收益,GPT-5在发布首年就可能创造超过200亿美元的收入。且基座大模型的重大提升,使模型能够无缝融入现有工作流程,产品侧的发展也非常可观。这些进展能进一步证明AI系统的庞大潜在价值,AI的潜在回报是巨大的。所以经济体会很乐意投资数万亿美元来构建数据中心、半导体制造厂等。标准经济模型预测,如果AI自动化能够替代大部分或全部人类劳动,经济增长可能会加速十倍或更多。在几十年内,这种增长可能会使经济产出增加数个数量级。鉴于这一潜力,尽早实现完全或近乎完全的自动化可能价值全球产出的相当一部分。认识到这一巨大价值,投资者可能会将大量资本从传统领域转向AI开发及其基础设施建设。09
尽管充满变数,
2030实现飞跃仍有可能
在本文中,我们通过对限制AI训练规模持续增长关键制约因素进行分析,估算了到2030年AI训练运行的最大可行规模。我们探讨了四大瓶颈类别——电力限制、芯片产能、数据稀缺和延迟限制,并判定这些因素在何种程度上限制更大规模的训练。我们的主要发现是:根据当前趋势,到2030年,实现高达2e29 FLOP的训练运行是可行的。换言之,到2030年,AI实验室有望训练出一个能大幅超越GPT-4的模型,其程度之大,就像GPT-4超越GPT-2一样。第一个关键制约因素是是电网很难提供足够电力。由于电网层面的限制、碳排放承诺和政治因素,到2030年大幅度扩展数据中心的电力供应可能面临诸多挑战。第二个关键制约因素是芯片产能很难做到每年制造数千万片H100级别芯片。如果未来十年内资本支出没有显著增加,即使把可调用的产能全部集中于生产GPU,也很难满足产能需求。总体来看,这些限制条件虽然带来重重挑战,但仍允许AI实验室在2030内继续以每年4倍的速度增长。如果AI这样的持续增长能够保持到2030年,那么AI可能会吸引数千亿级别的投资,成为人类历史上最宏大的技术项目。规模的扩大直接转化为更强的性能和更广泛的应用性,这预示着我们可能会在2030年左右见证AI再一次的重大进步。在我们的研究中,我们尽可能预测AI技术发展轨迹时所面临的不确定性。电力限制和芯片产能主要限制了AI的未来发展,尽管如此,它们也是充满变数的领域。
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业