微信扫码
与创始人交个朋友
我要投稿
此演讲讨论了meta构建AI应用网络时遇到的挑战,如AI 应用的多样性,以及它们对基础设施的不断变化的需求等。然后分享了meta从灵活的基础设施、大型GPU集群及前后端网络联合优化等方面解决问题,并强调了测试和基准的重要性。
Meta的AI基础设施经历了多次迭代演进,可以归纳为以下几个方面:
训练模式的演进:最初依赖CPU进行训练,后来转向GPU加速。
分布式系统的构建:随着AI模型规模的增长,Meta开始构建分布式训练系统,以支持更大规模的模型训练。
网络架构的优化:Meta采用了基于RoCE(RDMA over Converged Ethernet)的网络架构,这种架构提供了高效的数据传输能力,适合AI训练中的数据密集型任务。
CLOS拓扑结构的应用:Meta采用了CLOS拓扑结构来设计其网络,这种结构通过leaf交换机和spine交换机的层次化设计。
硬件层面的挑战与克服:在规模化基础设施的发展过程中,Meta面临并解决了路由、传输和硬件层面的诸多挑战和问题。
meta AI应用场景丰富,主要涵盖ranking、推荐和生成式AI等场景。
挑战1, 设计灵活的基础设施。设计能够适应不同 AI 模型和用例的基础设施,包括排名和推荐系统、内容理解、语音转文本等
举个例子做下简单的说明,
生成式AI模型通常在由数千至上万台Nvidia A100 GPU组成的集群上运行,所需的基础设施规模已经达到zettaFLOPS级别,即每秒10的21次方次浮点运算。
为了满足这种级别的计算需求,基础设施必须具备极高的性能和扩展能力。目标是构建一个每秒能进行20 exaFLOPs(10的18次方次浮点运算)的集群,以便快速训练大型模型。
与早期模型相比,当前目标是在一天或小时级别时间内完成与LLaMA(一个拥有650亿参数的模型)同样规模的模型训练,而早期模型可能需要数天甚至数周。
以下是rank、推荐、生成式AI模型的差异雷达图,可以看到生成式AI与另外两个场景,以及在训练和推理阶段的差异性。同时大模型训练推理因其特殊性,在推理阶段也会细化为prefill和decoding阶段,而两者在计算、内存、网络等资源需求方面差异性也很大。
排名和场景的训练系统,采用的flat fabric扁平化架构,可以同时处理多个任务,其中主要有一个运行着ethernet/RoCE的的4千个GPU集群。
大模型训练系统上述场景每天都要训练数百或数千个基础模型,一般是运行几个大型任务,这些任务会占用整个集群,每天执行ZettaFLOPs次运算。
(截止分享时间前,即23年底前)meta计和部署的是一个支持3.2万个GPU的InfiniBand和RoCE集群,专门用于大型语言模型的训练。以下InfiniBand集群的设计。而23年前则是构建1.6万个GPU的InfiniBand集群。
meta对于open持开放态度,包括开放系统、网络-存储、机架设计、模型等。
挑战2,生产过程中的规划、建设、测试、部署工作更加复杂和繁琐。因为涉及不同类型问题,不同产品线的组件,产品迭代开发等,而所有的这些都只是整体解决发方案中一小部分而已。
下图为meta训练后端集群一部分,包含rank RoCE、LLM RoCE及Infiniband等;A100到H100以及后续GB200;还有不同类型交换机、NIC等。
同时在构建布线系统时,比如从100G升级到200G,或从200G升级到400G,这些升级以及像Wedge 40、Wedge 100或Wedge 400等产品使用寿命较长,所以提供服务及迭代周期也更长。但在AI领域需求变更快,迭代时间短,对基础设施是一个巨大的挑战。
除GPU外meta也在自研ASIC芯片。
以上只讨论后端网络训练部分,与之对应的前端网络则承载着所有计算、存储等任务。两套系统需协同工作以提供高质量服务。
以下则是生产实践环境中的测试和benchmarking方案,有助于开发研究者对系统性能有更清晰的认识,也更方便做优化。
同时在做系统整体优化、升级过程中,也会对软硬件性能做整体重新评估,然后选择最优方案。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-21
2024-04-11
2024-07-09
2024-08-13
2024-07-18
2024-10-25
2024-07-01
2024-06-17