我要投稿

Azure 最新AI基础设施

发布日期：2024-11-23 04:38:13 浏览次数： 1960 作者：竹言见智

微软在Microsoft Ignite2024大会上，发布了云和AI基础设施的重大更新，包括从芯片、软件、服务器和机架液冷，再到新的数据集成，以及更灵活的云端部署等整体技术栈。本文重点介绍Azure Boost DPU、液冷机架、Azure ND GB200 v6虚机、基于CPU的Azure HBv5虚机、Azure Cobalt 100 CPU虚机、Azure Maia 100 AI加速器、Azure 集成HSM（硬件级安全模块）等内容。

文章较长，为方便快捷阅读，整体目录如下。

Azure Boost DPU
Azure ND GB200 v6虚机及机架
针对HPC优化基于CPU的Azure HBv5虚机
云上通用计算Azure Cobalt 100 CPU虚机
Azure Maia 100 AI加速器
Azure 集成HSM（硬件级安全模块）

Azure Boost DPU

DPU的设计以满足以数据为中心处理器架构需求，针对性的做了优化，关于DPU和数据中心可参考前文基于BlueField DPU的高性能数据中心存储。

Azure Boost DPU作为Microsoft的第一个内部 DPU，专为Azure基础设施构建，旨在以高效率和低功耗运行Azure上的工作负载。

将高速Ethernet和PCIe接口、网络和存储引擎、数据加速器和安全功能集成到一个完全可编程的SoC中。
与现有 CPU 相比，DPU预估能够以低 3 倍的功耗和 4 倍的性能运行云存储工作负载。

Azure ND GB200 v6虚机和机架

前文分享过NVL72机架设计及Azure Blackwell GPU服务器，但Azure上具体的细节则在本文给出。

Nvidia向OCP捐赠GB200 NVL72设计，包括机架、液冷、电源等关键部分
微软Azure成为首个运行Blackwell GB200的云平台

这两年虚机经过了从去年的NC H100 V5到今年10月的ND H200 V5，再到当前的ND GB200 v6系列的迭代，该VM将NVIDIA GB200 NVL 72机架设计与最新Quantum InfiniBand相结合，可连接万级Blackwell GPU。

该虚机包含2个NVIDIA GB200 Grace Blackwell超级芯片，每个芯片包含了1个Grace CPU和2个Blackwell GPU，两者通过nvlink-c2c互联。同时还包含1个boost DPU，1个集成HSM。

VM可通过nvlink交换机托盘扩展18个计算服务器，这表示单个nvlink域中最多可支持72 = 18 * 2 * 2个Blackwell GPU。VM间通过最新Quantum Infiniband连接，可scale-out到万级GPU集群。

更多性能数据可先参考10月的ND H200 v5虚机数据，该虚机比上一代ND H100 v5，HBM增加76%达到141GB，HBM带宽增加43%达到4.8TB/s，同时OpenAI以使用ND H200 v5虚机来则增强ChatGPT。

ND H200 v5在 MLPerf上的训练延迟基准数据如下图所示，右侧红色表示训练延迟。主要对比azure平台的ND H200 v5与Nvidia DGX H200及DGX B200。

（来源：https://mlcommons.org/benchmarks/training/）

机架方面采用sidekick设计（下文的Maia机架设计类似），在GB200机架旁边放一个液冷sidekick机架，冷却液通过芯片冷板上通道循环流动，进行热量吸收和传输。同时与meta合作开发了分离式电源机架设计，提高灵活和扩展性。还配备400V直流电，可增加35%的AI加速器以满足不同AI负载需求。

针对HPC优化基于CPU的Azure HBv5虚机

该虚机针内存密集型HPC负载进行优化，包含4个定制的第4代EPYC™处理器。更多EPYC介绍可参考前文，AMD最新AI端到端基础设施。

每个HBv5虚机特性包括：

提供近7TB/s的内存带宽，与最新的裸机和云替代方案相比有8倍性能提升管，比 Azure HBv3 和 Azure HBv2（具有 3D V-cache “Milan-X”的第 3 代 EPYC™ 和第 2 代 EPYC™ “Rome”）高出近 20 倍。
提供了 800 Gb/s 的 NVIDIA Quantum-2 InfiniBand 网络连接，单个CPU SoC 200 Gb/s。
拥有400-450G的HBM3内存，14TB的本地NVMe SSD，读写速度分别可达50GB/s和30GB/s。
单租户设计，禁用SMT超线程。

云上通用计算Azure Cobalt 100 CPU虚机

Cobalt CPU基于64位Arm架构，专为Microsoft云上通用计算任务而定制，旨在优化整个数据中心的每瓦性能。基于 Cobalt 100 的 VM 包括新的通用 Dpsv6 系列和 Dplsv6 系列，以及内存优化过的Epsv6 系列。相较于上一代基于Arm的VM，这些虚机性价比最高提升50%。

CPU 性能最高可达 1.4 倍，基于 Java 的工作负载性能最高可达 1.5 倍，Web 服务器、.NET 应用程序和内存中缓存应用程序的性能最高可达 2 倍。
还支持 4 倍的本地存储 IOPS（使用 NVMe）和高达 1.5 倍的网络带宽。
提供了多种配置选项，新的Epsv6/Epdsv6 VM包括高达96个vCPU和672GB的RAM（内存:vCPU比率高达8:1），以及内存与vCPU的不同比例配置，以满足不同的工作负载需求。