我要投稿

NVIDIA 推出世界上最强大的人工智能芯片 Blackwell B200

发布日期：2024-05-17 06:48:51 浏览次数： 2595 作者：科技词话

NVIDIA 在 2024 年 3 月 19 日的GTC大会上发布了最新的Blackwell架构 GPU。Blackwell GPU以数学家David Harold Blackwell的名字命名，David Harold Blackwell（1919年4月24日 - 2010年7月8日）是一位杰出的美国数学家，他在统计学、概率论和信息论等领域做出了重要贡献。Blackwell的工作对现代统计理论和实践产生了深远的影响，他尤其以Blackwell定理和Blackwell足够性原理而闻名。

黄仁勋在发布会上介绍的主要产品包括B200、B100以及GB200，这一代采用的是台积电4NP工艺，Blackwell 架构下的计算芯片拥有 1040 亿个晶体管，比起上一代 GH100 GPU 上的 800 亿个晶体管，实现了又一次突破。这几个型号的具体区别可以参见下图：

其中B100可以认为是B200的青春版，是Blackwell架构中比较强调性价比的一款GPU，B100一个很大的特点是，它维持了跟H100一样的功耗，都是700W，所以在跑训练的时候，一定会出现降频的情况。

两颗B200再加上一颗Grace CPU就构成了GB200，可以为LLM推理工作负载提供30倍的性能加速。

一个GB200包含两个B100，和一个Grace CPU

Nvidia声称，训练一个1.8万亿参数模型之前需要8,000个Hopper GPU和15 兆瓦的功率。如今，Nvidia首席执行官表示2,000 个Blackwell GPU就可以做到这一点，而功耗仅为 4 兆瓦。

此外，黄仁勋还发布了由36个Grace CPU和72个Blackwell GPU组合而成的服务器GB200 NVL72。它将36个CPU和72个GPU插入一个液冷机架中，总共 720petaflops。GB200 NVL72内部有近两英里长的电缆，共有 5,000 根单独的电缆。

GB200 NVL72

目前，亚马逊、谷歌、微软和甲骨文都已经计划在其云服务产品中提供 NVL72 机架，但具体可以提供的数量未知，这其实很大一部分取决于台积电的产能。

同时，Nvidia还发布了DGX Superpod，GB200 SuperPod 由 8 个 NVL72 组成，共 576 个Blackwell GPU。

根据英伟达的消息，本次Blackwell GPU一项关键改进是第二代 Transformer 引擎，它通过引入FP4精度，使计算、带宽和模型大小得到了显著提升。虽然FP4精度官网宣传的很香，但实际落地还有很长的路要有，因为现在FP8精度都没有得到广泛普及，目前国内LLM公司公开宣布使用FP的只有零一万物。

FP8 采取 E4M3 和 E5M2 两种表示方式，其中 E 代表指数位（Exponent），M 代表尾数位（Mantissa）。在表示范围内，E4M3 更精准，而 E5M2 有更宽的动态范围。与传统的 FP16（16位浮点数）和 FP32（32 位浮点数）相比，它显著减少了存储，提高了计算吞吐。

黄仁勋表示，B200的售价可能在3万到4万美元之间。这个定价低于一些分析师之前的预期，但黄仁勋希望新芯片的定价能吸引尽可能多的客户。

目前英伟达正在与台积电合作，避免出现芯片封装瓶颈，正是因封装瓶颈致使其上一代旗舰AI处理器的H100出货速度放缓。虽然黄仁他预计B200将于2024年晚些时候发货。但根据英伟达一贯跳票的习惯，我估计B200正式交付应该在明年上半年，这也是为了给近期刚上市的H200尽可能留出一段流通时间，不然大家都直接跳过H200，去买B200了。