AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


NVIDIA 推出世界上最强大的人工智能芯片 Blackwell B200
发布日期:2024-05-17 06:48:51 浏览次数: 1799


NVIDIA 在 2024 年 3 月 19 日的GTC大会上发布了最新的Blackwell架构 GPU。Blackwell GPU以数学家David Harold Blackwell的名字命名,David Harold Blackwell(1919年4月24日 - 2010年7月8日)是一位杰出的美国数学家,他在统计学、概率论和信息论等领域做出了重要贡献。Blackwell的工作对现代统计理论和实践产生了深远的影响,他尤其以Blackwell定理和Blackwell足够性原理而闻名。

黄仁勋在发布会上介绍的主要产品包括B200、B100以及GB200,这一代采用的是台积电4NP工艺,Blackwell 架构下的计算芯片拥有 1040 亿个晶体管,比起上一代 GH100 GPU 上的 800 亿个晶体管,实现了又一次突破。这几个型号的具体区别可以参见下图:

其中B100可以认为是B200的青春版,是Blackwell架构中比较强调性价比的一款GPU,B100一个很大的特点是,它维持了跟H100一样的功耗,都是700W,所以在跑训练的时候,一定会出现降频的情况。

两颗B200再加上一颗Grace CPU就构成了GB200,可以为LLM推理工作负载提供30倍的性能加速。

一个GB200包含两个B100,和一个Grace CPU

Nvidia声称,训练一个1.8万亿参数模型之前需要8,000个Hopper GPU和15 兆瓦的功率。如今,Nvidia首席执行官表示2,000 个Blackwell GPU就可以做到这一点,而功耗仅为 4 兆瓦。

此外,黄仁勋还发布了由36个Grace CPU和72个Blackwell GPU组合而成的服务器GB200 NVL72。它将36个CPU和72个GPU插入一个液冷机架中,总共 720petaflops。GB200 NVL72内部有近两英里长的电缆,共有 5,000 根单独的电缆。

GB200 NVL72

目前,亚马逊、谷歌、微软和甲骨文都已经计划在其云服务产品中提供 NVL72 机架,但具体可以提供的数量未知,这其实很大一部分取决于台积电的产能。

同时,Nvidia还发布了DGX Superpod,GB200 SuperPod 由 8 个 NVL72 组成,共 576 个Blackwell GPU。

根据英伟达的消息,本次Blackwell GPU一项关键改进是第二代 Transformer 引擎,它通过引入FP4精度,使计算、带宽和模型大小得到了显著提升。虽然FP4精度官网宣传的很香,但实际落地还有很长的路要有,因为现在FP8精度都没有得到广泛普及,目前国内LLM公司公开宣布使用FP的只有零一万物。

FP8 采取 E4M3 和 E5M2 两种表示方式,其中 E 代表指数位(Exponent),M 代表尾数位(Mantissa)。在表示范围内,E4M3 更精准,而 E5M2 有更宽的动态范围。与传统的 FP16(16位浮点数)和 FP32(32 位浮点数)相比,它显著减少了存储,提高了计算吞吐。


黄仁勋表示,B200的售价可能在3万到4万美元之间。这个定价低于一些分析师之前的预期,但黄仁勋希望新芯片的定价能吸引尽可能多的客户。

目前英伟达正在与台积电合作,避免出现芯片封装瓶颈,正是因封装瓶颈致使其上一代旗舰AI处理器的H100出货速度放缓。虽然黄仁他预计B200将于2024年晚些时候发货。但根据英伟达一贯跳票的习惯,我估计B200正式交付应该在明年上半年,这也是为了给近期刚上市的H200尽可能留出一段流通时间,不然大家都直接跳过H200,去买B200了。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询