AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


英伟达H100那么牛,为啥不能玩《黑神话悟空》?
发布日期:2024-08-25 08:54:54 浏览次数: 1747


说起玩“黑神话”的电脑配置,大家都在吹自己的4090显卡。

可是比4090贵了几十倍的H100,同样是“GPU”,为啥却不能用来玩游戏?

这个问题,猛一看,很弱鸡啊。

但问到具体原因,很多人却说不出个456来。

今天我就简单捋捋,除了接口之外,其他更重要的原因↓

01

架构设计的差异

最核心的一点在于两者的架构差异,架构决定了彼此的核心能力不一样。

RTX4090采用了N记的Ada Lovelace架构,专注于游戏和高级图形处理,这种架构在游戏性能上有贼拉牛B的优化,包括高级的图形渲染技术如光线追踪和DLSS。

RTX4090总共包含 16384 个 CUDA 核心和 512个第四代 Tensor 核心,以及 128 个第三代 RT(光线追踪)核心。
下面这个是其单个SM的架构图,4090由128个这样的SM组成。

提升游戏体验的几大黑科技,都是靠这些核“肝”出来的。
比如光追效果主要依靠RT核,而DLSS包括抗锯齿、超分辨率、光线重建等等,主要依赖Tensor核心和CUDA核心提供的AI增强图形效果。
玩烧机游戏的都懂,开不开光追效果,体验完全不一样。


而H100的则是基于Hopper架构,主要针对大规模并行处理和AI任务进行优化,而非图形渲染。

H100包括了16896个CUDA核心和528个第四代Tensor核心,注意,没有对图像渲染至关重要的光追核心(RT Core)。
下图是H100单个SM的架构示意,H100由132个这样的SM组成。

看对比图就发现差别了,虽然H100拥有更多的CUDA核心和Tensor核心,但这些核心是面向复杂计算和深度学习模型训练的。
比如,H100的CUDA核心支持FP64、FP32、TF32、BF16、INT8等多种数据类型的高效计算。
而4090的CUDA核心就不一样了,人家主攻图形密集应用,只针对单精度和双精度做了优化。


02

驱动和API的支撑大不一样

H100除了内核优化和设计的硬伤,还有一个大问题。
N记为游戏级GPU(也4090为代表的Geforce系列)提供了专门的游戏驱动,优化游戏性能和兼容性。H100则没有。
这就是导致H100无法支持DirectX、OpenGL、Vulkan等主流游戏API(严格说是理论上支持),也不支持Unity、虚幻、Godot这些主流的游戏引擎。
比如,黑神话悟空采用的就是虚幻引擎5。
基本上,这两条就断绝了拿H100玩游戏的任何念想。当然我们可以堆砌些理由↓
成本的问题:我一个4090都买不起的小卡拉米,我会考虑拿贵几十倍的H100来玩游戏吗?
电源和散热的问题:H100的功耗和热输出设计用于机架式服务器环境,对用游戏PC来说,有极大的挑战。




所以呢,4090这种GPU,可以叫显卡,或者图形加速卡。
而H100这种GPU,更准确的叫法其实是GPGPU(General-Purpose GPU),我更愿称之为AI加速卡。
好了,不扯了。
是时候把我的珍藏20多年的TNT2翻出来插上,畅玩《黑神话悟空》了


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询