说起玩“黑神话”的电脑配置,大家都在吹自己的4090显卡。
可是比4090贵了几十倍的H100,同样是“GPU”,为啥却不能用来玩游戏?这个问题,猛一看,很弱鸡啊。
但问到具体原因,很多人却说不出个456来。
今天我就简单捋捋,除了接口之外,其他更重要的原因↓
最核心的一点在于两者的架构差异,架构决定了彼此的核心能力不一样。
RTX4090采用了N记的Ada Lovelace架构,专注于游戏和高级图形处理,这种架构在游戏性能上有贼拉牛B的优化,包括高级的图形渲染技术如光线追踪和DLSS。
RTX4090总共包含 16384 个 CUDA 核心和 512个第四代 Tensor 核心,以及 128 个第三代 RT(光线追踪)核心。下面这个是其单个SM的架构图,4090由128个这样的SM组成。提升游戏体验的几大黑科技,都是靠这些核“肝”出来的。比如光追效果主要依靠RT核,而DLSS包括抗锯齿、超分辨率、光线重建等等,主要依赖Tensor核心和CUDA核心提供的AI增强图形效果。
玩烧机游戏的都懂,开不开光追效果,体验完全不一样。
而H100的则是基于Hopper架构,主要针对大规模并行处理和AI任务进行优化,而非图形渲染。
H100包括了16896个CUDA核心和528个第四代Tensor核心,注意,没有对图像渲染至关重要的光追核心(RT Core)。
下图是H100单个SM的架构示意,H100由132个这样的SM组成。
看对比图就发现差别了,虽然H100拥有更多的CUDA核心和Tensor核心,但这些核心是面向复杂计算和深度学习模型训练的。比如,H100的CUDA核心支持FP64、FP32、TF32、BF16、INT8等多种数据类型的高效计算。而4090的CUDA核心就不一样了,人家主攻图形密集应用,只针对单精度和双精度做了优化。H100除了内核优化和设计的硬伤,还有一个大问题。
N记为游戏级GPU(也4090为代表的Geforce系列)提供了专门的游戏驱动,优化游戏性能和兼容性。H100则没有。这就是导致H100无法支持DirectX、OpenGL、Vulkan等主流游戏API(严格说是理论上支持),也不支持Unity、虚幻、Godot这些主流的游戏引擎。基本上,这两条就断绝了拿H100玩游戏的任何念想。当然我们可以堆砌一些理由↓成本的问题:我一个4090都买不起的小卡拉米,我会考虑拿贵几十倍的H100来玩游戏吗?
电源和散热的问题:H100的功耗和热输出设计用于机架式服务器环境,对用游戏PC来说,有极大的挑战。
所以呢,4090这种GPU,可以叫显卡,或者图形加速卡。而H100这种GPU,更准确的叫法其实是GPGPU(General-Purpose GPU),我更愿称之为AI加速卡。是时候把我的珍藏20多年的TNT2翻出来插上,畅玩《黑神话悟空》了