微信扫码
与创始人交个朋友
我要投稿
我是Stephen Jones,CUDA的架构师之一。我的主要工作是从软件和硬件的角度定义GPU的编程方式。这包括设计像CUDA这样的编程语言,也包括确保GPU硬件架构能够高效支持这些语言的功能需求。换句话说,我的大部分时间都花在研究计算的本质(计算是如何工作的),以及如何让软件和硬件更好的协同工作。
其实,我很少专门为这个主题准备演讲。每年夏天,我都会在白板上为实习生讲解这些内容。对于参加GTC的你们,我想分享一下我对GPU工作原理的理解,以及硬件如何影响编程方式,或许会让你们感到有趣。你们可能会惊讶地发现,物理定律和硬件特性在很大程度上决定了我们如何设计程序来驱动这些机器。
我把这个演讲命名为《GPU计算是如何工作的》,不过后来我觉得,这个名字不够贴切,或许应该叫《为什么GPU计算有效》。因为当你真正了解了GPU的工作原理,就能更好地根据自己的需求去利用它。再后来,我又想了想,意识到最合适的标题其实是《我的数据在哪里》。因为归根结底,数据才是最关键的。
我将从一个可能有些争议的观点开始:实际上,没有人真正关心FLOPS。FLOPS,也就是每秒浮点运算次数,通常用来衡量一台机器的数学计算能力。所以,大多数人在购买机器时,都会问它有多少FLOPS,而我告诉你,这并不是你需要关注的重点。FLOPS并不能决定机器的真正价值。
为什么我认为没人应该关心FLOPS呢?如果你看一台现代的CPU,它的内存带宽可以达到200GB/s,而CPU每秒可以进行大约2000亿次运算,也就是2T FLOPS。
200GB/s的内存带宽,意味着每秒可以传输25亿个双精度浮点数(每个双精度浮点数是8字节)。尽管这是大量的数据,但我的CPU每秒可以处理2000亿个双精度浮点数。这两个数字之间的比率就是所谓的”计算强度“,它表示设备需要做多少运算,才能弥补内存无法满足其计算需求的差距。
在这个例子中,我需要在每个数据上执行80次操作才能达到”平衡“。如果每个数据的计算少于80次,我的处理器就无法得到充分利用,甚至可能还不如选择一台更便宜的CPU。这个要求非常高,毕竟并不是所有算法都能在每个数据上做这么多操作。事实上,只有一个非常重要的算法符合这一要求,那就是矩阵乘法,稍后我会详细讲解。
这是一个简单的表格,展示了不同处理器的计算强度,你会看到不同的处理器的计算强度差不多——这对我的程序来说并不是好消息。有趣的是,虽然NVIDIA芯片的FLOPS更多,但它也有更高的内存带宽来平衡这一点,这并非巧合。这并非巧合,你总是试图将计算强度保持尽可能低,因为实际上没有算法能做到每次加载执行100次操作,或者每次加载执行134次操作。
计算领域有一个不为人知的真相:每一代新的处理器,我可以通过增加FLOPS来提升计算性能,速度比提升内存带宽还要快。因此计算强度在不断增加,而我们总是在与计算强度作斗争,因为这些”怪物“处理器需要更多的数据来保持忙碌。
我为什么认为FLOPS并不重要呢?老实说,我们已经有足够的FLOPS了,而且情况只会变得更糟。如果我不能让CPU保持忙碌状态,那我就处于所谓的“内存带宽限制模式”,而实际上,绝大多数程序都处于这种状态。我猜测,我遇到的程序中,至少有四分之三完全受内存带宽的限制,因为每次加载100次操作是很难做到的。
实际上,这还不是全部。我们应该关心的真正问题是延迟,当然我们也应该关注带宽和浮点运算数(flops),但让我们先谈谈延迟。那么,为什么我们要关注延迟呢?
我们来看一个简单的操作:ax + y = z,这就是所谓的DAXPY的操作(双精度数乘加运算),如果使用单精度浮点数,这个操作叫做SAXPY(单精度数乘加运算)。你会看到很多基准测试涉及这个操作,但其实你可以忽略它。它是一个基础构件,非常常见且重要,以至于处理器专门为此设计了一条指令,叫做FMA(乘加指令)。FMA可以在一个指令内同时执行乘法和加法,从而让这些操作能够一起完成,更加高效。
请注意,我在计算时只关注加载操作(loads),而不是存储操作(stores),现代计算机架构中,存储操作通常不会阻塞处理器的执行,而是将数据写入内存的过程中可以并行执行其他操作。因此我不需要等待存储操作完成,重要的是load加载操作,这是我必须等待的,这些加载操作的延迟会影响我所需要进行的浮点预算(FLOPS)数量。
接下来,我们来看一下时间线。首先,我需要加载x,然后加载y不依赖x,因为公式是ax + y。所以,我会同时发出加载y的请求,然后等一段较长时间,直到x的数据加载完成。接下来,有两个操作几乎同时发生。我可以立即开始执行ax的乘法,因为x已经准备好了,这项工作所需要的时间远小于x的加载延迟。因此当ax准备好要与y相加时,或者y已经加载完成,y的加载几乎是“免费”的了,因为它是在x之后立即开始的。这个过程叫做流水线,它允许我们在执行其他有用工作时,隐藏掉额外的内存操作。
流水线几乎是编程的核心要素,可能你在编写程序时没有太多考虑这个问题,但编译器几乎所有的工作都实在优化流水线操作,它会确保尽早的发出加载操作,这样就能通过更多的计算来掩盖加载操作的延迟。编译器实际上会调整你的代码,以实现这种效果。流水线是大多数程序优化的核心,因为内存的使用至关重要。
问题在于,内存的延迟相对于计算的延迟要大得多。这是一个物理学问题,因为光速非常快(30万公里/秒),而我的计算机时钟也非常快(3GHz)。但是在一个时钟周期内,光只能传播10厘米(大约4英寸)。实际上,计算机时钟运行如此之快,以至于光在一个时钟周期内并没有传播很远。实际上,电流在在硅材料中得传播速度大约是光速的五分之一。虽然物理原理很复杂,但这里有一个简单的经验法则:在一个时钟周期内,电流只能传播大于20毫米。所以,想象一下芯片的尺寸,电流可能需要1到2个时钟周期,才能从芯片的一侧传到另一侧,即使它什么都不做,只是沿直线传播。当你看到处理器的延迟报告,比如5、6或7个时钟周期时,这其实是非常惊人的,因为电流的传播速度已经接近我的计算速度。因此,物理规律直接影响着从内存中获取数据的速度。我的内存可能需要5到10个时钟周期来访问,而返回数据可能还需要额外的5到10个时钟周期。
实际上,问题并完全在于内存的距离,根本原因在于所有的晶体管都在信号传输的路径上。电路的工作原理是,信号从一个晶体管组传递到下一个组,完成所有逻辑运算。这些晶体管在时钟的驱动下不断开关。电信号的传递速度是受时钟周期限制的。因此,虽然光速时一个因素,但它并不是最关键的。实际上,晶体管流水线的深度才是影响速度的主要因素。
接下来,我们来看一下等待数据的时间会带来什么成本。如果你还记得,我之前说我买了一个过于昂贵的CPU,因为我无法让它保持忙碌。我有太多的浮点运算数(flops),我希望内存能够一直满负荷工作。为了更好的理解这一点,我选取了一些数字,假设使用的是Xeon 8280处理器,它有131GB内存,内存访问延迟为89纳秒。这个延迟值本身并不关键,你将看到它对结论的影响不大。假设内存带宽是131GB/s,那么在一个时钟周期内,我可以传输11659字节的数据。
在这个例子中,DAXPY 每次只加载 x和 y两个 8 字节的值,总共加载了 16 字节的数据。这导致整体效率仅为 0.14%,表现非常低。即使配备了高带宽内存来增强计算能力,但实际上,我几乎没能真正利用这些资源。换句话说,我花了大价钱升级 CPU 和高性能内存,却没有从中获得预期的性能提升。
如果看所有处理器的效率,你会发现结果都很差。令人意外的是,0.14% 的效率值已经是这些处理器中表现最好的了。这是因为程序的表现受限于延迟——这是一种内存瓶颈,比你想象的还要常见。因此,我对计算性能(FLOPS)几乎不关心,因为即使内存带宽都没法满足需求,更别提充分利用 FLOPS 性能了。
有趣的是,GPU 的表现比其他处理器还差很多。这主要与 GPU 的编程方式有关,我将在后续详细说明。现在,我们来探讨如何解决这个问题。
为了达到理想的内存效率,我需要进行729 次 DAXPY 迭代,这意味着每次计算需要同时处理 729 个任务。这个数字是通过将 11,659 次计算除以每次 16 字节的数据量得出的。为了解决低内存效率的问题,必须并行处理大量任务。
1.并发:并发是指同时执行多个任务,虽然这些任务不一定真正同时运行,但它们可以独立进行。举个例子,编译器有一种优化技术称为循环展开(loop unrolling)。通过将独立操作展开,多个操作可以同时启动。比如,我们可以在同一时间加载x和y,并通过循环展开来连续多次执行这些操作。
然而,循环展开的效果受到硬件限制。硬件能够同时跟踪和调度的操作数量有限,只有那么多操作可以在流水线中处理,之后就必须等待这些操作完成。硬件会跟踪每个请求,直到它完成为止。因此,即使硬件能够处理 729 个并发加载请求,线程还需完成后续的 729 次计算。这使得循环展开虽然有助于流水线优化,但受硬件架构的限制。
2.并行:并行则更进一步,意味着任务真正同时运行。并行计算中,每个线程在同一时间执行一个操作,具体受硬件支持的线程数限制。实际上,可以将循环展开与多线程并行结合起来,减少所需的线程数。但为了说明问题,我们假设硬件限制每次运行 729 个线程,并观察结果。
并行任务是完全同时执行的,而并发任务则是独立进行的。虽然循环展开能让多个操作连续执行,但并行性允许每个线程同时发起一个操作,直至硬件的线程数上限。
实际上,我们可以结合循环展开和多线程操作来利用硬件的并行能力,这样可以减少需要的线程数,但这仅仅是一个简单的示例。现在,我们来看看理想情况下,如何通过线程数量来覆盖内存延迟。
通过分析内存系统延迟,我们可以得出在理想情况下覆盖延迟所需的线程数。结果表明,我们需要大量线程才能掩盖内存延迟。
有趣的是,GPU 的延迟更高,但其带宽也更大,这意味着它大约需要40 倍于 CPU 的线程数才能弥补延迟。然而,GPU 的硬件设计允许同时运行比 CPU 多出 100 倍的线程数。因此,GPU 实际表现更好,它有5.5倍的线程数来处理这些任务。相比之下,CPU只能在很小的范围内提供线程数,这是 GPU 和 CPU 在延迟问题上的根本区别。
这也是GPU的设计理念之一—超订阅设计。GPU设计上预期会有大量的同时工作,这样即使某些线程在等待内存,仍有很多线程在继续执行。GPU称为吞吐量机器,它的设计思路是通过增加线程数来提高吞吐量,而不是降低延迟。CPU 则相反,它是延迟机器,其设计重点是降低单线程延迟。由于切换线程的代价高昂,CPU 通常只运行刚好足够覆盖延迟的线程数量。两者是解决同一延迟问题的完全相反的设计方式,这也是 GPU 和 CPU 在工作原理上的根本差异。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-23
CPU、GPU 和 TPU 之间有什么区别
2024-12-21
台前调度是未来XR、AI工作流的重要交互方式
2024-12-21
NVIDIA全栈AI战略:从GPU到AI工作流的演进
2024-12-21
深度|AI 的下个十年,藏不住了!
2024-12-20
突破科技界限:OPPO 与 Azure 携手塑造智能手机新体验|智有可为
2024-12-20
Nvidia 的 CUDA 护城河到底有多深?
2024-12-20
9.3K Star 全能电脑AI助手!ScreenPipe:离线版 Rewind.ai,智能记录你的电脑活动
2024-12-20
火山引擎与FoloToy,乐鑫等企业联合发布 AI + 硬件智跃计划
2024-03-30
2024-05-09
2024-07-07
2024-07-23
2024-07-01
2024-06-24
2024-06-08
2024-06-05
2024-06-21
2024-07-11
2024-12-20
2024-12-15
2024-11-12
2024-11-11
2024-10-29
2024-10-22
2024-10-18
2024-10-16