卖铲子相比蜂拥去淘金,永远是更好的选择。在大模型风靡全球、蕴含极大商业价值的今天,「先进铲子」之间的竞赛,正趋向白热化。
大模型时代的掘金铲子:AI计算加速芯片
如今的AI计算加速芯片眼花缭乱。GPU、NPU、TPU、VPU,新概念层出不穷,手机 SoC、PC 处理器、车端智驾和座舱芯片、高性能 AI 计算大规模服务器集群,AI 计算加速几乎无处不在。然而万变不离其宗,按计算的通用性,AI 计算大概可以分为 CPU、GPU、FPGA、和 ASIC(NPU/TPU),按使用场景,可以分为训练芯片、云端推理芯片和边缘侧的推理芯片。我们知道 CPU 遵循传统的存储-控制-运算的冯·诺依曼架构,核心是存储程序/数据,串行顺序执行。CPU 的架构需要大量的空间去放置高速缓存单元和控制单元,现代 CPU 在分支预测和乱序执行上的要求更高,不断新增的长指令集更进一步强化了复杂的逻辑控制单元,相比之下 CPU 计算单元只占据了很小的一部分。大规模并行计算方面,CPU 天然的效率很低,更适合处理复杂的逻辑控制和通用计算。与 CPU 相比,GPU 80% 以上的晶体管面积都是计算核心,即 GPU 拥有非常多的用于数据并行处理的计算单元,可以高效运行物理计算、比特币挖矿算法等。GPU 还可以为两种,一种是主要搞图形渲染的,我们熟悉的 GPU(游戏)显卡;另一种是主要搞计算的,叫做 GPGPU,也叫通用计算图形处理器(科学计算),A100、H100 就是代表。GPGPU 芯片去掉了针对图形渲染的专用加速硬件单元,但保留了 SIMT(单指令多线程)架构和通用计算单元,计算的通用性更强,可以适用于多种算法,在很多前沿科学计算领域,GPGPU 是最佳选择。FPGA 是一种半定制芯片,作为灵活可编程的硬件平台,同时具有较高的计算性能和可定制性,芯片硬件模块、电路设计更为灵活,但缺点是专用 AI 计算的效能比 ASIC 差一些。ASIC 是一种为专门目的而设计的芯片(全定制),根据特定算法定制的芯片架构,算力强大,但专业性强缩减了其通用性,算法一旦改变,计算能力会大幅下降,需要重新定制。我们知道的 NPU、TPU 就是这种架构,都属于 ASIC 定制芯片。CPU、GPU、NPU 架构区别如下图,CPU 最为均衡,可以处理多种类型的任务,各种组件比例适中;GPU 则减少了控制逻辑的存在但大量增加了 ALU 计算单元,提供给我们以高计算并行度;而 NPU 则是拥有大量 AI Core,这可以让我们高效完成针对性的 AI 计算任务。GPU 相比 CPU 有更多的并行计算核心NPU 相比 CPU 和 GPU,有大量专门进行大矩阵乘法和卷积运算的 AI CoreASIC 思想下的 AI 芯片作为一种专用处理器,通过在硬件层面优化深度学习算法所需的大矩阵乘法、张量运算、卷积运算等关键运算,可以显著加速 AI 应用的执行速度,降低功耗。与在通用 CPU 上用软件模拟这些运算相比,AI 芯片能带来数量级的性能提升。因此,AI 芯片已成为如今大模型训练和推理的关键载体。
AI 专用处理器的发展最早可以追溯到 2015 年。2015 年 6 月,谷歌 I/O 开发者大会上推出第一代神经网络计算专用芯片 TPU,专门用于加速 TensorFlow 框架下的机器学习任务。区别于 GPU,谷歌 TPU 是一种 ASIC 芯片方案,一般来说 ASIC 芯片开发时间长、研发成本高,服务于专用计算,实现的下游任务较为固定和狭窄。此后,谷歌又陆续推出了多个 TPU 系列产品,不断优化其架构和性能。
终端推理侧的AI芯片:AI Phone的关键能力
尽管 AI 芯片的种类、实现的任务和部署形态多样且复杂,但其功能最终可以归结为两种:训练和推理。在训练阶段,AI 芯片需要支持大规模的数据处理和复杂的模型训练。这需要芯片具有强大的并行计算能力、高带宽的存储器访问以及灵活的数据传输能力。NVIDIA 最新的 H100 GPU、华为昇腾 Ascend NPU、谷歌 TPU 等专门为 AI 训练设计的芯片,拥有超强的计算能力、超大显存和极高的带宽,能够处理海量数据,特别适合训练类似 GPT 等大语言模型。在推理阶段,AI 芯片需要在功耗、成本和实时性等方面进行优化,以满足不同应用场景的需求。云端推理通常对性能和吞吐量要求较高,因此需要使用高性能的 AI 芯片,边缘和端侧推理对功耗和成本更加敏感,因此需要使用低功耗、低成本的 AI 芯片,如专门为桌面、移动和嵌入式设备设计的 NPU等。英特尔最新的酷睿 Ultra 旗舰处理器,基于 x86 平台的异构AI计算,集成的 GPU 和 NPU 性能越来越高。高通和 MediaTek 最新的高端移动处理器,针对不同任务的 AI 计算加速,整个 SoC 微架构上,NPU 的重要性也越来越突出。相较于训练芯片在云端成为某种“基础设施”,端侧的推理芯片则站在了 AI 应用的前沿。将训练好的模型为现实世界提供智能服务,特别是目前已经成为“个人信息Hub”的手机终端,某种意义上已经成为了普通人新生长出来的器官,当大模型与手机融合,不依赖网络和云端算力就能让手机具备大模型能力,AI Phone 的商业想象力巨大。
高通 VS MediaTek 最新的移动旗舰芯片
大模型推理正在向手机、PC、智能汽车等终端渗透。但是,在终端部署 AI 大模型时,仍面临着多模态模型压缩、存储与计算瓶颈、数据传输带宽限制、模型 always-on 设备功耗和发热、软硬件联合调优等多重挑战。特别是在手机端,芯片必须在保证高性能的同时,尽量降低功耗,这要求芯片设计在硬件架构和算法加速技术上进行优化,以提高计算效率并减少能源消耗。以高通最新的骁龙旗舰芯片为例,“为了实现更快的 AI 推理性能,高通提升了所有(AI计算)加速器内核的吞吐量,还为标量和向量加速器增加了更多内核,满足增长的生成式AI运算需求,尤其是面向大语言模型(LLM)和大视觉模型(LVM)用例,以在处理过程中支持更长的上下文。至于大众关心的能耗,高通这次将每瓦特性能提高 45%。终端更加高效,不需要大量消耗电池续航。”高通最新的旗舰移动芯片,骁龙 8 至尊版首次采用了一系列领先技术,包括第二代定制的高通 Oryon CPU、全新切片架构的高通 Adreno GPU 和增强的高通Hexagon NPU,能够为用户带来终端体验的全面革新。作为高通迄今为止最快的CPU,Oryon CPU 拥有 2 个主频高达 4.32GHz 的超级内核和 6 个主频 3.53GHz 的性能内核。其单核性能和多核性能相比前代均提升了 45%,浏览器性能提升了 62%,可为大量的多任务处理、飞速网页浏览和疾速游戏响应体验提供强大的性能和能效支持。同时,骁龙8至尊版还支持高达 10.7Gbps 速率的 LPDDR5X 内存,为用户带来更为丰富的终端侧 AI 使用体验。基于全新的高通 Hexagon NPU,骁龙 8 至尊版首次支持终端侧个性化多模态 AI 助手,能够赋能规模更大且更加复杂的多模态生成式 AI 用例在终端侧高效运行。在处理器上,高通 Hexagon NPU 增加了额外内核,拥有 6 核向量处理器和 8 核标量处理器,能够进一步满足生成式 AI 运算不断增长的需求。得益于在软件上的不断优化、Hexagon NPU 新增的处理器核心以及多模态模型,骁龙 8 至尊版能实现更快的 AI 处理速度。其 AI 性能提升了 45%,每瓦特性能提升 45%,并支持 70+ tokens/sec 的输入,用户可以上传更大的文档、音频和图像,让手机在处理复杂任务时能够更加游刃有余。有了全新 Hexagon NPU 的支持,无论是在拍照时的智能识别与优化,还是游戏中的实时渲染与计算,骁龙 8 至尊版都能为用户提供强大的 AI 引擎支持,帮助用户能够随时随地开启灵感世界,创造无限可能。在影像处理能力上,通过 AI-ISP 和 Hexagon NPU 的深度融合,骁龙 8 至尊版可带来突破性的拍摄体验,让用户在拍照时得到更多的AI加持,其支持 4.3GP/s 像素处理能力,数据吞吐量相比上代提升了 33%,能够支持三个 4800 万像素图像传感器同时进行 30fps 视频拍摄。骁龙 8 至尊版支持无限语义分割功能,可以对图像进行超过 250 层语义识别和分割,针对性优化图像中的每个细节。在无限语义分割基础上,骁龙 8 至尊版的实时皮肤和天空算法可以利用 Hexagon NPU 来识别光线条件并进行修图,即使在光线条件不足的情况下,也能拍出具有自然效果的皮肤和天空色调。基于Hexagon NPU,骁龙8至尊版还支持实时 AI 补光技术,让用户即使在近乎黑暗的环境下,也能生动记录 4K 60fps 的视频。在视频通话或者直播时遇到背光情况,实时 AI 补光技术仿佛增加了一个虚拟的可移动光源,让用户时刻都能展现自己美好的一面。在强大算力的支持下,骁龙 8 至尊版还支持视频魔法擦除功能,用户可以直接在视频中选择需要擦除的对象将其消除,而无需将视频上传到云端。此外,骁龙 8 至尊版还拥有 AI 宠物拍摄套件,能够清晰记录萌宠们“放飞自我”的调皮时刻,无论是快速奔跑还是嬉戏打闹,都能被精准捕捉。在高通发布骁龙 8 之前,多年蝉联手机移动芯片市场份额第一的 MediaTek,也在最新的天玑 9400 旗舰芯集成 MediaTek 第八代 AI 处理器 NPU 890,在其支持下,天玑 9400 支持时域张量(Temporal Tensor)硬件加速技术、端侧高画质视频生成技术,赋能端侧运行 Stable Diffusion 的性能提升了 2 倍,不仅能够实现高分辨率生图,更支持端侧动图和视频生成,实现更多新玩法。天玑 9400 拥有强悍的端侧多模态 AI 运算性能,处理能力高达 50 tokens/秒;运行各种主流大模型,平均功耗可节省 35%,为手机终端用户带来更智慧、更省电的 AI 智能体互动。随着大语言模型能力的提升,智能体多轮对话与复杂场景的判断需求越来越重要。天玑 9400 已能支持到至高 32K tokens 的文本长度,是上一代的 8 倍!为了强化端侧模型的数据安全和个人隐私作用,MediaTek 天玑 9400 支持端侧 LoRA 训练,不用传资料上云,每位用户在端侧就可以安心享受实时的个性化训练与生成,还可用个人照片创建各种画风的数字形象,并更换各种姿势和背景,让隐私更安全。
AI Phone 算力芯片的关键指标
Prefill 阶段首 Token 延迟,以及 Decoding 阶段 Token 生成速率。无论云端模型还是端侧大模型,本质是“一堆参数”。手机终端执行大模型推理的过程:用户输入文本(提示词,也即常说的 Prompt)编码转化为向量,内存加载参数,激活参数执行 AI 计算,输出向量解码。
- 进行Vector*Weight计算--Context Info,理解过程,500Token/s
- Context Info*Weight计算--New Vector,生成过程,50Token/s
New Vector--Token--文本
大模型推理的基本流程,用户提供一个 prompt(提示词),手机运行的推理框架根据输入的提示词生成回答。推理过程通常分为两个阶段:prefill 阶段和 decoding 阶段。在 Prefill 阶段,内存加载模型参数,推理框架接收用户的提示词输入,然后执行模型参数计算,直到输出第一个 token。这个阶段只运行一次,耗时较长。接下来是 Decoding 阶段,这个阶段是一个自回归的过程,每次生成一个 token。具体来说,它会将上一时刻的输出 token 作为当前时刻的输入,然后计算下一时刻的 token。如果用户的输出数据很长,这个阶段就会运行很多次。Decoding 阶段的 Token 吞吐率,即常说的推理速度 XXToken/sec。如何评价不同品牌的AI Phone 的大模型运行性能的优劣?运行同样参数尺寸(比如3B)的端侧模型,模型的“知识密度”相同的情况下,Prefill 阶段的首 Token 延迟,以及 Decoding 阶段 Token 生成速率是两个最直观的指标,它直接反馈的模型运行在一款AI Phone是否流畅,用户体验感知最明显。当然 AI Phone 运行模型时的内存占用压缩,量化精度损失,AI Phone 运行的多模态模型和文本基座模型本身的性能和功能,模型层的优劣影响也是决定性的。一个高效压缩、功能全面、性能强悍、跨算力平台兼容性好的端侧模型,还没有公认的最强者。目前,AI Phone 算力芯片支持的推理框架,适配优化支持的模型种类和数量,正在肉眼可见的增长和繁荣。端侧模型运行在不同终端,针对不同 ASIC 芯片 NPU 的兼容,进行 AI 计算硬件加速和调度优化的空间还非常大,这是一个涉及终端厂商、芯片厂商、模型厂商三方的生态构建。谁能提前布局,不辞辛劳更多做幕后看不到的“有用功”,大模型时代它一定获得市场的“加速”。