我要投稿

AI服务器内部“高速公路”：PCIe和NVLink技术！

发布日期：2024-07-10 06:21:15 浏览次数： 3403 作者：可鉴智库

加速计算是一项曾经只有政府研究实验室中才有的高性能计算能力。如今，它已成为主流技术。

银行、汽车制造商、工厂、医院、零售商等机构需要处理和理解的数据日益增加，他们现在正在采用 AI 超级计算机来处理这些堆积如山的数据。

这就需要高速传输技术，目前的GPU互联方式主要有两种，一种是PCIe，另一种是NVlink。这些强大、高效的系统如同一条条“超级计算高速公路”。它们在多条并行路径上同时传输数据和计算，可以瞬间得出可执行结果。

1.什么是PCIe？

如果不是做主板类的工程师或者没有自己组装过电脑/服务器的，估计很多人并不了解PCIe是什么。因为PCIe并不像USB、HDMI这类外部接口那样被大众所认识。

PCIe是PCI-Express(Peripheral ComponentInterconnect Express)的简称，它是一种内部总线，也是一种计算机扩展总线标准，是一种高速串行、高带宽扩展总线，通常用于主板上连接显卡、固态硬盘以及采集卡和无线网卡等外设。但是，PCIe不仅限用于主板上。在很多芯片与芯片之间的互连也采用的是PCIe的总线。

主板上的 PCIe 通道分为 x1、x2、x4、x8 和 x16 几种配置。通道数量越多意味着带宽越高，插槽也就更长。PCIe有两种存在形式：M.2接口通道形式和PCIe标准插槽。

加速卡、高带宽网卡和显卡一般都是安装在插槽中。

而像固态硬盘、笔记本网卡等一版使用M.2的接口。

每一代 PCIe 的速度都是上代的2倍。PCIe 1.0的数据传输速率为每秒 2.5Gbps，PCIe 2.0 的数据传输速率为每秒 5Gbps，PCIe 3.0的数据传输速率为每秒 8Gbps（因为编码的原因，所以2.0到3.0并不是数字看到的2倍关系），而PCIe 4.0为16Gbps，PCIe 5.0为32Gbps，PCIe 6.0为64Gbps。

随着数据需求带宽的不断增加，PCIe发展也是越来越快，最近基本上是2年一升级。直到现在，PCIe 7.0 呼之欲出。

2.什么是 NVLink？

NVLink 是一种高速互连技术，旨在加快 CPU 与 GPU、GPU 与 GPU 之间的数据传输速度，提高系统性能。

NVLink通过GPU之间的直接互联，可扩展服务器内的多GPU I/O，相较于传统PCIe总线可提供更高效、低延迟的互联解决方案。

图：PCIe（左）、NVLink协议下的GPU互联

NVLink的首个版本于2014年发布，首次引入了高速GPU互连。

2016年发布的P100搭载了第一代NVLink，提供 160GB/s 的带宽，相当于当时 PCIe 3.0 x16 带宽（双向）的 5 倍。

之后陆续发布了很多新版本，V100搭载的 NVLink2 将带宽提升到300GB/s ，A100搭载了NVLink3带宽为600GB/s。

H100中包含18条第四代NVLink链路，总带宽（双向）达到 900 GB/s，是PCIe 5.0 x16带宽（双向）的7倍。

NVLink高速互联主要有两种：第一种是以桥接器的形式实现，另一种是在主板上集成 NVLink 接口。

3.PCIe VS NVLink

与PCIe 相比，NVLink明显的优势就是高带宽和低延迟，我们先来看看他们的速度对比。传统的PCIe5.0x16规格下互联速度为128GB每秒，而第四代NVlink的规格下，直接达到900GB每秒，也就是PCIe的7倍多（参考下图）。

另外，为了更直观地区别他们之间的数据传输差距，从下图可以看出，传统的PCIe数据交互方式是CPU与GPU之间的数据交互，图中可以看出带宽非常的细窄，而NVlink的交互方式直接绕开了CPU，通过GPU和GPU直连的方式进行数据交互，传输的通道非常地宽敞。

如果对于注重GPU之间数据通信的大规模训练来说，NVlink无疑是最佳性能选择，这也就是目前NVLink在人工智能领域大行其道的主要原因。虽然NVLINK的价格目前不菲，但是综合时间成本和效率对比的话，它的训练效率和性价比还是比PCIe高出很多的。

图：PCIe和NVLink的区别

两者优缺点比较具体如下表所示：

PCIe广泛应用于各种计算机硬件设备，包括显卡、声卡、网卡等。由于其良好的兼容性和扩展性，PCIe已成为计算机系统中不可或缺的一部分。

NVLink主要用于高性能计算和数据中心领域，特别是在需要将多个GPU连接在一起以加速计算任务的应用中。NVLINK的高带宽和低延迟特性使其成为此类应用的理想选择。

未完待续

2024年5月，包括谷歌、Meta、微软、AMD、英特尔、博通、思科、惠普（HPE）在内的科技巨头宣布，成立一个叫做Ultra Accelerator Link"超级加速链路"的联盟（UALink），以打破英伟达NVLink技术越来越领先的优势。

UALink 1.0技术将能够在单个集群中连接多达1024个AI加速器，通过将大量加速器连接在一起，共同完成大规模计算任务。在第四季度，组织还将发布其互联技术的第一轮迭代版本UALink 1.1。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

AI陪伴硬件企业必看：声网如何助力Robopoet打造下一代AI陪伴硬件｜案例研究

2025-04-25

上手了字节的AI硬件，有点爽

2025-04-25

从 MCP 到项目管理，为什么“开放”成了新风向？

2025-04-25

国内首个云电脑 MCP！人人都能搞个 Manus？

2025-04-25

扣子，无限生产海量 MCP

2025-04-25

产品经理有福了：利用AI直接生成原型图&UI设计图

2025-04-24

方案 | 基于本地大模型开发CAD智能助手

2025-04-24

Fellou AI浏览器体验报告，它是未来AI应用的雏形

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

大模型训练及推理【硬件选型指南】及 GPU 通识

2024-05-09

华为昇腾910B与英伟达B200性能对比

2024-07-23

【不看后悔】一文梳理端侧模型和小模型

2024-07-07

一文带你看懂英伟达A100、H100、A800、H800、H20系列

2025-02-12

NVIDIA消费级显卡4060/4090 AI训练能效比较

2024-07-01

对比A100和4090：两者的区别以及适用点

2024-06-24

私有化部署大模型非常重要环节：国产显卡和英伟达显卡到底该如何选择？

2024-06-23

手把手教你免费把AI大模型接入小米音箱，无需任何代码基础，小白级基础详细操作教程！

2024-10-20

小爱音箱大变身：接入 ChatGPT 和豆包，轻松打造专属 AI 语音助手！

2024-06-08

大家都在问

从 MCP 到项目管理，为什么“开放”成了新风向？

2025-04-25

国内首个云电脑 MCP！人人都能搞个 Manus？

2025-04-25

爆火的扣子空间里，藏着什么秘密？

2025-04-21

AI与自动化实战：n8n、Dify、Coze哪个更适合我们？

2025-04-13

经验分享：从买DeepSeek一体机到落地应用场景，有多远的距离？

2025-04-11

理想车载大模型为什么不直接用deepseek？

2025-04-03

JetBrains Junie 内测体验，能否挑战 Cursor？

2025-03-30

Tavily MCP Server深度解析：如何用Cline打造智能搜索神器？

2025-03-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部