微信扫码
与创始人交个朋友
我要投稿
先说重点,
GPU计算不能等,网要好。
到底用哪种网,
这个问题成了关键。
且,还有人误会网络不重要,
我得知:
一家国产知名大模型厂商,
就不说哪家了,
买了英伟达一万张卡,
配的PCIe接口。
送命不至于,
就是吃亏。
我判断:
2024年全球头部GPU技术路标:
用超节点连起的10万卡GPU集群。
那么问题来了,卡之间的连接,
用什么网?
我还判断:
英伟达超节点(NVL72)引领下一轮组网架构,
除了英伟达以外的玩家,
他们往往被称为“非英伟达厂商”
该如何应对?
言下之意明了,
AI网络进入大争之世,
各自为战,还是联盟合作?
这篇文章将探讨,
多方玩家竞争与合作的可能。
目录:
故事开始了。
无论别人信不信英伟达垄断,
反正我信了。
当然可以说得保守点:
“有垄断之嫌”。
英伟达垄断了计算,
那是否垄断了网络?
在大规模GPU相互连接进行计算的情况下,
计算与网络紧密交织,
性能不再是一个单一的概念。
英伟达服务器内部网络是封闭玩法,
谁也不能自造一个网络,
跟英伟达的拼起来用。
俗称“拼桌。
不就是传输个数据包,还分派系了?
真是如此,
没办法,
科技厂商天然偏好各自为战,
因为终极都追求“垄断”。
如果哪天不这样了,
一定是有什么强大力量,
让他们痛苦了。
这是我一开始的想法,
只看到了其中一层,
现在我有了更深的理解,
后面会讲。
你看,数据中心里的AI网络,
网络分两种。
机内和机外。
不得不服气的是,
短短几个月,
我发现这种说法已经过时了。
没办法,技术又迭代了。
一个服务器是4卡8卡GPU的时期,
可以这样说。
然而,当NVL72这种超节点产品来了,
这个说法就不准了。
“机内机外”容易造成误解。
也就是,“机内机外”过时了。
这意味着,
一场新纷争悄然揭幕。
两句话说不清,
展开细聊。
论单词难度,
Scale up网络,Scale out网络
是高中英语考试的难度,
论技术难度,
一下冲到了阿里P7。
题这么难,都是NVL72造成的。
替我问候一下它。
技术上的变化到底是什么呢?
以前,Scale up网络局限在服务器内部,
现在,NVL72里面明显用到了服务器外面的网络,
所以,是Scale up网络。
不只叫法变了,
本质是网络结构变了。
最初一个服务器有8个GPU,
所有GPU在同一个操作系统 (OS) 内,
这使得它们彼此访问内存变得很自然,
类似于一个“共享内存”的环境。
当系统扩展到 72个GPU 时,
这些GPU要被分散到18个操作系统中,
但得益于硬核网络支持,
它们分布在不同的操作系统 (OS)上,
且能跨多个操作系统 (OS)来进行操作。
比如,第一个操作系统 (OS),
直接“访问”第 18 个操作系统 (OS)的内存。
所以,即便扩展到72个GPU,
继续叫它Scale up网络。
叫法并不是重点,
重点在于要设计新网络结构,
部署新的Scale up网络的设备,
这些都要花钱。
另一方面,
硬件有变化,
GPU有72个,
但这个说法不准确,
应该是B200这款GPU芯片,
而GB200而不是单一的GPU,
而是一种GPU计算系统,
以SuperPOD(超级节点)方式扩展大规模部署。
和美国关系好的那些人,
英伟达B200和GB200,
将在2024年第4季度,
和2025年第1季度,
陆续出货。
英伟达B300系列产品,
将按计划2025年第2季度至第3季度,
开始出货。
不仅如此,硬件变化还包括,
以前,“机内网络”高度集成,
GPU和交换机芯片集成在一起,
现在,交换机芯片单独出来了。
这些变化都归结在一个难点上,
到底怎么互联?
第一,一台服务器里有8张GPU(H100),
第二,增加到72张GPU(NVL72),
第三,将来还会塞288个,576个GPU,
第四,甚至再塞1152个GPU。
学霸移步点击这里有双上联技术详细介绍
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-05
重温 Scaling Law,思考对大模型的未来发展启示
2024-11-05
比ChatGPT更牛!苹果新AI模型刷新交互体验!能看懂你的手机屏幕!平板和安卓机也都行
2024-11-05
B站自研角色扮演模型背后的技术
2024-11-05
为了在AI时代做好“个人助理”,vivo做了哪些努力?
2024-11-05
大模型在自动化测试的突破:蚂蚁、华为等头部企业应用实践
2024-11-05
微软 AI CEO 穆斯塔法:小模型绝对是未来趋势,AI 会小到能装在冰箱贴上
2024-11-05
Diffusion 模型也能“举一反三”?阿里IC-LoRA给图像生成模型增加情节记忆力能力
2024-11-05
Meta揭秘:大规模AI集群可靠性的突破性研究(中)
2024-05-28
2024-04-26
2024-04-11
2024-08-21
2024-07-09
2024-07-18
2024-08-13
2024-06-17
2024-06-07
2024-07-01
2024-11-05
2024-11-04
2024-11-01
2024-10-31
2024-10-30
2024-10-29
2024-10-29
2024-10-25