支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


NVIDIA老黄2025年3月GTC Keynote逐字稿

发布日期:2025-03-19 10:48:56 浏览次数: 2092 作者:慢达快语
推荐语

NVIDIA老黄2025年3月GTC Keynote逐字稿,带您领略AI的创新力量和未来科技趋势。

核心内容:
1. AI如何革新传统工厂,开辟新领域
2. NVIDIA在人工智能领域的最新进展和产品发布
3. AI技术在计算机图形学、医疗、交通等行业的应用实例

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

AI助手:AI好记(aihaoji.com)

这就是智能的创造方式——一种新型工厂,一个令牌生成器,AI的基础构件。令牌开辟了新的前沿,标志着踏入一个充满无尽可能的非凡世界的第一步。

代币将图像转化为科学数据,绘制外星大气层,指引未来的探险者。它们将原始数据转化为远见,确保我们为未来做好准备。代币解码物理定律,使我们能够更快到达目的地,走得更远。它们在疾病显现之前就能检测到,帮助我们解开生命的语言,理解我们的运作机制。

代币连接点滴,让我们能够保护最珍贵的生物。它们将潜力转化为富足,帮助我们收获丰硕成果。代币不仅教会机器人如何移动,还能带来欢乐,助我们一臂之力,让生活更加便捷。

携手共进,我们迈出下一个伟大飞跃,勇敢前往无人涉足之地。一切从这里开始。欢迎登台,NVIDIA创始人兼首席执行官,黄仁勋。

这是多么不可思议的一年。在NVIDIA,我们致力于实现非凡的成就。借助人工智能的力量,我们几乎是将您带到了NVIDIA的总部。这里是我们工作和创新的地方。

这一年是非凡的一年,我们有许多激动人心的发展要分享。我想让您知道,我此刻在这里,毫无保留地呈现。

没有剧本,也没有提词器,我有很多内容要讲,所以让我们开始吧。首先,我要感谢本次会议的所有赞助商和参与者。几乎每个行业都有代表出席——医疗、交通、零售,尤其是计算机行业。看到如此多元化的聚会,真是令人惊叹。感谢你们的支持。

GTC始于GeForce,今天,我向大家介绍GeForce 5090。令人瞩目的是,在我们开始开发GeForce的25年后,它依然是全球畅销产品。这就是Blackwell系列,GeForce 5090。与4090相比,它的体积缩小了30%,散热效率提高了30%,并且提供了无与伦比的性能。这一进步背后的驱动力是人工智能。GeForce向世界介绍了CUDA,这使得AI成为可能,而现在AI正在彻底改变计算机图形学。你们在这里看到的是实时计算机图形。 对于每一个渲染的像素,人工智能预测其余的15个。考虑这一点:对于每一个数学上渲染的像素,AI以如此精确的方式推断出剩余的15个,以至于图像显得准确且在时间上稳定。这意味着在帧与帧之间,无论是向前还是向后移动在计算机图形中,图像都保持了时间一致性。非常了不起。

人工智能在过去十年中取得了非凡的进步。虽然关于AI的讨论早已开始,但真正进入全球视野大约是在十年前。这一旅程始于感知AI,涵盖计算机视觉和语音识别,随后是生成式AI,它在过去五年中占据主导地位。生成式AI专注于教会AI在不同模态之间进行转换——文本到图像、图像到文本、文本到视频、氨基酸到蛋白质,以及属性到化学物质。这项技术从根本上将计算从基于检索的模型转变为生成式模型。以前,内容是预先创建的,存储在多个版本中,并在需要时检索。现在,AI理解上下文,解释请求,并生成响应,必要时通过检索信息来增强其理解。这一转变彻底革新了计算的每一层。

近年来,随着代理AI的出现,发生了重大突破。代理AI具有自主性,能够感知和理解上下文,通过问题进行推理,规划行动并使用工具。它可以导航多模态信息,如网站,解释其内容,并将新获得的知识应用于其任务。代理AI的核心是推理,这是一种相对较新的能力。下一波浪潮,已经在进行中,是机器人学,由物理AI驱动。物理AI理解物理世界,包括摩擦、惯性、因果关系和物体恒常性等概念。对三维世界的这种理解将引领AI进入新时代,使高级机器人学成为可能。


AI发展的每个阶段——感知、生成式、代理和物理——都开辟了新的市场机会,并吸引了更多合作伙伴加入GTC。因此,GTC已成为创新和协作的中心。

唯一能让GTC容纳更多参与者的方式是扩建圣何塞,我们正在积极进行中。我们有充足的土地可供开发,发展圣何塞将使我们能够提升GTC。站在这里,我希望你们都能见证我所看到的景象——一个充满活力的体育场。去年标志着我们回归线下活动,感觉就像是一场摇滚音乐会。GTC被形容为AI的伍德斯托克,而今年它被称为AI的超级碗。关键的区别在于,在这个超级碗中,每个人都是赢家——每个人都是胜利者。每年,越来越多的人参与其中,因为AI持续解决更多行业和公司的复杂问题。今年,我们将重点探讨代理AI(Agentic AI)和物理AI(Physical AI)

在其核心,每一波和每一阶段的AI都由三个基本要素驱动。首先,我们如何解决数据问题?这是至关重要的,因为AI是一种数据驱动的计算机科学方法。它需要数据来学习,通过数字体验获取知识,并构建其理解。其次,我们如何在没有人类干预的情况下解决训练问题?挑战在于人类时间有限,而AI需要以超越人类的速度、实时地、在人类能力之外的规模上学习。第三个要素是可扩展性——我们如何创建算法,使得提供的资源越多,AI就越智能?这就是扩展定律。

去年,世界在很大程度上误解了AI的计算需求。AI的扩展定律实际上更为坚韧,并且是超加速的。现在所需的计算量,由代理AI和推理驱动,轻松超过我们去年预期的百倍。让我们探讨为什么会这样。

首先,让我们考虑AI能做什么。正如我提到的,代理AI根本上关乎推理。我们现在拥有的AI能够逐步分解问题。它们可能会以多种方式接近问题,选择最佳解决方案,或者通过不同方法解决同一问题以确保一致性。得出答案后,它们可能会将其代入方程,例如二次方程,以确认其准确性。

只需一次尝试。还记得两年前我们开始与ChatGPT合作的时候吗?尽管它是个奇迹,但在处理许多复杂和简单问题时仍显得吃力。它依靠预训练数据和过往经验,一气呵成地生成输出。如今,我们有了能够通过思维链技术、一致性检查和各种路径规划技术逐步推理的AI。这些AI可以分解问题并按顺序进行推理。

AI的基本技术仍然是预测下一个标记。然而,AI现在不再是一次生成一个标记,而是生成代表推理步骤的标记序列。这导致生成的标记数量大幅增加——轻松达到百倍之多。为了保持响应性和互动性,我们必须计算得更快,导致计算需求增加百倍。

那么问题就变成了:我们如何教会AI执行这种思维链?一种方法涉及教会AI推理。在训练过程中,我们面临两个基本挑战:获取数据和避免人为干预带来的限制。可用数据和人类示范是有限的。

近年来的一大突破是强化学习,并取得了可验证的结果。这种方法使AI能够逐步解决问题,利用人类已经解决的庞大问题库。

我们熟悉解决二次方程、勾股定理以及直角三角形的规则。我们了解数学、几何、逻辑和科学中的众多原理。像数独这样的益智游戏呈现了受约束的问题,我们有数百个这样的问题空间,可以生成数百万个例子。通过为AI提供数百次逐步解决这些问题的尝试,我们使用强化学习来奖励其进展。这一过程涉及数百个主题、数百万个例子和数百次尝试,每次生成数万个标记。总体而言,这需要数万亿个标记来训练模型。通过强化学习,我们可以生成大量合成数据,本质上使用机器人方法来教授AI。这些方法的结合为行业带来了重大的计算挑战。

行业正在应对这一挑战。例如,四大CSP——亚马逊、Azure、GCP和OCI——对Hopper的出货量就体现了这种增长。不包括AI公司、初创企业和企业,仅这四大CSP就展示了AI基础设施的快速扩张。将Hopper的峰值年份与Blackwell的第一年进行比较,可以发现仅一年内就实现了显著增长。这种增长在整个计算领域都有所体现。分析师预测,到本十年末,全球数据中心(包括CSP和企业)的资本支出将大幅增加。我之前预测数据中心建设将达到万亿美元,我相信我们很快就会实现这一里程碑。

两种动力正在推动这一增长。首先,这种扩张的大部分正在加速。通用计算已经走到了尽头,需要新的方法。世界正在从在通用计算机上手工编码软件转向在加速器和GPU上运行机器学习软件。

这种计算方法已经超越了临界点,我们现在正见证全球数据中心建设的拐点。第一个重大变化是我们执行计算方式的转变。第二个是越来越多的人认识到,软件的未来需要大量的资本投入。这是一个深远的变化。

过去,我们编写软件并在计算机上执行。未来,计算机将为软件生成代币,将它们从基于检索的系统转变为基于生成的系统。这标志着从传统数据中心运营到新的基础设施建设范式的转变,我称之为AI工厂。这些AI工厂有一个单一的目的:生成我们可以重新组合成音乐、文字、视频、研究、化学物质、蛋白质以及各种其他信息形式的代币。

世界不仅在数据中心建设的规模上发生转变,也在其设计上发生变化。数据中心内的每个组件都将被加速,尽管并非所有组件都将由AI驱动。我想强调这一点。这张幻灯片确实是我的最爱,因为对于那些多年来参加过GTC的人来说,你们已经听我详细讨论过这些库。这张幻灯片概括了GTC的精髓。

事实上,20年前,这是我们唯一的一张幻灯片——一个接一个的库。正如我们需要一个AI框架来创建AI并加速这些框架一样,我们现在需要物理、生物、多物理、量子物理等科学领域的框架。我们称这些为CUDAX库——为每个学科量身定制的加速框架。

其中第一个是CU PI Numeric。NumPy是全球下载量最大、使用最广泛的Python库,去年下载量达到4亿次。CuLitho是一个计算光刻库,在过去四年中彻底改变了光刻工艺。计算光刻是晶圆厂中的第二个工厂——一个工厂制造晶圆,而另一个生成制造它们所需的信息。未来,每个有工厂的行业和公司都将运营两个设施:一个用于生产,一个用于其背后的数学。

这家工厂生产人工智能、汽车、智能音箱以及用于智能音箱的AI。CuLitho是我们的计算光刻技术,得到了台积电、三星、ASML、新思科技和Mentor等合作伙伴的支持。这项技术目前已处于临界点,未来五年内,每一块掩模和光刻工艺都将由NVIDIA CUDA处理。Arial是我们用于5G的库,可以将GPU转变为5G无线电。信号处理是我们的强项,我们还能在其上叠加AI,为下一代无线电网络创建AI RAN。AI将深度集成到这些网络中,通过增强可用频谱,克服信息理论的局限。

CuOpt是我们用于数值和数学优化的解决方案,广泛应用于各行业,包括规划座位和航班、管理库存和客户、工人和工厂、司机和乘客等。它能处理多个约束和变量,优化时间、利润、服务质量及资源使用。NVIDIA使用CuOpt进行供应链管理,将计算时间从数小时缩短至数秒,从而探索更大的解决方案空间。我们宣布将CuOpt开源,与Gurobi、IBM CPLEX和FICO合作,加速行业创新。

MONI是全球领先的医学成像库,而Earth2专注于多物理场,用于高分辨率本地天气预报。CuQuantum和CuToQ是我们量子计算努力的一部分,我们在GTC上举办了首次量子日。我们与生态系统合作,研究量子架构、算法以及经典加速的量子异构架构。CuEquivariance和CuTensor处理张量收缩和量子化学。

CUDA栈闻名遐迩,众多库已集成到生态系统的各个部分,推动AI进步。今天,我宣布CuDSS,我们的稀疏求解器,对CAE至关重要。这是过去一年中最重要的发展之一,我们与Cadence、新思科技、Ansys、达索等系统公司合作。

我们现在已经实现了几乎所有重要EDA和CAE库的加速。值得注意的是,直到最近,NVIDIA还在依赖通用计算机,以较慢的速度运行软件,来为他人设计加速计算机。其原因在于,直到最近才有了针对CUDA优化的软件。现在,随着我们转向加速计算,整个行业都准备迎来一次显著的提升。

我们推出了cuDF,一个用于结构化数据的数据框,现在为Spark和pandas提供无缝加速。此外,我们还有Warp,一个在Python中运行且针对CUDA优化的物理库。关于这一点,我们有一个重大宣布,我稍后会分享。这些库只是使加速计算成为可能的冰山一角。

虽然我们对CUDA感到无比自豪,但重要的是要认识到,如果没有CUDA及其广泛采用,这些库对开发者的价值将大打折扣。开发者使用这些工具,是因为它们提供了惊人的速度和可扩展性,也因为CUDA现在无处不在——在每个云平台、每个数据中心,以及全球每家主要计算机公司都能找到。

通过利用这些库,您的软件可以触达全球受众。我们已经达到了加速计算的临界点,CUDA在这一成就中发挥了关键作用。这正是GTC的核心所在——生态系统,是你们所有人让这一切成为可能。

对于未来的创造者、先驱者和建设者,CUDA是为你们设计的。自2006年以来,超过200个国家的六百万开发者使用了CUDA,彻底改变了计算领域的格局。

拥有超过900个CUDA库和AI模型,NVIDIA正在加速科学进步,改造行业,并赋予机器视觉、学习和推理的能力。NVIDIA Blackwell架构如今比首款CUDA GPU快了50,000倍。这些在速度和规模上的显著提升正在弥合模拟与实时数字孪生之间的差距。这仅仅是个开始,我们热切期待随之而来的创新。

我深感我们工作的价值,尤其是你所创造的影响。在我33年的职业生涯中,有一个时刻深深打动了我,那就是一位科学家对我说:“Jensen,因为你的工作,我能在有生之年完成我毕生的事业。

如果这对你没有共鸣,那你一定是无感的。这一切都与你有关。谢谢。现在,让我们来讨论人工智能(AI)。AI最初在云端出现是有充分理由的:它需要基础设施。正如科学所规定的,机器学习需要机器来执行这门科学。因此,机器学习需要基础设施,而云数据中心提供了这些基础设施,以及卓越的计算机科学和研究。这些条件非常适合AI在云端和云服务提供商(CSPs)中蓬勃发展。然而,AI并不局限于云端;它将渗透到每个领域。

我们将探讨AI在各种情境下的应用。CSPs欣赏我们尖端的技术和全栈解决方案。正如我之前提到的,加速计算不仅仅关乎芯片。它包括芯片、编程模型以及一系列软件层。整个堆栈极为复杂,每一层和库都类似于IBM所革新的SQL。想象一下,当应用于AI时,这个堆栈的复杂性更是有过之而无不及。

CSPs还重视这样一个事实:NVIDIA CUDA开发者是他们的客户,因为他们为全球使用构建基础设施。强大的开发者生态系统备受推崇。当我们把AI扩展到更广阔的世界时,我们会遇到多样的系统配置、操作环境、领域特定库和使用模式。AI的应用范围涵盖企业IT、制造业、机器人、自动驾驶汽车,甚至GPU云初创公司。大约有20家公司,包括我们尊敬的合作伙伴CoreWeave,在NVIDIA的任期内涌现,专注于托管GPU并自称为GPU云。CoreWeave即将上市,我们为他们感到无比自豪。

我特别兴奋的一个领域是边缘计算。今天,我们宣布与思科、NVIDIA、全球最大的电信公司T-Mobile以及Cerberus ODC合作,为美国的无线电网络开发全栈解决方案。这一举措将把AI引入边缘,标志着我们技术景观的重大进步。

请记住,每年全球有上千亿美元的资金投入到无线电网络及其支持通信的数据中心中。在未来,我坚信这将会是融入加速计算和人工智能的领域。人工智能将擅长于调整无线电信号,尤其是大规模MIMO系统,以适应不断变化的环境和交通条件。我们自然会采用强化学习来实现这一点。MIMO本质上是一个巨大的无线电机器人,我们将提供必要的功能来支持它。人工智能有潜力彻底改变通信领域。例如,当我打电话回家时,我不需要说太多,因为我的妻子已经熟悉我的工作和其状况。我们的对话常常是接着上次的话题继续,而且她了解我的喜好。这种效率源于上下文和先验知识。结合这些能力可以转变通信方式,就像它已经对视频处理和3D图形所做的那样。我们也同样致力于推进边缘计算中的人工智能。

我非常激动地宣布T-Mobile、思科、NVIDIA、Cerberus和ODC之间的合作,以构建一个全栈解决方案。人工智能即将渗透到每个行业,而最早采用者之一就是自动驾驶汽车。在多年从事计算机视觉工作后,当我第一次看到AlexNet时,感到无比鼓舞和兴奋。这促使我们全力投入自动驾驶汽车的开发。我们在这项技术上已经工作了十多年,现在,几乎每家自动驾驶汽车公司都在使用我们的技术。这包括在数据中心使用NVIDIA GPU的特斯拉,以及在其数据中心和车辆中都使用NVIDIA计算机的Waymo和Wave。在某些情况下,我们的技术仅在车辆中独家使用,尽管这种情况较为罕见。此外,许多公司使用我们完整的软件栈。

我们构建三种类型的计算机:训练计算机、仿真计算机和用于自动驾驶汽车的机器人计算机。我们还开发支持这些系统的软件栈、模型和算法,正如我们为其他行业所做的那样。今天,我兴奋地宣布,通用汽车(GM)选择了NVIDIA作为合作伙伴,来构建他们未来的自动驾驶汽车车队。自动驾驶汽车的时代已经到来,我们期待与通用汽车在三个关键领域展开合作:用于制造的AI、用于基础设施的AI以及用于自动驾驶的AI。

企业级AI使公司能够彻底改变其工作流程,设计和模拟车辆,并在车辆本身集成AI。我们正在与通用汽车合作开发他们的AI基础设施,我对这次合作感到特别兴奋。虽然这一领域常常被忽视,但我深感自豪的是我们在这一领域所取得的进展。

安全至关重要,尤其是在汽车安全方面。它被称为光环。在我们公司,它被称作光环。安全需要技术,涵盖从硅到系统和系统软件的各个方面。

算法和方法涵盖了从促进多样性到确保多样性,以及监控和透明度等各个方面。可解释性是一个必须深入集成到系统和软件开发各个方面的基本原则。我们是世界上第一家对每一行代码进行安全评估的公司,总计七百万行代码。

我们的芯片。我们的系统软件和算法经过第三方进行的严格安全评估,他们细致审查每一行代码,以确保多样性、透明性和可解释性。我们还申请了超过一千项专利。

在这次GTC期间,我强烈建议大家参加Halos研讨会,亲眼见证确保未来车辆安全和自主性的各种组件的集成。这是我个人特别引以为傲的成就,尽管它常常被忽视。因此,我决定额外花时间来讨论它。

英伟达在自动驾驶汽车技术方面取得了显著进展。你可能已经目睹了自动驾驶汽车的实际应用,例如令人印象深刻的Waymo无人驾驶出租车。我们制作了一段视频,展示我们在这一领域采用的一些先进技术。

应对数据、培训和多样性方面的挑战。我们可以利用AI的力量进一步推进AI技术。NVIDIA正在使用Omniverse和Cosmos加速自动驾驶车辆的AI开发。

Cosmos预测与推理能力支持以AI为先的自动驾驶系统,这些系统可以进行端到端训练,利用新的开发方法,如模型蒸馏、闭环训练和合成数据生成。

首先,模型蒸馏。

作为政策模型的适配版本,Cosmos促进了从更慢、更智能的教师模型到部署在汽车中的更小、更快的学员模型之间的知识转移。教师政策模型展示了最优轨迹。

学生模型通过迭代学习,直到其表现几乎达到与教师相同的水平。蒸馏过程启动了一个策略模型,但在复杂场景中仍需进一步调优。 闭环训练有助于政策模型的精细调整。日志数据被转换为3D场景,使得能够在基于物理的环境中使用Omniverse神经重建进行驾驶闭环模拟。创建这些场景的变体以评估模型的轨迹生成能力。Cosmos行为评估器随后对生成的驾驶行为进行评分,以衡量模型性能。新产生的场景及其评估结果为闭环训练提供了全面的数据库,增强了自动驾驶车辆在复杂场景中的导航能力。

最后,3D合成数据生成提高了AVs对不同环境的适应性。Omniverse通过整合日志数据中的地图和图像,构建详细的4D驾驶环境,生成真实世界的数字孪生。包括分割。通过分类每个像素来引导Cosmos,Cosmos通过生成准确且多样的场景来扩展训练数据,有效缩小了模拟与真实世界的差距。Omniverse和Cosmos使自动驾驶车辆能够学习、适应并智能驾驶。推进更安全的移动性,英伟达是引领这一倡议的理想公司。

那就是我们的命运:用人工智能来重塑人工智能。

我们展示的技术与您当前所体验的非常相似。我们的目标是带您进入一个数字孪生,我们称之为NVIDIA。现在,让我们来讨论数据中心。

让我们讨论数据中心。Blackwell现在已全面投入生产,这是它的当前状态。这是一次难以置信的体验。对我们来说,这是一幅美丽的景象。你同意吗?

这是一个重要的里程碑,因为我们已经在计算机架构上实现了根本性的转变。大约三年前,我提出了这个概念的一个版本,称为格蕾丝·霍珀,系统名为游侠。游侠系统大约是屏幕宽度的一半,是世界上首个NVLink 32。当时,游侠虽然体积过大,但已被证明是可行的,它体现了正确的方向。

我们的目标是解决扩展升级的挑战。分布式计算涉及使用多台计算机来解决大规模问题,但在扩展之前,升级是必要的。两种策略都至关重要,但升级必须先于扩展。升级极具挑战性,没有简单的解决方案。

与Hadoop不同,Hadoop将大量商用计算机连接成大型网络以进行存储内计算,我们的方法需要不同的策略。Hadoop是革命性的,它使超大规模数据中心能够利用现成计算机解决巨大问题。然而,我们问题的复杂性使得这种方法在电力和能源消耗方面成本过高。

如果没有首先进行升级,深度学习将不可行。这是我们如何实现它的。上一代系统架构HGX,重70磅,彻底改变了计算和人工智能。它由八个GPU组成。八块GPU。它们每一个在本质上都是相似的。这是一个Blackwell套装,包含两块Blackwell GPU,其下方集成了八个这样的套装。

这连接到我们称之为MVLink 8的设备,然后该设备再连接到CPU机架。该设置包括顶部放置的双CPU,通过PCI Express进行连接。

许多这些组件通过InfiniBand连接,形成了一台AI超级计算机。这是过去的方法,也是我们最初开始的方式。我们先进行了一定程度的纵向扩展,然后再进行横向扩展。然而,我们的目标是要进一步纵向扩展。Ranger通过横向扩展增强了这一系统,并将其容量提升了四倍。

我们最初使用了MVLink 32,但系统变得过于庞大。因此,我们必须进行大量的重新工程化工作,以修改MVLink和纵向扩展流程的运作方式。第一步是将原本嵌入在主板上的MVLink系统进行解耦,并将其移除。这就是MVLink系统。

这是一个NVLink交换机,是有史以来性能最高的交换机。它使每个GPU能够以全带宽同时与其他所有GPU进行通信。

这是MVLink交换机。我们将其解耦、移除,并将其放置在机箱的中心位置。共有18个这样的交换机分布在9个不同的机架上,我们称之为交换机托盘。现在这些交换机已经解耦,计算组件被放置在这里,相当于计算中的这两个元素。

令人瞩目的是,这个系统完全是液冷冷却的。通过利用液冷技术,我们将所有这些计算节点压缩到一个机架中。这代表了行业中的一个重大转变。

在座的各位,我想表达我的感激之情,感谢大家接受这一根本性的转变——从集成MVLink到解耦MVLink,从风冷到液冷系统,以及从每台计算机约60,000个组件到每机架600,000个组件。

这个120千瓦、全液冷系统在一个机架内实现了百亿亿次计算机。难道这不令人惊叹吗?这就是计算节点。

该系统现在集成在一个单一单元中,重量为3000磅,拥有5000根电缆,总长约两英里。它由600,000个部件组成,相当于20辆汽车的组件,集成到一台超级计算机中。我们的目标是扩大规模,这就是结果。我们旨在制造这款芯片,但没有任何光罩限制或工艺技术能够实现它。它包含130万亿个晶体管,其中20万亿用于计算。为了解决这个问题,我们将其分解为Grace Blackwell MVLink 72机架,实现了终极的规模扩大。这代表了有史以来最极端的规模扩大,具有前所未有的计算能力。内存带宽达到每秒570太字节,这台机器的每一项指标都以万亿为单位。它能够实现百亿亿次浮点运算,即每秒百万万亿次的浮点运算。我们追求这一点是为了解决一个极端问题。

许多人错误地认为推理的极端问题很简单。实际上,它代表了极端计算中的终极挑战。推理涉及工厂生成令牌,这直接影响收入和盈利能力。因此,这个工厂必须以极高的效率和性能来构建,因为它的每一个方面都影响服务质量、收入和盈利能力。

为了更好地理解这一点,让我们查看一个带有两个轴的图表。X轴代表每秒令牌数。当你与ChatGPT互动时,输出由令牌组成,这些令牌随后被重新组合成单词。例如,令牌“T-H-E”可以代表“the”、“them”、“theory”或“theatrics”等。这些令牌是AI生成响应的基石。

为了提升AI的智能,生成大量令牌至关重要。这些令牌包括推理令牌、一致性检查令牌和创意生成令牌,它们帮助AI选择最佳响应。AI可能会自我质疑,问:“这是你能做的最好的工作吗?”这种内部对话反映了人类的思维过程。生成的令牌越多,AI就越聪明。然而,如果响应时间过长,用户可能会放弃服务。这种动态类似于网络搜索,用户愿意等待智能答案的时间有一个实际限制。

因此,存在两个相互竞争的维度:生成尽可能多的令牌,同时确保快速响应时间。令牌速率至关重要,因为每用户更快的令牌生成能提升体验。然而,在计算机科学和工厂运营中,延迟(响应时间)和吞吐量之间存在根本的张力。在高容量业务中,批处理是一种常见做法,即将客户需求汇总并批量处理。这种方法可能会在批处理时间和消费时间之间引入延迟。

同样的原则也适用于生成令牌的AI工厂。一方面,目标是为客户提供尽可能好的服务——快速响应的智能AI。另一方面,数据中心必须为尽可能多的用户生成令牌。平衡这两个目标是在AI推理中的关键挑战。

为了最大化您的收入,理想的解决方案位于右上象限,那里的曲线类似于一个正方形。这将允许以最大速度为每个人生成代币,直到工厂的极限被达到。然而,没有任何工厂能够实现这一点,因此曲线可能更为细腻。您的目标是最大化曲线下的面积,即X和Y的乘积。您越向外推,您正在建造的工厂就越好。

在整座工厂每秒代币数和响应时间方面,一个维度需要大量的计算(flops),而另一个维度则需要显著的带宽和flops。这呈现了一个难以解决的问题。最优解决方案是拥有充足的flops、带宽、内存以及其他一切。这就是为什么这台计算机如此出色——它从最大可能的flops、内存、带宽、最佳架构和最高能效开始。此外,它还需要一个编程模型,使软件能够高效地运行在这些严苛的参数上。

现在,让我们通过一个演示来具体理解这个概念。传统的大型语言模型(LLMs)捕捉基础知识,而推理模型则通过使用思维令牌来协助解决复杂问题。例如,考虑一个提示,要求在遵循传统、上镜角度以及有争执的家庭成员等约束条件下,安排婚礼桌的座位。

传统的LLM能迅速给出答案,使用不到500个令牌,但在安排宾客座位时会出现错误。相比之下,推理模型处理超过8000个令牌,以得出正确解决方案,确保活动和谐。

如您所知,为300位宾客组织一场婚礼派对并找到最优的座位安排,是一个只有人工智能或婆婆才能解决的问题。这是一项传统方法无法有效处理的任务。在这里,我们提出了一个需要推理的问题,R1通过探索各种情景、测试自己的答案并验证其正确性来应对。相比之下,上一代语言模型采用了一次性方法,迅速消耗了439个token,但结果不准确,导致这些token被浪费。为了推理这个相对简单的问题,R1需要近9,000个token,并且由于模型的复杂性,需要显著更多的计算资源。

在深入探讨结果之前,让我解释另一个方面。当考察Blackwell系统时,该系统现已通过NVLink 72进行扩展,第一步是处理模型的大小。虽然R1通常被认为是小型模型,但它包含6080亿个参数,未来模型可能会扩展到数万亿个参数。为了管理这一点,工作负载通过张量并行、流水线并行和专家并行等技术分布到GPU系统中。这些方法的组合非常广泛,配置必须根据模型、工作负载和情况进行调整,以最大化吞吐量或优化低延迟。这需要飞行批处理和聚合等高级技术,使得人工智能工厂的操作系统变得极其复杂。

像NVLink 72这样的同构架构的一个关键优势是,每个GPU都能执行所有描述的任务。我们观察到,推理模型经历了多个计算阶段,其中之一是“思考”阶段。 当你思考时,你并没有生成很多令牌。相反,你是在内部消耗令牌,可能是在阅读或消化信息的过程中。这些信息可能来自PDF、网站甚至视频,而你以超线性速率处理它们。然后,你综合这些信息来制定计划中的回应。这个信息消化和上下文处理的阶段是高度FLOPs密集型的。

接下来的阶段,称为解码,需要大量的浮点运算和巨大的带宽。例如,一个拥有数万亿参数的模型需要每秒数太字节来从HBM内存中提取模型并生成一个令牌。这是因为大型语言模型预测的是下一个令牌,而不是每个令牌。像推测解码这样的技术旨在加速这一过程,但从根本上说,模型是一次预测一个令牌。

在此过程中,整个模型和上下文,被称为KV缓存,被摄取以生成一个令牌。这个令牌随后被反馈到系统中以生成下一个令牌。每次迭代都涉及处理数万亿参数以生成一个令牌。例如,在最近的一个演示中,生成了8,600个令牌,这意味着GPU处理了数万亿字节的信息,一次生成一个令牌。

这就是为什么NVLink至关重要。NVLink使多个GPU能够作为一个单一的、巨大的GPU运行,实现终极的可扩展性。此外,NVLink允许将预填充和解码阶段分解,根据任务需求,可以将更多GPU分配给预填充,较少的分配给解码。

例如,在进行深度研究时,涉及广泛的阅读和信息综合,可以分配更多GPU用于预填充。这个过程是代理性的,涉及深度研究和答案的制定,通常会产生全面的报告。这种能力是GPU强大功能的证明,也是充分利用其潜力的乐趣所在。

这非常了不起。在整个期间,预填充非常活跃,但生成的令牌相对较少。相反,在与聊天机器人互动时,这是数百万用户参与的情景,该过程高度依赖于令牌生成和解码。根据工作负载,我们可能会分配更多的GPU用于解码或预填充。这种动态操作极为复杂。

我已经概述了流水线并行、张量并行、专家并行、飞行批处理、分解推理和工作负载管理。此外,管理KV缓存,将其路由到适当的GPU,并穿越所有内存层次结构是一项复杂的任务。处理这些的软件极为复杂。

今天,我们推出NVIDIA Dynamo,它管理所有这些功能。它充当AI工厂的操作系统。以前,数据中心使用VMware等系统来编排各种企业应用。未来,焦点将从企业IT转向代理,操作系统也将从VMware转变为Dynamo。这个系统不是在数据中心运行,而是在AI工厂运行。

Dynamo这个名字意义重大,因为发电机引发了上一次工业革命,将水转化为电。水进入,点燃成蒸汽,产生无形但极具价值的输出。虽然过渡到交流电花了80年,但发电机标志着开始。因此,我们将这款复杂的软件命名为NVIDIA Dynamo。

它是开源的,我们非常激动,因为许多合作伙伴正在与我们合作这个项目。我最喜欢的合作伙伴之一是Perplexity,不仅因为他们的革命性工作,还因为Erevin是一个如此出色的人。他们是这一努力中的绝佳伙伴。

现在,我们需要等待所有基础设施的扩展。与此同时,我们已经进行了广泛的模拟。我们用超级计算机模拟我们的超级计算机,这是合乎逻辑的。接下来,我将展示我所解释内容的好处。

回想一下工厂的图表。x轴是工厂的每秒令牌吞吐量,y轴是用户体验的每秒令牌吞吐量。目标是大量生产高度智能的AI。

这是Hopper。它可以为每个用户每秒生成大约一百个令牌。它由八个通过InfiniBand连接的GPU组成,标准化为每秒每兆瓦的令牌数。这是基于一个一兆瓦的数据中心,对于AI工厂来说相对较小。

Hopper可以为那个一兆瓦的数据中心每秒生成十万令牌。或者,如果系统进行超级批量处理,且客户愿意等待较长时间,它每秒可以生成大约二百五十万个令牌。

这是每个GTC活动的精髓所在,其入场价格涉及对复杂数学的深入探究。这是只有NVIDIA才能提供的独特体验。

所以,霍珀,你得到了250万。你怎么解读这个数字?记住,ChatGPT的成本大约是每百万个token 10美元。

每百万代币10美元。 让我们暂时假设每百万代币10美元的价格可能就定在这里。

让我来阐述这个概念。如果速率是两百万五千,乘以10,就相当于每秒2500万美元。或者,如果速率显著降低,比如说一百万,除以10后结果是每工厂每秒25万美元。考虑到一年大约有3000万秒,这相当于一个一兆瓦的数据中心所产生的收入。

目标是最大化代币速率以开发高度智能的AI,因为更智能的AI具有更高的价值。然而,这里有一个权衡:AI越先进,生产量就越低。这种平衡至关重要,这是我们力求优化的曲线。

我现在向你们展示的是世界上最快的计算机。

计算机已经彻底改变了 everything。那么,我们如何改进它呢?第一步是开发带有NVLink 8的Blackwell,保持相同的计算节点,但利用FP8。Blackwell更快、更大,并且集成了更多晶体管。然而,我们的目标不止于此,我们引入了新的精度。这并不像4位浮点那么简单,但使用4位浮点可以让我们量化模型,并在相同任务上使用更少的能量。因此,使用更少的能量可以让你做更多的事情。

记住,未来的每个数据中心都将受到电力限制,这意味着你的收入与可用电力挂钩。这与其他许多行业类似。我们现在是一个受电力限制的行业,我们的收入也将反映这一点。因此,拥有最节能的计算架构至关重要。

接下来,我们通过NVLink 72进行扩展。注意NVLink 72和FP4之间的区别。我们的架构是紧密集成的,加上Dynamo的加入,可以进一步扩展。Dynamo也对Hopper有益,但对Blackwell的影响尤为显著。只有在GTC上,这样的进步才会获得掌声。

现在,观察那两个闪亮的部分——那就是你的最大Q值所在,很可能就是你运行工厂操作的地方。你在平衡最大吞吐量和最高质量的AI。最智能的AI,输出最多——这就是你正在优化的目标。在这两个方块下面,Blackwell显著优于Hopper。

记住,这不仅仅是关于ISO芯片;而是关于ISO功率。这是摩尔定律的终极表达,在ISO功率下,一代之间实现了25倍的提升。这不是关于ISO芯片、晶体管或其他任何东西——而是关于ISO功率,这是终极限制因素。我们只能为数据中心分配有限的能量。在ISO功率下,Blackwell的效率提高了25倍。

现在,看看那道彩虹——那是最有趣的部分。Pareto前沿下的每个配置代表了数百万个我们可以配置数据中心的点。我们可以以多种方式分割和分片工作,但我们找到了最优解——Pareto前沿。每个配置,由不同颜色表示,展示了一个独特的设置。

这张图片清晰地展示了在Frontier整个范围内工作负载剧烈变化的情况下,对尽可能均匀可互换的可编程架构的需求。顶部是Expert Parallel 8,批处理大小为3,000,分解关闭,Dynamo关闭。中间部分,Expert Parallel 64使用了26%的上下文,Dynamo开启,留下74%未使用。这里的批处理大小为64,一侧是Expert Parallel 64,另一侧是Expert Parallel 4。底部,Tensor Parallel 16与Expert Parallel 4配对,批处理大小为2,上下文使用率为1%。计算机的配置在这一范围内发生了显著变化。

此测试案例,输入序列长度为1,000个标记,输出为2,000个标记,作为基准。早些时候,我们展示了8,000到9,000个标记的输出,这并不代表单个聊天,而是一个更广泛的场景。目标是构建适用于下一代工作负载的下一代计算机。在这个推理模型中,Blackwell的性能是Hopper的40倍。

这些进步确实非常显著。我之前提到过,一旦Blackwell GPU开始大规模出货,Hopper GPU将会变得过时。这一说法是正确的。如果你还在考虑购买Hopper,无需担心。它仍然是一个可行的选择。但我可是首席收入官。我的销售团队表达了担忧,但我向他们保证Hopper在某些场景中仍然适用。这是我对Hopper最积极的评价——它在特定情况下是足够的。

如果我做一个估计,技术进步的快速步伐,再加上工作负载的强度和这些类似工厂系统的规模,凸显了投资正确版本的重要性。为了更直观地说明,一个基于Hopper架构的100兆瓦工厂由45,000个芯片和1,400个机架组成,每秒可生成3亿个代币。相比之下,一个基于Blackwell的系统拥有86个芯片,这在第一眼看起来可能有些违反直觉。

我们并不是试图为您提供更少的产品。我们的销售团队很担心,詹森,你给他们的提成减少了。然而,这种方法更有效。买得越多,省得越多。 实际上,比这还要好——买得越多,赚得越多。

你知道吗?现在一切都处于AI工厂的背景下。虽然我们经常讨论芯片,但焦点始终是从规模化开始——最大限度地扩大规模。AI工厂极其复杂。例如,一个单机架包含60万个部件,重达3000磅。这些机架必须与其他许多机架相互连接。

我们正在为每个数据中心开发数字孪生,这必须在物理数据中心建造之前完成。世界正在迅速推进,以构建最先进、大规模的AI工厂。

建立一座人工智能千兆工厂是一项卓越的工程成就,需要来自供应商、建筑师、承包商和工程师的数万名工人通力合作。这项工作涉及建造、运输和组装近50亿个部件以及超过20万英里的光纤,这一距离几乎相当于从地球到月球的距离。

NVIDIA Omniverse AI工厂数字孪生蓝图使我们能够在物理建设开始之前设计和优化这些AI工厂。NVIDIA工程师利用该蓝图规划一个1-Gigawatt的AI工厂,整合了最新的NVIDIA DGX SuperPods的3D和布局数据、来自Vertiv和施耐德电气的先进电源和冷却系统,以及来自NVIDIA AIR(一个用于模拟网络逻辑、布局和协议的框架)的优化拓扑。

传统上,这项工作是在孤岛中进行的。Omniverse蓝图使我们的工程团队能够并行和协作工作,允许我们探索各种配置,以最大化总拥有成本(TCO)和电力使用效率。

英伟达利用楷登现实数字孪生技术,通过CUDA和Omniverse库加速,来模拟空气和液体冷却系统。施耐德电气采用ETAP,这是一款旨在模拟电力模块效率和可靠性的应用。

实时仿真使我们能够在数秒内而非数小时内迭代和执行大规模假设情景。数字孪生技术促进了指令向广泛团队和供应商网络的传达,最小化执行错误并加速设置过程。

此外,在规划改造或升级时,我们可以高效测试和模拟成本及停机时间,确保AI工厂保持未来适应性。

这标志着数据构建者首次表达对他们工作之美的赞赏。今天我有很多内容要讲,如果我进展得很快,并不是因为缺乏关心,而是因为需要分享的信息量很大。

让我们从我们的路线图开始。我们现在正处于Blackwell的全面生产阶段,全球的计算机公司正在规模化生产这些卓越的机器。我深深感谢你们在过渡到这一新架构中所付出的努力。在今年下半年,我们将无缝过渡到升级版Blackwell Ultra MVLink 72,它提供了1.5倍的FLOPS、一个新的注意力指令、1.5倍的内存(对KVCache等应用很有用)以及双倍的网络带宽。在相同的架构下,我们将顺利过渡到Blackwell Ultra,该产品将在今年下半年推出。

这次产品发布之所以独特,是因为它引发了人们的期待。原因在于我们正在构建AI工厂和基础设施,这需要多年的规划。这不像购买笔记本电脑那样是可随意决定的,而是一项需要精心准备的战略投资,包括确保土地、电力和资本支出,以及组建工程团队。我们提前多年进行规划,这就是为什么我早早与你们分享我们的路线图,以确保没有任何意外。例如,下个月我们将推出一个令人难以置信的新系统。

展望未来,下一个里程碑,一年后,是以发现暗物质的天文学家薇拉·鲁宾命名的。她的孙子们今天也在这里。薇拉·鲁宾CPU的性能是Grace的两倍,内存和带宽也更多,而功耗仅为50瓦,这确实令人瞩目。

Rubin系列引入了一款全新的GPU、CX9网络、SmartNIC、NVLink 6和HBM4内存。基本上,除了机箱外,一切都是新的。这种方法使我们能够在不损害基础设施的情况下,在某一方向上承担重大风险。Vera Rubin NVLink 144将在明年的下半年上市。

我需要澄清一个我犯的错误。Blackwell实际上是一个芯片中的两个GPU,但我们将其称为单个GPU,这在NVLink命名上造成了混淆。今后,当我提到NVLink 144时,意味着它连接到144个GPU,每个都是一个GPU裸片。这些裸片可以以各种方式组装,并且可能会随时间变化。每个GPU裸片都是一个GPU,每个NVLink都连接到GPU。

这为今年下半年奠定了基础,随后是明年的Rubin Ultra。这就是你寻找的目的地。这是薇拉·鲁宾天文台,配备鲁宾超系统。计划于2027年下半年启用,采用NVLink 576实现极致的可扩展性。每个机架耗电600千瓦,包含250万个组件。

该系统包含大量GPU,性能指标大幅提升。它能够实现15百亿亿次浮点运算,相较于之前提到的1百亿亿次浮点运算有显著提升。扩展带宽达到每秒4.6拍字节,相当于每秒4,600太字节。此外,该系统还配备了众多新的NVLink交换机和CX9组件。

配置由16个站点组成,每个站点包含一个封装内的四块GPU,通过一个极大的NVLink互连。为提供背景信息,这是系统的整体结构。

这将非常令人兴奋。目前,我们正在提升Grace Blackwell。需要澄清的是,它不是一台笔记本电脑。这是Grace Blackwell的外观,这是Ruben在ISO尺寸下的样子。

本质上,在扩展之前,你必须先提升规模。在提升规模之后,你就可以利用我将很快展示的卓越技术进行扩展了。

首先,我们进行规模化扩展。这有助于洞察我们进展的速度。以下是按浮点运算次数的规模化扩展情况:Hopper代表1倍,Blackwell代表68倍,Ruben代表900倍。在考虑总拥有成本(TCO)时,功耗是一个关键因素。

曲线下方的区域,正如我之前提到的,代表了曲线下的平方。这实际上等同于浮点运算次数乘以带宽。

评估你的AI工厂进展的一个直接方法是计算瓦特除以那些指标。很明显,鲁本将大幅降低成本。

英伟达的路线图每年都会像时钟一样准时更新。为了提升规模,我们引入了NVLink,而我们的扩展网络则依赖于InfiniBand和SpectrumX。许多人对我们进入以太网领域感到惊讶。我们的目标是增强以太网,使其具备与InfiniBand相媲美的特性,从而使网络更易于使用和管理。这促使我们投资于SpectrumX,它将拥塞控制、低延迟和广泛的软件集成融入我们的计算架构中。

因此,SpectrumX表现出色,使得最大的单GPU集群Colossus能够作为一个统一的系统运行。SpectrumX对我们来说是一个巨大的成功。我特别兴奋的是,它已集成到主要企业网络公司的产品线中,帮助全球企业转型为AI驱动的组织。

目前,我们通过CX-7和CX-8达到了10万台GPU,而CX-9也即将到来。我们的目标是在Ruben的任期内扩展到数十万台GPU。挑战在于扩展场景的连接性,这些数据中心规模如同体育场般庞大。

虽然铜缆因其可靠性、能效和成本效益,是扩展连接的理想选择,但硅光子对于长距离扩展连接至关重要。硅光子的主要挑战在于收发器在电信号转换为光信号过程中的高能耗,这涉及多个阶段。

首先,我们宣布推出NVIDIA首款共封装硅光子系统,这是全球首个每秒1.6太比特的CPO系统。该系统基于一种名为微环谐振器调制器的技术,并采用台积电的先进工艺技术制造,我们与台积电已合作多年。我们与庞大的技术提供商生态系统合作,共同开发了这一突破性创新。

投资MRM(微环谐振器调制器)的决定源于其相比传统电信数据中心互连中使用的马赫-曾德尔调制器具有更高的密度和功率效率。迄今为止,由于密度要求较低,马赫-曾德尔调制器已足够使用。然而,随着我们规模的扩大,MRM展现出显著优势。

举例说明,考虑一个收发器案例。我将展示的这款收发器在高批量采购中耗电30瓦,成本为1000美元。它一侧具有电接口,另一侧具有光接口。光接口采用马赫-曾德尔技术,其在连接GPU与交换机以及交换机之间发挥着重要作用。

在一个拥有10万GPU的系统中,我们一侧需要10万个收发器,另一侧还需要10万个来连接交换机。对于25万GPU,则需要额外一层交换机。每个GPU将配备六个收发器,总计耗电180瓦,成本6000美元。扩展到数百万GPU时,将需要600万个收发器,耗电180兆瓦。这引发了一个关键问题:如何管理如此巨大的能源需求,因为能源是我们最宝贵的资源。这种能源消耗将直接影响我们客户的收入,减少180兆瓦的电力。

我们通过发明世界上第一个MRM微镜取得了非凡的成就。其工作原理如下:一个波导将光线导向一个共振的环,从而控制波导的反射率,并调制通过的能量或光线。它可以选择吸收光线或允许光线通过,有效地将连续的激光束转换为二进制的1和0信号。

这个光子集成电路随后与电子集成电路、微透镜和光纤阵列集成。这些组件采用台积电的CoWoS技术制造,并与多家技术提供商合作,使用3D CoWoS技术进行封装。最终打造出一台卓越的机器。现在,让我们观看视频。

这真是一个技术奇迹。它们转变成了这些交换机,我们的InfiniBand交换机,其中硅的性能表现非常出色。在今年下半年,我们将出货硅光子交换机,而在明年的下半年,我们将出货Spectrum X。这一切得益于MRM选择以及我们在过去五年中承担的重大技术风险,期间我们申请了数百项专利,并将技术授权给了我们的合作伙伴。

现在,我们能够将硅光子技术与共封装选项相结合,消除了对收发器的需求,并允许直接光纤输入到我们的交换机中,具备512端口基数。这一成就通过其他任何方式都是不可行的。这使我们能够扩展到数十万和数百万GPU系统。

好处是巨大的;在数据中心中,我们可以节省数十兆瓦的电力。例如,六兆瓦相当于十个Rubin Ultra机架。

六十是一个重要的数字。我们现在可以将一百个鲁宾超能机架部署到鲁宾系统中。这是我们每年的路线图:每两年推出一种新架构,每年推出一条新产品线。我们在硅片、网络或系统机箱方面分阶段地承担风险,以推动行业发展,同时追求这些令人难以置信的技术。

我非常感谢薇拉·鲁宾的孙子们今天能到场。这是我们认可并纪念她杰出贡献的机会。我们的下一代产品将以费曼命名。

让我来讨论一下企业计算,这是一个至关重要的议题。为了将人工智能引入全球企业,我们首先必须探索英伟达的另一面:高斯散点的优雅之处。

为了将人工智能引入企业,让我们退一步反思一下:人工智能和机器学习已经从根本上重塑了整个计算堆栈。处理器、操作系统以及在此基础上构建的应用程序都发生了变化。应用程序的开发、编排和执行方式也发生了改变。

例如,我们访问数据的方式将从根本上不同于过去。未来,我们不再检索特定数据并进行分析,而是将与Perplexity这样的系统进行交互。我们不再使用传统的检索方法,而是直接向Perplexity提问,它会提供答案。

这就是未来企业IT的运作方式。我们将拥有AI代理作为我们数字劳动力的一部分。全球有10亿知识工作者,可能会有100亿数字工作者与他们协同工作。

未来,100%的软件工程师——全球3000万——将得到AI的辅助。我对此深信不疑。到今年年底,100%的NVIDIA软件工程师将得到AI的辅助。AI代理将无处不在,从根本上改变企业的运作方式以及我们的管理方式。

这需要新一代的计算机,这就是个人电脑应有的样子。20千万亿次。难以置信。 该系统具备72个CPU核心和芯片间接口。

此外,一些PCI Express插槽可用于您的GeForce。这被称为DGX Station。DGX Spark和DGX Station都将由包括惠普、戴尔、联想和华硕在内的所有OEM厂商提供。这些系统专为全球的数据科学家和研究人员设计,代表了AI驱动计算的的未来。这就是在AI时代计算机应有的样子。我们现在为企业提供全面的产品线,从紧凑型工作站到服务器和超级计算机,全部可通过我们的合作伙伴获得。

我们还在革新计算堆栈,它由三大支柱组成:计算、网络和存储。Spectrum X正在将企业网络转变为AI驱动的网络。存储,作为第三大支柱,正从基于检索的系统转变为基于语义的存储系统。这个新系统在后台持续将原始数据嵌入知识中。用户不再通过检索数据,而是通过提问或提出问题与数据互动。例如,Box的Aaron与我们合作,在云端部署了一个超智能存储系统。未来,这样的系统将成为每个企业的标配。

我们正在与领先的存储行业合作伙伴合作,包括DDN、戴尔、惠普企业、日立、IBM、NetApp、Newtonix、Pure Storage、Vast和Weka。存储系统将首次实现GPU加速。

迈克尔担心幻灯片的数量,给我发了一张额外的。这张幻灯片突出了戴尔即将推出的NVIDIA企业IT AI基础设施系统及其上运行的软件。它强调了我们不断革新企业技术的努力。

今天,我们还宣布了一个令人难以置信的模型,它现在完全开源且企业就绪。早些时候,我将R1(一个推理模型)与Lama 3(一个非推理模型)进行了比较,展示了R1的卓越智能。我们致力于让任何公司都能获得这样先进的模型。

这是我们系统的一部分,称为NIMS,您可以下载并在任何地方运行——在DGX Spark、DGX Station、任何OEM服务器上,或在云端。它能够无缝集成到任何代理AI框架中。我们与全球的公司合作,我想在此感谢在座的一些关键合作伙伴。

Accenture,在Julie Sweet的领导下,正在开发他们的AI工厂和框架。Amdocs,最大的电信软件公司,也在利用我们的技术。AT&T,在John Stanky的领导下,正在构建一个代理AI系统。Larry Fink和BlackRock团队正在推进他们自己的倡议。

未来,我们不仅会聘请ASIC设计师,还会从Cadence聘请数字ASIC设计师来协助芯片设计。Cadence正在将NVIDIA模型、NIMS和库集成到他们的AI框架中。这允许在本地或任何云环境中部署。Capital One,作为金融服务技术的领导者,广泛使用NVIDIA解决方案。

Deloitte,由Jason领导,ENY由Janet领导,Nasdaq由Adina领导,SAP由Christian领导,都在将NVIDIA技术集成到他们的AI框架中。ServiceNow,在Bill McDermott的领导下,也在取得显著进展。

这次主题演讲以30分钟的介绍开始,随后是同样详细的幻灯片。现在,让我们将焦点转向机器人技术。

机器人时代已经到来。机器人拥有与物理世界互动的独特优势,能够执行仅凭数字信息无法完成的任务。显然,世界正面临严重的人力短缺问题。到本十年末,全球劳动力缺口预计将至少达到5000万工人。虽然我们乐意每年为每位工人支付5万美元,但很快我们可能就会发现自己在支付同样金额让机器人来完成这些任务。这无疑将成为一个庞大的产业。

各种机器人系统将改变基础设施,全球仓库和工厂中将部署数十亿摄像头,数量在1000万到2000万之间。如前所述,每一辆车已经是一个机器人。现在,我们正朝着通用机器人迈进。一切移动的事物都将实现自主化。物理AI将使机器人融入所有行业。NVIDIA开发了三台计算机,支持机器人AI模拟、训练、测试和现实世界经验的持续循环。训练机器人需要大量数据,互联网规模的数据为常识和推理提供了基础。

然而,机器人需要动作和控制数据,而这些数据的获取成本高昂。

基于NVIDIA Omniverse和Cosmos构建的蓝图,开发者可以生成大量多样化的合成数据,用于训练机器人策略。最初,在Omniverse中,开发者根据其特定领域、机器人和任务,聚合真实世界的传感器或演示数据。然后,他们使用Omniverse来调节Cosmos,将原始捕获扩展成大量逼真且多样化的数据。最后,开发者利用IsaacLab使用增强的数据集对机器人策略进行后训练。

机器人可以通过模仿学习克隆行为,或者通过使用带有AI反馈的强化学习进行试错来获得新技能。在实验室中的练习与真实世界场景有所不同,因此新策略需要进行实地测试。开发者利用NVIDIA Omniverse进行软件和硬件在环测试,在数字孪生中模拟这些策略,该数字孪生包含了真实世界的环境动态、领域随机化、物理反馈和高保真传感器模拟。真实世界的操作通常需要多个机器人有效协作。

Mega,一个Omniverse蓝图,使开发者能够大规模测试后训练策略的车队。在这种情况下,富士康在虚拟的NVIDIA Blackwell生产设施中评估异构机器人。随着机器人大脑执行其任务,它们通过传感器模拟感知其行动的结果,并随后规划下一步。Mega允许开发者测试众多机器人策略,促进机器人作为一个协调系统运作的能力,无论是用于空间推理、导航、移动性还是灵巧性。

令人惊叹的创新源于模拟。今天,我们推出NVIDIA Isaac Groot N1,这是一个专为仿人机器人设计的通用基础模型。它基于合成数据生成和模拟内学习的原则构建而成。 Groot N1 采用双系统架构,旨在实现快速与慢速思考,灵感来源于人类认知处理原理。慢速思考系统能够使机器人感知并推理其环境和指令,并规划出适当的行动方案。

快速思维系统将计划转化为精确且连续的机器人动作。Groot N1的泛化能力使机器人能够轻松操控常见物体,并协作执行多步骤序列。通过合成数据生成和机器人学习的整个流程,人形机器人开发者可以对Groot N1进行跨多个实体、任务和环境的后训练。全球范围内,各行各业的开发者正在利用NVIDIA的三台计算机构建下一代具身AI。

物理AI和机器人技术正在迅速发展。了解该领域的最新进展至关重要。这很可能是所有行业中最大的一个。在其核心,我们面临着同样的挑战。

如前所述,我们专注于三个关键领域。他们非常系统化。

我们如何应对数据挑战?我们在哪里以及如何生成训练AI所必需的数据?什么是模型架构?以及什么是缩放法则?我们如何扩展数据、计算或两者兼而有之,以持续提升AI智能? 这些基本问题同样适用于机器人领域。

在机器人领域,我们开发了一个名为Omniverse的系统,这是我们用于物理AI的操作系统。你们已经听我详细讨论过Omniverse。今天,我将介绍两项集成到其中的新技术。

第一项技术使我们能够通过生成能力来扩展AI——一个理解物理世界的生成模型,我们称之为Cosmos。通过使用Omniverse来条件化Cosmos,并利用Cosmos生成无限数量的环境,我们可以创建既接地气又受控,但系统上无限的数据。例如,Omniverse使用糖果色来展示在场景中精确控制机器人,而Cosmos则生成多样化的虚拟环境。

第二项能力,如前所述,涉及通过带有可验证奖励的强化学习,显著扩展语言模型的潜力。在机器人领域,可验证奖励受物理定律的支配。 可验证的物理奖励。

我们需要一个专为精确应用定制的高级物理引擎。虽然大多数物理引擎是为各种目的设计的,比如大型机械或像视频游戏这样的虚拟世界,但我们需要的是一个特别用于精细的刚体和软体仿真的引擎。

这个引擎必须支持触觉反馈训练、精细运动技能和执行器控制。它应该是GPU加速的,以便虚拟世界能够以超线性时间运行,从而促进快速的人工智能模型训练。此外,它必须能够无缝集成到Mujoco中,这是一个全球机器人学家广泛使用的框架。

今天,我们很高兴地宣布DeepMind、迪士尼研究和NVIDIA之间的一项突破性合作,名为牛顿。让我们详细探索一下牛顿。

让我们重新开始,确保不要破坏了他们的体验。

请提供反馈。我需要您的意见。发生了什么?我需要和一个真人交谈。拜托,这是个不错的笑话。给我找个真人来聊聊。詹妮,我知道这不是你的错,但和我说话吧。我们只剩下两分钟了。他们正在审查它。他们在重新上架吗?我不确定这是什么意思。那并不引人注目。嘿,蓝。你喜欢你的新物理引擎吗?触觉反馈、刚体和软体模拟都是超实时的。你刚刚目睹的是一场完整的实时模拟。这就是我们未来训练机器人的方式。Blue里面有两台NVIDIA计算机。你确实很聪明。

嘿,布鲁。让我们带他们回家,结束这次主题演讲吧。午餐时间到了。你准备好了吗?让我们总结一下。我们还有另一个公告。你做得很好。请站在这里。很好。就在那里。好的,站起来。

我们有一个令人兴奋的新公告。机器人的进步非常显著,今天我们自豪地宣布Groot N1现已开源。 感谢大家参加GTC。让我们回顾一下关键亮点。

首先,Blackwell已全面投入生产,得益于强劲的客户需求,其增长速度令人难以置信。这是由于AI的转折点,推理AI、训练AI系统和代理系统的计算需求显著增加。

其次,配备Dynamo的Blackwell NVLink 72提供了比Hopper高出40倍的AI工厂性能。随着我们扩展AI,推理将成为未来十年最关键的工作负载之一。

第三,我们已建立年度路线图节奏,以帮助您规划AI基础设施。我们正在构建三种AI基础设施:用于云、企业和机器人。

最后,我们还有一项特别的公告要告诉大家。播放它。感谢所有为制作这个视频付出努力的人。祝GTC大会圆满成功。谢谢。

嘿,蓝。

我们回家吧。

干得好。谢谢。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询