微信扫码
与创始人交个朋友
我要投稿
点击卡片 关注我们
虎嗅智库荐语:
2025 年拉斯维加斯 CES 展会上,英伟达 CEO 黄仁勋发表的重磅演讲,成为科技界关注的焦点。
英伟达发布的三款新 Blackwell 系统在硬件性能和功能上有哪些关键突破?AI Agents 实现大规模商业化落地,可能面临哪些技术和市场层面的挑战?英伟达针对智能代理机器人、人形机器人和自动驾驶汽车分别采取了哪些关键技术和策略?
本文将梳理演讲内容,深入探讨相关技术和应用如何具体影响各个行业,揭示人工智能领域的前沿动态与未来趋势。
编者按: 昨天,在拉斯维加斯CES 2025展会上,英伟达CEO黄仁勋发表重磅演讲,首次系统性展示了AI Agents的商业全景图。在全球媒体聚焦新品发布的同时,黄仁勋实际上描绘了一个更具战略意义的愿景:AI Agents将成为继个人电脑和互联网之后,又一个推动人类社会变革的重大技术突破。更重要的是,他首次明确指出了5大最具潜力的商业化方向,这些领域很可能率先诞生新的科技巨头。
【文章核心预览】
NVIDIA 2025年三大突破:
发布三款新Blackwell系统,包括Grace Blackwell超级计算机和NVLink 72系列
推出世界首个物理AI基础模型Cosmos
布局三大关键机器人领域:
智能代理机器人(Agentic AI)
人形机器人(Humanoid Robots)
自动驾驶汽车(Self-Driving Cars)
AI agents5大要点:
重大突破:英伟达首次系统展示AI Agents的应用版图
5大领域:已经开始商业化的具体场景和案例
技术支撑:Nemo平台如何让AI Agents实现规模化落地
市场机会:全球10亿知识工作者的工作方式将被重塑
落地路径:从概念到实践的完整解决方案
"未来,每家公司的IT部门都将成为AI Agent的'人力资源部'。"在CES 2025演讲中,黄仁勋用这个看似简单的比喻,揭示了一场正在酝酿的产业革命。就像40年前个人电脑改变了每个办公室,30年前互联网改变了信息传播方式一样,AI agents正在开启一个全新的数字劳动力时代。
在演讲中,他还展示了一系列足以改变行业格局的AI Agents实际应用案例:
制药巨头正在使用虚拟实验室代理,同时筛选数十亿种化合物,将新药研发效率提升到前所未有的水平
气象部门的AI代理将天气预测精度从25公里提升到2公里,为防灾减灾提供关键支持
全球领先的科技公司部署了24小时不间断工作的代码安全代理,显著降低了安全漏洞风险
NVIDIA Metropolis代理每天能处理来自全球数十亿摄像头的10万PB视频数据,开创了智慧城市的新范式
这新市场不是一个遥远的未来。全球现有10亿知识工作者,他们的工作方式都将被AI agents重塑。从简单的文档处理到复杂的研发项目,从日常运营到战略决策支持,AI agents将像数字员工一样融入企业的日常运作。NVIDIA预测,这将创造一个规模达数万亿美元的全新市场,堪比甚至超越互联网带来的商业价值。与以往的技术革命不同,AI agents的革命性在于它首次让机器具备了"员工属性"。通过NVIDIA的Nemo平台,企业可以像招聘真实员工一样引入和培养AI agents。这些数字员工不是简单的自动化工具,而是能够理解企业文化、掌握专业术语、适应特定工作流程的智能助手。它们可以编写代码、分析文档、设计产品,甚至协助突破科研瓶颈。
更令人振奋的是,这一愿景已经开始显现实际成果。从律师事务所到设计工作室,从研发中心到金融机构,AI agents正在成为人类员工的"数字同事"。它们不是来替代人类,而是来增强人类的能力,释放人类的创造力。
那么,这些AI Agents究竟将在哪5大领域率先爆发?它们将如何创造一个规模达数万亿美元的全新市场?让我们通过黄仁勋的完整演讲,一起解读这张改变未来的产业蓝图。
这是智能的诞生之道——一种全新的工厂,生成了“令牌”(Tokens),人工智能的构建基石。令牌开启了一个新边界,这是进入非凡世界的第一步,在这里,无尽的可能性得以诞生。
令牌将文字转化为知识,为图像赋予生命;它们将想法变成视频,帮助我们安全地穿越任何环境。令牌教机器人如大师般移动,激发我们庆祝胜利的新方式。“一杯马提尼,谢谢!”“点亮吧!”“谢谢,亚当。”当我们最需要它们时,令牌还为我们提供安心。“嗨,摩洛卡,嗨,安娜,很高兴再次见到你。”“嗨,艾玛,我们今天要采集你的血样。”“别担心,我会全程陪着你。”
它们赋予数字意义,帮助我们更好地理解周围的世界,预测潜在的危险,并找到解决内部威胁的治疗方法。令牌可以让我们的愿景成真,甚至恢复我们失去的东西。“扎卡里,我的声音回来了,伙计。”它们帮助我们一步步向前迈进,并一起实现跨越式的飞跃。而这一切的起点就在这里。
欢迎来到NVIDIA舞台——我是创始人兼 CEO 黄仁勋。大家是否很高兴来到拉斯维加斯?喜欢我的夹克吗?我想和 Gary Shapiro(CES总裁) 相比走另一条路。毕竟这是拉斯维加斯,如果大家不接受,嗯,那就习惯它吧。我想,真的,我认为你们需要时间消化,但一小时后你们会喜欢的。
欢迎来到 NVIDIA,事实上,你们现在置身于 NVIDIA 的数字孪生世界,我们将带你进入 NVIDIA。女士们先生们,欢迎来到 NVIDIA,您正在我们的数字孪生世界中,一切都由 AI 生成。这是一段非凡的旅程,也是非凡的一年。
一切始于 1993 年,随着 NV1 的发布。我们希望构建能够完成普通计算机无法实现的事情的计算机。NV1 让在个人电脑上实现游戏主机的体验成为可能。我们的编程架构被称为 UDA,意为“统一设备架构”。第一款运行在 UDA 上的应用是世嘉的《虚拟格斗》。六年后,1999 年,我们发明了可编程 GPU,这开启了 20 多年的惊人进步,使现代计算机图形成为可能。如今,30 年后,世嘉的《虚拟格斗》已完全电影化,这是即将发布的新《虚拟格斗》项目。
六年之后,即 2006 年,我们发明了 CUDA,为 GPU 的可编程性提供了表达方式。起初,CUDA 的概念很难解释,花了大约六年时间,直到 2012 年,Alex Krizhevsky 和 Jeff Hinton 使用 CUDA 处理 AlexNet,这改变了一切。AI 以惊人的速度进步,从感知 AI 到生成 AI,现在则是能感知、推理、规划和行动的代理型 AI。
接下来是物理 AI 的阶段,这也是今晚我们将探讨的一部分。2018 年,谷歌发布了 Transformer(例如 BERT),彻底改变了 AI 和计算领域。我们意识到 AI 不仅是一种新应用或商业机会,更重要的是,Transformer 推动的机器学习将从根本上改变计算的工作方式。如今,计算的每一层都被重新定义。
AI 技术栈的每一层都发生了翻天覆地的变化。今天,我们可以理解几乎任何模态的信息,不仅是文本、图像和声音,还包括氨基酸和物理现象。应用程序的可能性是无穷无尽的。实时计算机图形的实现离不开人工智能。我们使用了可编程着色器和光线追踪引擎,同时让 AI 根据已训练的神经网络生成额外的像素。例如,通过 DLSS 技术,我们不仅渲染了每帧的 200 万像素,还通过 AI 推测生成了另外 3300 万像素,这种能力让高效渲染成为可能。
这就是人工智能的非凡能力之一,也正因如此,许多令人惊叹的事情正在发生。我们曾用 GeForce 推动人工智能发展,而现在人工智能正在革新 GeForce。
今天,我们宣布下一代产品——RTX Blackwell 系列。
这是全新的 GeForce RTX 50 系列,采用 Blackwell 架构。这款 GPU 是一个真正的“怪兽”,拥有 920 亿个晶体管、4000 TOPS(每秒万亿次运算)、4 PetaFLOPS 的 AI 性能,比上一代 Ada 架构提高了三倍。为了生成这些像素,我们需要 380 光线追踪 TeraFLOPS,以计算最精美的图像。此外,还有 125 着色器 TeraFLOPS,并支持浮点和整数计算的双着色器设计。显存使用来自美光(Micron)的 G7 内存,带宽达到每秒 1.8 TB,比上一代性能提高一倍。
这一代产品的特别之处在于,编程着色器不仅能处理计算图形任务,还能运行神经网络。我们因此发明了神经纹理压缩(Neuro-Texture Compression)和神经材质着色(Neuro-Material Shading),通过 AI 学习纹理和压缩算法,生成了令人惊叹的画面效果。
这是全新的 RTX Blackwell 系列。甚至连机械设计都是一个奇迹。看看这款显卡,它采用双风扇设计,整个显卡看起来像是一个巨大的风扇。这张卡的电压调节设计堪称最先进,工程团队做得非常出色。
接下来是规格和性能对比。这是 RTX 4090,售价 1599 美元。它是您能买到的最值得的投资之一,花 1599 美元就能将它带回家,升级您的价值 1 万美元的 PC 娱乐指挥中心。这听起来很合理,对吧?别否认了!你可能还给它装了水冷系统和炫酷灯光,甚至出门时会锁好房间。
现在,Blackwell 系列的 RTX 5070,能以 549 美元的价格提供 RTX 4090 的性能。这是不可能实现的,除非借助人工智能、4000 TOPS 的 AI Tensor Cores 和 G7 内存。
完整系列包括从 RTX 5070 到 RTX 5090,性能从 5070 开始逐步提升,而 5090 的性能是 4090 的两倍。大规模生产将在 1 月开始。
令人惊叹的是,我们还将这些性能强大的 GPU 装入了笔记本电脑。例如,这款 570 笔记本售价 1299 美元,性能相当于 4090。看看这款 14.9 毫米的轻薄笔记本,它搭载了 5080、5070 Ti 和 5070 的 GPU。
RTX Blackwell 系列标志着 AI 和计算图形的深度融合。通过 AI,我们只需追踪必要的像素,其他像素由 Tensor Cores 生成。这极大提高了能效,代表了计算机图形的未来——神经渲染(Neural Rendering)。
人工智能行业正追逐并扩大规模。缩放定律(Scaling Law)是一种强大的经验模型,研究人员和行业多年来已多次观察并验证。该定律指出,模型的能力与训练数据量、模型规模以及计算能力呈正相关。换句话说,数据越多、模型越大、计算能力越强,模型的效果就越好。缩放定律仍在继续。令人惊叹的是,我们正迈向一个新时代。如今,每年的互联网数据生成量是去年的两倍。在未来几年里,人类生成的数据量将超过有史以来所有人类生成数据的总和。我们正以惊人的速度产生大量数据,且这些数据越来越多样化,包括视频、图像和声音等多模态数据。这些数据都可以用于训练 AI 的基础知识。
然而,实际上现在出现了另外两个新的缩放定律,其原理非常直观。
后训练缩放定律采用强化学习(RLHF)和人类反馈等技术。基本过程是,AI 根据人类的查询生成答案,而人类提供反馈。这种过程比描述的更复杂得多,但通过强化学习和高质量的提示,AI 能够不断优化其技能,专注于特定领域的任务。例如,它可以更好地解决数学问题或推理问题。这类似于人类学习过程中的导师指导,在学校学习后通过测试和反馈不断提升能力。
此外,还有 AI 自我反馈和合成数据生成。这类似于自我练习,例如,AI 被呈现一个复杂且可验证的问题,并通过强化学习不断改进,直到找到正确答案。这种方法可以用来证明定理、解决几何问题等。这就是所谓的后训练,尽管需要大量计算资源,但最终会产生成果非凡的模型。
测试时缩放定律适用于 AI 实际应用阶段。AI 可以动态分配计算资源,而不是固定优化其参数。换句话说,AI 在推理时可能会将问题分解为多个步骤,生成多个想法,并评估其中最优的解决方案。这种方法允许 AI 更具逻辑性地解决问题,也被称为“深度思考”或“逐步推理”。
这些缩放定律的结合正在推动 AI 技术的惊人进步,从 ChatGPT 到 o1、o3,再到 Gemini Pro,所有这些系统都经历了从预训练到后训练再到测试时扩展的过程。计算需求正在不断攀升,推动了 NVIDIA 的计算技术发展,并对 Blackwell 系列芯片的需求激增。
我们接下来介绍 Blackwell。这一系列 GPU 目前已全面量产。以下是其特点:
大规模部署:每个云服务提供商都在运行基于 Blackwell 的系统,已有超过 200 种配置可供选择,适应几乎所有数据中心。
制造规模:这些系统由全球 45 家工厂生产,包括液冷和风冷版本,并采用 NVIDIA 的 Gray CPU 技术。
高性能连接:支持 36x2 和 72x1 的 NVLink 连接,铜缆总长度达 2 英里,涉及 5000 根电缆。
能效提升:与上一代相比,Blackwell 在每瓦性能上提升了 4 倍,每美元性能提升了 3 倍。这意味着我们在一代产品中将模型训练成本降低了 3 倍,或可以用相同成本扩大模型规模至 3 倍。
为了满足 AI 的计算需求,NVIDIA 开发了一个庞大的系统,称为 AI 工厂。这个系统由 112 吨的硬件组成,包括约 60 万个组件,相当于 20 辆汽车的重量。我们在工厂完成液冷和测试后,将系统拆解并运送至数据中心,再进行组装和安装。这种大规模的制造和部署方式展现了 AI 技术的巨大需求。
所有这一切的目标,是为了打造一块巨型芯片以应对海量计算需求。这些系统生成的 AI 令牌被广泛应用于 ChatGPT、Gemini 和其他应用程序。这些令牌代表了人工智能的计算成果,是驱动现代计算的核心。
Blackwell 系列凭借其非凡的性能,为每个数据中心创造了更多价值。通过性能和能效的显著提升,AI 工厂的效益成倍增长。这是 AI 和计算行业发展的关键一步。
我们展示的是由 72 块 Blackwell GPU 组成的系统,总计 144 个芯片模组。这一个系统的 AI 浮点性能达到了 1.4 ExaFLOPS。要知道,世界上最快的超级计算机也只是最近才达到 ExaFLOPS 的水平,而这个系统已经超越了这一成就,达到了 1.4 ExaFLOPS。它还配备了 14 TB 的内存,但最惊人的地方是内存带宽达到了每秒 1.2 PB(Petabytes)。这相当于全球互联网流量的实时处理能力,所有这些流量都能在这些芯片上完成处理。
总的来说,这个系统包含 130 万亿个晶体管、2592 个 CPU 核心,并搭载了大量网络连接。我们展示了 Blackwell 芯片、ConnectX 网络芯片以及 NVLink Spine 的强大连接功能。HBM 高带宽内存达到了惊人的 14 TB。Blackwell 芯片不仅是世界上最大的单芯片模组,它的设计还实现了全新突破。这也是 NVIDIA 的 Grace Blackwell 系统的核心部分。所有这些系统的目标,是为更大规模的模型训练和更复杂的推理任务提供支撑。
今天的 AI 推理通常以每秒生成 20 到 30 个令牌的速度进行输出,这已经足够跟上人类阅读速度。然而,随着 AI 系统的发展,例如 GP1、Gemini Pro 和最新的 0103 模型,AI 不仅在生成内容,还开始“自我对话”和“反思”。这意味着推理阶段需要的令牌生成速度将大幅提升,同时成本需要显著降低,以确保高质量的服务和更低的客户使用成本。
未来的 AI 推理不再是简单的问答,而是多模型协同工作的过程。例如,AI 系统可能需要:
因此,测试时缩放定律的计算需求将显著增长,以满足更复杂的推理任务。这推动了 NVIDIA 的发展目标,即为行业构建支持 Agentic AI(代理型 AI)的基础设施。
为支持 Agentic AI 的发展,NVIDIA 的市场策略不是直接面向企业客户,而是通过与软件开发者和 IT 生态系统合作,将 NVIDIA 的技术集成到应用中。这与当初 CUDA 库的推广方式相似。
我们为此提供了三种主要工具:
NVIDIA NIMS(AI 微服务):这些是封装好的 AI 微服务,集成了复杂的 CUDA 软件(如 CUDA DNN、Cutlass、TensorRT、Triton)以及 AI 模型。通过优化后,这些模型被打包成容器,便于在各个环境中部署。
广泛的 AI 模型库:我们提供覆盖多个领域的 AI 模型,包括计算机视觉、语言理解、语音、动画、数字生物学等领域。此外,还将推出适用于物理 AI 的新模型。
跨云支持:NVIDIA 的 GPU 和 AI 技术现已应用于所有主流云平台和 OEM 厂商,使 AI 模型能够在任何云环境中运行。
通过这些模型,您可以将它们集成到您的软件包中,创建能够运行在 Cadence、ServiceNow 或 SAP 等平台上的 AI 代理。这些代理可以部署到客户的环境中,并根据客户需求运行。
接下来的一个层级是 NVIDIA Nemo。Nemo 本质上是一个数字员工的入职、培训和评估系统。在未来,这些 AI 代理将成为数字化的劳动力,与您的员工协作完成任务,甚至替您执行某些工作。
引入这些专用代理的方式类似于为公司招聘员工的流程。Nemo 提供了多种库,帮助这些 AI 代理适应您公司的语言风格、独特术语、业务流程和工作方式。例如,您可以向 AI 代理提供您的工作成果示例,它们会尝试生成类似的结果。随后,您可以对它们进行反馈、评估和调整。同时,您可以为这些代理设置边界,例如指定它们不能执行的操作或访问的信息。
这一整套数字员工管理流程被称为 Nemo 数字员工平台。未来,每家公司的 IT 部门都将成为 AI 代理的“人力资源部”。今天,IT 部门主要管理和维护来自 IT 行业的各种软件;而未来,它们将负责管理、培养、入职和优化一大批数字代理,并将这些代理分配给公司使用。
为了支持这一生态系统,NVIDIA 提供了多种 开放的蓝图(Blueprints),供开发者自由使用和修改。这些蓝图覆盖了各种不同类型的代理,完全开源,企业可以根据自身需求进行定制和扩展。
今天,我们还宣布了一个非常重要的计划——基于 Llama 的全新模型家族,即 NVIDIA Llama Neotron 语言模型套件。
Llama 3.1 已成为一大现象。根据 Meta 数据,Llama 3.1 的下载量已达 35 万到 65 万次,并衍生出了 6 万多种模型。Llama 3.1 是推动几乎每个企业和行业开始研究 AI 的核心动力之一。
我们意识到,Llama 模型可以通过针对企业使用进行优化而变得更加优秀。因此,NVIDIA 利用自身专业知识对这些模型进行了优化,推出了 Llama Neotron 开放模型套件。
小型化模型:适用于响应时间要求极高的场景,这些模型非常小巧高效。
超级模型(Super Llama Neotron):主流版本的模型,性能全面,适合广泛使用。
超大型模型(Ultra Model):这些模型功能非常强大,能够作为“教师模型”来训练其他模型。例如,它们可以作为奖励模型、评估器或判别器,用于验证其他模型生成的答案是否优秀,并提供反馈。此外,这些模型还可用于知识蒸馏(Knowledge Distillation)任务,帮助创建更高效的小型模型。
我们现在提供的这些模型,可以轻松集成到您的软件包中,创建 AI Agent。例如,它们可以运行在 Cadence、ServiceNow 或 SAP 等平台上,部署到客户环境中,并根据客户需求运行。
NVIDIA Nemo 平台 是一个数字员工入职、培训和评估系统。未来,这些 AI 代理将成为数字化劳动力,与人类员工协作,或直接代表人类完成任务。为这些代理“入职”的过程类似于公司雇佣员工。Nemo 提供了不同的库,帮助代理适应企业的语言风格、独特术语和业务流程。例如:
您可以提供工作成果的示例,代理会尝试生成类似的结果;
您可以提供反馈,对它们进行评估和优化;
设置行为规则,限定它们可以访问的信息或执行的操作。
通过 Nemo 平台,IT 部门将成为 AI Agent的“人力资源部门”,管理、优化和部署这些数字员工。为支持这一生态,NVIDIA 提供了开放的 蓝图(Blueprints),企业可以自由定制,用于构建各种领域的 AI Agent。
我们今天还宣布了 Llama Neotron 语言模型 的完整套件。这些模型在多个排行榜(如聊天、指令、信息检索)中名列前茅,功能卓越,可广泛应用于全球 AI Agent开发中。
我们与生态系统合作伙伴紧密协作,例如:
ServiceNow、SAP 和西门子:开发工业 AI;
Cadence 和 Synopsys:进行芯片设计和开发;
Perplexity:革命化搜索体验;
Codium:为全球 3000 万软件工程师提供 AI 编程助手。
AI 编程助手将是下一个大规模 AI 应用。全球有 10 亿知识工作者,AI Agent将成为新一代的“机器人产业”,并可能创造 数万亿美元的市场机会。
我们与合作伙伴一起开发了一些 AI Agent的应用示例:
AI 研究助手:能够消化复杂文档(如讲座、期刊、财务报告),并生成互动播客,帮助知识工作者和学生轻松学习。
天气模拟代理:将全球天气预测从 25 公里缩小到 2 公里,提高预测精度。
软件安全代理:自动扫描软件漏洞,并向开发者发出警告,提出修复建议。
虚拟实验室代理:帮助研究人员设计和筛选数十亿种化合物,加速新药开发。
NVIDIA Metropolis 代理:分析来自全球数十亿摄像头的数据(每天生成约 10 万 PB 的视频),用于交通监控、事件报告和流程优化。
AI Agent是新的数字劳动力,能够协助和支持人类完成任务。我们正在迎来 Agentic AI 的时代。
AI 最初是在云端创建的,并为云而生。随着 AI 的发展,我们希望将 AI 技术扩展到 PC 和本地设备中。回顾历史,Windows 95 革新了计算机行业,引入了多媒体服务的新模式。然而,传统的计算模式并不完全适配 AI。因此,我们需要一种新的系统,让 AI 成为用户的个人助手,提供生成式 3D、语言、声音等多种能力。
幸运的是,答案就在 Windows WSL2(Windows 子系统 Linux 2)。WSL2 是为开发者设计的双操作系统架构,直接访问硬件,支持云原生应用,并已针对 CUDA 进行了优化。这意味着:
NVIDIA 的所有技术(如 NIMS、Nemo 和 Blueprints)都可以直接在 PC 上运行;
各种模型(如视觉、语言、语音、动画)都可轻松适配;
用户可以直接下载并运行这些模型,实现 AI 技术的本地化应用。
我们的目标是将 Windows WSL2 和 Windows PC 打造为顶级 AI 支持平台,并为开发者和工程师提供长期支持。这对于全球开发者而言是一个极大的利好。
生成式 AI 可以通过简单的文本提示生成令人惊叹的图像,但仅使用文字对图像的构图进行控制可能会有些挑战。借助 NVIDIA NIM 微服务,创作者可以使用简单的 3D 对象来引导 AI 图像生成。以下是一个示例展示:
概念场景的构建:艺术家从手工创建的或通过 AI 生成的 3D 资产开始,布置场景。
图像生成:使用图像生成 NIM(如 Flux)来生成符合 3D 场景的视觉效果。
精细调整:可以添加或移动对象以优化构图,调整相机角度以捕捉完美镜头,甚至通过新的文本提示重新构想整个场景。
通过生成式 AI 和 NVIDIA NIM 微服务,艺术家可以快速实现自己的创意愿景。这种技术即将普及到全球数亿台 Windows PC 上。我们与全球领先的 PC OEM 厂商合作,确保他们的设备能够支持这一技术堆栈。
谈到物理 AI,我们需要将生成式 AI 的理念应用到物理环境中。试想以下场景:
当前的生成式 AI工作方式:生成式 AI(如 Transformer 模型)通过左侧的上下文或提示输入(例如加载 PDF 文档或多个 PDF),将内容转化为令牌。然后,模型通过自注意力机制(attention)计算每个令牌之间的关系和相关性。每一层 Transformer 都处理这些输入序列,生成一个令牌,接着生成下一个令牌。这种逐个生成的方式非常强大,但也对计算资源提出了极高要求,这也是我们需要 Blackwell 的原因。
物理 AI 的工作方式:如果输入的不再是 PDF,而是物理环境的感知内容呢?如果提示不再是文本问题,而是任务请求,例如:“走到那边,拿起那个箱子带回来”。在这种情况下,生成的令牌不再是文本,而是 动作令牌(Action Tokens)。
物理 AI 将环境感知作为上下文输入,将任务请求作为提示,通过类似生成式 AI 的计算生成一系列动作指令。这个过程使 AI 能够理解环境并执行复杂的物理任务。同时,将生成式 AI 的技术优势扩展到机器人和其他物理环境中,实现从文本生成到动作生成的飞跃。NVIDIA 正在通过强大的硬件(如 Blackwell GPU)和优化的软件堆栈,为这一领域的突破奠定基础。
我刚才描述的内容,展示了未来机器人技术的方向。这需要创建一个世界模型,与 GPT 等语言模型不同,这个世界模型必须理解物理世界的语言。具体来说,它需要掌握以下关键概念:
物理动态:例如重力、摩擦和惯性。
几何和空间关系:理解物体之间的相对位置和运动方式。
因果关系:知道“如果你掉下某物,它会落到地上”,“如果你推它,它会倾斜”。
物体永久性:知道物体不会因为超出视线就消失,例如滚落厨房台面的球仍然存在于地面上。
这些直觉性理解是人类的常识,但当前的大多数模型在这方面表现欠佳。为了实现这个目标,我们需要一个世界基础模型。
今天,我们正式发布 世界基础模型NVIDIA Cosmos,这是一款设计用于理解物理世界的世界基础模型。以下是 Cosmos 的主要特点及应用:
Cosmos 平台的核心功能
世界基础模型开发平台:Cosmos 包含自动回归模型(适用于实时应用)、基于扩散的世界基础模型(生成高质量图像)和高级标记器,以及 CUDA 和 AI 加速的数据处理管道。
数据输入与生成:Cosmos 模型可以处理文本、图像或视频提示,并生成虚拟世界状态(以视频形式输出)。生成的世界状态注重自动驾驶和机器人等应用场景的需求,例如真实环境、光照和物体永久性。
物理仿真与场景生成:开发者可以利用 NVIDIA Omniverse 构建基于物理的、地理空间精确的场景,将这些场景渲染后输入 Cosmos。Cosmos 能生成具有真实感的物理基础合成数据,涵盖多样化的物体、环境、天气、时间及边缘场景。
实时决策支持:Cosmos 能在实时中生成令牌,提供多未来模拟的能力(类似“奇异博士”预见多种可能性),帮助模型选择最佳路径。
合成数据生成:Cosmos 可用于生成用于训练 AI 模型的大规模高质量合成数据。
机器人模型训练:基于 Cosmos 的物理 AI,可以为机器人开发提供种子模型,生成多个物理上可能的未来场景,用于政策模型的改进和测试。
多模态训练支持:Cosmos 生成的视频和高质量标注可以用于训练多模态大模型(如语言模型),进一步扩展 AI 的能力。
工业与自动驾驶:利用 Cosmos 的真实物理动态建模能力,开发自动驾驶和工业 AI 应用。
多模型架构:自动回归模型,适用于实时应用;扩散模型,生成高质量图像;标记器,学习物理世界的“词汇”。
加速数据管道:Cosmos 提供端到端的 CUDA 和 AI 加速数据处理管道,支持开发者在自己的数据上进行进一步训练。
开放许可:Cosmos 采用开放许可协议,已在 GitHub 上开源。Cosmos 提供小型、中型和大型模型,分别适用于快速响应、主流应用和教师模型(知识传递模型)。
Cosmos 是一个以物理为基础的模型,与 Omniverse 的结合使其具备了算法驱动的物理模拟能力。这种连接提供了 真实的“地基真理”(Ground Truth),用于校正和指导 Cosmos 的生成。这与将大语言模型连接到增强检索生成系统(RAG)的原理相似,目的是让 AI 的生成结果基于真实数据。
通过这种组合,Cosmos 和 Omniverse 共同构建了一个 物理模拟的多重宇宙生成器,为机器人技术和工业应用提供了新的可能性。这种系统能够模拟现实中的物理动态,并生成基于真实场景的多种未来情况,为 AI 模型选择最佳路径提供支持。
未来,每个机器人系统都需要三种基本的计算机:
训练 AI 的计算机(DGX):用于训练 AI 模型。
部署 AI 的计算机(AGX):部署在汽车、机器人或自主移动机器人(AMR)中,在边缘设备上独立运行。
数字孪生计算机(Omniverse + Cosmos):提供 AI 训练后的实践场所,通过生成合成数据、强化学习和反馈优化模型。
这三种计算机将协同工作,形成 NVIDIA 针对工业世界的三计算机策略。这一策略适用于工厂、仓库、车辆等多种场景。
全球工业自动化的需求:
Keon 和 Accenture 合作的项目:
具体应用示例:
任务分配与模拟 Keon 的仓库管理解决方案将任务分配给数字孪生中的工业 AI,例如将负载从缓冲区移动到存储区。
数字孪生建模 使用 Omniverse 构建的数字孪生环境,整合 CAD、视频、图像、点云和 AI 生成的数据,形成高精度的 3D 模型。
机器人任务执行与决策 机器人通过感知和推理数字孪生环境,规划下一步动作并执行任务。通过传感器模拟,机器人持续更新状态并优化决策。
无限场景模拟 Keon 使用 Mega(NVIDIA Omniverse 蓝图)对无限场景进行大规模模拟,测量运营 KPI(如吞吐量、效率和利用率),并在实际部署前优化仓库流程。
通过这种方法,Keon 和 Accenture 正在重新定义工业自治。这种模拟环境使未来的每座工厂都拥有一个数字孪生,与真实工厂完全同步。未来的每家工厂都将拥有一个数字孪生,完全模拟实际操作。借助 Omniverse 和 Cosmos,可以生成多种未来场景,AI 会自动选择最优方案,根据关键绩效指标(KPI)生成最佳策略,并部署到真实工厂中。这种方法为工业自动化带来了革命性的转变。
自动驾驶是一个潜力巨大的行业。每年全球生产约 1 亿辆汽车,道路上运行的车辆超过 10 亿辆,行驶总里程达到 1 万亿英里。未来,这些车辆将实现高度或完全自动化。预计自动驾驶将成为 第一个万亿美元级的机器人产业。
多年来,随着 Waymo 和 Tesla 的成功,自动驾驶技术的到来已经毋庸置疑。我们的解决方案包括:
训练系统:用于训练 AI 模型的 NVIDIA DGX。
模拟系统和合成数据生成:基于 Omniverse 和全新的 Cosmos 平台,提供数字孪生技术。
车载计算机:为每辆车提供内部的超级计算能力。
我们与全球几乎所有主要汽车制造商合作,包括特斯拉、比亚迪(全球最大的电动车制造商)、捷豹路虎(JLR)、梅赛德斯、丰田等。今天,我非常高兴地宣布,丰田与 NVIDIA 将合作开发下一代自动驾驶系统。我们的业务规模已经达到显著水平:仅从目前几款量产车型来看,NVIDIA 的收入已达 40 亿美元,预计今年将达到 50 亿美元。
今天,我们宣布推出下一代车载计算机 NVIDIA Thor。这是一个通用的机器人计算机,能够处理来自多种传感器的大量信息,包括摄像头、高分辨率雷达和激光雷达。Thor 的核心功能包括:
处理能力:Thor 的性能是上一代 Orin 的 20 倍。Orin 是当前自动驾驶领域的标准,而 Thor 则代表了下一代技术。
通用性:Thor 不仅适用于自动驾驶汽车,也可作为机器人的核心计算单元,例如 AMR(自主移动机器人)或人形机器人。
安全性:Thor 搭载的 Drive OS 是首个通过 ASIL-D(汽车功能安全最高标准)认证的可编程 AI 计算机。其开发耗费了约 15,000 人工年。
我们利用 Omniverse 和 Cosmos 创建自动驾驶车辆的数字孪生,并自动生成训练所需的大量数据。以下是具体流程:
环境建模与合成数据生成:
神经重建引擎
使用自动驾驶传感器日志,生成高保真 4D 仿真环境。
在 3D 环境中重播驾驶场景,生成场景变化以扩充训练数据。
资产生成
海量数据生成与优化
训练规模化
- 通过 NVIDIA 的 AI 数据工厂,将数千次驾驶记录转化为数十亿英里的训练数据。
利用这种方法,我们可以将数千次实际驾驶记录转化为数十亿英里的训练数据,为自动驾驶提供海量数据支持。尽管我们仍需不断从实际车辆中收集数据,但这种基于物理的合成数据生成能力,显著增强了训练效率。这种多宇宙仿真和合成数据生成能力,将为自动驾驶设定新的行业标准,推动安全性和先进性达到全新高度。
通过 Waymo 和 Tesla 的成功,自动驾驶行业的潜力已得到验证。我们现在正处于自动驾驶发展的黄金时期。未来几年,自动驾驶的发展速度将像计算机图形领域的革命一样迅猛。
为了支持自动驾驶行业的发展,NVIDIA 提供了三种核心计算系统:
训练系统(DGX):用于训练 AI 模型。
模拟系统(Omniverse 和 Cosmos):生成仿真数据和数字孪生环境。
车载计算机(AGX 和 Thor):直接部署在车辆中的超级计算机。
这些技术已经得到了全球主要汽车制造商的采用,包括丰田、特斯拉、比亚迪(全球最大的电动车制造商)、梅赛德斯等。特别值得一提的是,今天我们宣布了 NVIDIA 与丰田合作开发下一代自动驾驶系统。自动驾驶不仅是一个极具增长潜力的行业,也将成为第一个万亿美元级别的机器人产业。NVIDIA 在这一领域的业务规模已达到 40 亿美元,预计今年将增长至 50 亿美元。
我们正处于通用机器人技术爆发的前夜,这一领域的技术突破将在未来几年内迅速显现。通用机器人(General Robotics)的重要性在于它能够适应现有环境,而不需要专门的设施改造。
这包括以下三种机器人:
智能代理机器人(Agentic Robots):作为信息工作者,可以直接适配办公室等现有环境。
自动驾驶汽车(Self-Driving Cars):利用现有的道路和城市基础设施。
人形机器人(Humanoid Robots):直接适应为人类设计的环境,无需重大改造。
这三类机器人代表了未来技术发展的关键方向。如果能够解决这三类机器人所需的核心技术,通用机器人将成为世界上最大的科技产业。
相比于自动驾驶汽车,人形机器人的模仿学习数据更难获取,因为需要大量人类演示。这种数据的收集过程既费时又繁琐。为此,NVIDIA 提出了基于 Isaac Groot 平台 的解决方案,
A.平台核心功能
机器人基础模型:提供用于机器人开发的通用模型。
数据管道:自动生成大规模训练数据。
模拟框架:基于 Omniverse 和 Cosmos 构建真实环境仿真。
Thor 机器人计算机:作为机器人的核心计算单元。
B.模仿学习的流程:
远程操作与数据捕捉: 使用 Apple Vision Pro 设备,熟练的操作员可以通过数字孪生环境对机器人进行远程操作,采集数据,而无需真实机器人。
合成数据扩展: 使用 Groot Mimic,将少量的操作数据扩展为大量运动轨迹。
领域随机化与 3D 升级: 使用 Groot Gen(基于 Omniverse 和 Cosmos),对生成的数据进行领域随机化,并将其提升为高保真 3D 数据。
训练与验证: 利用 Omniverse 和 Cosmos 的多宇宙仿真引擎,生成大规模数据集进行机器人策略训练,并通过 Isaac Sim 进行软件环测试和验证。
通过这种方法,开发者可以从少量的人类演示中,生成数百万条合成运动数据,显著提升 AI 模型的训练效率。
NVIDIA Isaac Groot 是一个专为机器人开发者设计的平台,旨在加速通用机器人技术的发展。它通过提供机器人模型、合成数据和模拟工具,使开发者能够快速实现技术突破。“通用机器人时代即将到来,而 Isaac Groot 将为这一新时代提供强大的支持。”
回顾历史,NVIDIA 的 DGX 系列超级计算机(最初称为 Project DIGITS)彻底改变了 AI 研究和开发的方式。在 DGX 推出之前,研究人员需要自己搭建超级计算机,包括建设设施、设计基础设施等。而 DGX 的出现,为研究人员和初创企业提供了开箱即用的 AI 超级计算机,大大降低了门槛。
我们在 2016 年推出了第一台 AI 超级计算机 DGX-1,为研究人员和初创企业提供了开箱即用的解决方案。我亲自将第一台 DGX-1 送到了一个初创公司 OpenAI,当时埃隆·马斯克(Elon Musk)、伊利亚·苏茨克弗(Ilya Sutskever)以及许多 NVIDIA 的工程师都在场,我们一起庆祝了 DGX-1 的到来。这台超级计算机彻底改变了人工智能和计算领域。
然而,今天的人工智能已经不仅仅存在于研究机构和初创企业的实验室里。正如我在演讲开头所提到的,人工智能已经成为一种全新的计算方式和软件开发方式。未来,每位软件工程师、工程师、创意艺术家以及任何将计算机作为工具的人,都需要一个 AI 超级计算机。
我们非常激动地宣布 NVIDIA 的最新 AI 超级计算机 Project DIGITS,它是目前我们最先进的 AI 超级计算机。以下是它的主要特点:
灵活性
核心技术
外形设计
即将上市
最后,从 DGX-1 到最新一代,我们的目标始终是为 AI 研究提供更强大的计算平台。未来,这些技术将继续推动机器人和人工智能领域的突破。
原文链接:https://www.bloomberg.com/features/2025-sam-altman-interview/
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-09
Ai陪伴赛道纪要调研(1月8日版本)
2025-01-08
黄仁勋CES 2025演讲全文实录
2025-01-08
国产AI眼镜1799元现货开卖!阿里的定制大模型,深圳的硬件
2025-01-08
CES 2025 | NVIDIA 推出 Grace Blackwell 桌面系统,让每位 AI 开发者都能触手可及
2025-01-07
英伟达正式发布 RTX 5090 GPU,性能是 4090 两倍
2025-01-07
英伟达新「核弹」显卡配置信息意外曝光,性能功耗双双暴涨 | CES 2025
2025-01-06
硬件 | 孤独感驱使AI陪伴需求增长
2025-01-06
罗永浩进军AI领域,J1 Assistant震撼发布:语音交互的智能新时代
2024-03-30
2024-05-09
2024-07-07
2024-06-23
2024-07-23
2024-07-01
2024-06-24
2024-06-08
2024-10-20
2024-06-05
2024-12-30
2024-12-26
2024-12-20
2024-12-15
2024-11-12
2024-11-11
2024-10-29
2024-10-22