我要投稿

Google DeepMind 也要开始研究世界模型

发布日期：2025-01-22 07:28:10 浏览次数： 1816 作者：AI广角

Google DeepMind 正在组建一个专门的 AI 研究人员团队来构建“世界模型”，即物理环境的高级模拟，旨在支持游戏、机器人等领域的各种应用。该团队将由 OpenAI 的 Sora 项目的前联合负责人蒂姆·布鲁克斯（Tim Brooks）领导，他于 10 月加入 DeepMind，专注于视频生成和模拟技术。

什么是“世界模型”？

世界模型是一个代理（如机器人或AI系统）对其所处环境的抽象表示。它不仅包括环境的状态信息，还包括代理与环境之间的动态关系。通过这种模型，代理可以预测未来的状态，评估不同行动的后果，从而做出更明智的决策。“世界模型”代表了人工智能的新兴前沿领域。世界模型模拟了可用于多种用途的真实环境，例如：

游戏和娱乐：为视频游戏和电影启用实时交互式媒体。

机器人培训：创建逼真的场景，教机器人如何在物理世界中导航。

AI 开发：为能够进行视觉推理、模拟和规划的多模态系统提供动力。

通过研发世界模型，Google 欲在竞争对手之前实现通用人工智能（AGI）。

DeepMind 的雄心勃勃的计划

在 X（前身为 Twitter）上的一篇文章中，Brooks 分享了该团队专注于将 AI 训练扩展到前所未有的水平。他还链接了研究工程师和科学家加入该计划的招聘信息。根据描述，团队成员将应对诸如策划训练数据、解决可扩展性问题以及将模拟与多模态语言模型集成等挑战。

DeepMind 强调了“扩展视频和多模态数据的预训练”作为 AGI 垫脚石的重要性。该公司设想这些世界模型将彻底改变具体代理规划、实时交互式媒体和视觉问题解决等领域。

还有什么公司在研究世界模型？

随着 AGI 竞赛的加剧，DeepMind 开始要专注于世界模型研究，但DeepMind并不是世界模型的先行者。OpenAI 的首席执行官 Sam Altman 最近声称，该公司在 AGI 方面取得了突破，这表明自主 AI 代理可能很快就会加入劳动力市场。与此同时，Nvidia 和 World Labs 等竞争对手正在推进自己的平台：

Nvidia Cosmos：Nvidia Cosmos平台是一个面向自动驾驶汽车和机器人开发者的世界基础模型平台，配备先进的生成式世界基础模型、高级分词器、护栏以及加速数据处理和管理工作流，旨在加快物理AI模型的构建、评估、部署和模拟，同时最大限度地降低现实世界中的测试和验证风险。Cosmos的WFM能够从简单的输入生成具有物理感知的高保真视频，模拟和预测机器人和自主系统的真实结果。其模型基于数百万小时的驾驶和机器人视频数据进行训练，可生成逼真的视频。

世界模型实验室（World Labs）：这是李飞飞的一家初创公司，李飞飞被称为“AI 教母”，该公司专注于空间智能领域，致力于打造世界模型进行3D世界的感知、生成和互动。

谷歌的新计划将建立在其现有项目的基础上，包括其 Gemini AI 模型、Veo 视频生成器和 Genie，后者是一个旨在实时模拟 3D 环境的先前世界模型。

世界模型技术前景

世界模型将会是通用人工智能（AGI）的游戏规则改变者。通过创建逼真的、可扩展的环境，这些模型为 AI 系统提供了一个受控的空间来学习、测试和适应复杂的场景。对于机器人等行业，这意味着可以更快、更安全地训练机器在现实世界环境中执行任务，从自主导航到制造业中的精确任务。