我要投稿

什么是AI“世界模型”？为何如此重要？

发布日期：2024-11-04 15:35:04 浏览次数： 4732

作者：AIRS创新教育

微信搜一搜，关注“AIRS创新教育”

2024年9月，被誉为“AI教母”的人工智能先锋人物李飞飞教授的World Labs筹集了2.3亿美元用于构建大世界模型（Large World Models），供艺术家、设计师、开发者和工程师等专业人士使用。谷歌DeepMind也招募了OpenAI视频生成器Sora的创建者，专注于世界模拟器的开发。那么，世界模型到底是什么？

世界模型（world models），也被称为世界模拟器（world simulators），被一些人视为AI领域的下一场重大突破。

那么，究竟什么是世界模型呢？

✦

World Models

世界模型的灵感来自人类大脑自然而然形成的世界认知模型。我们的大脑将感官获取的抽象信息转化为对周围世界的具象理解，形成我们所谓的“模型”，这一术语在AI领域被广泛借用。基于这些模型，我们可以对世界进行预测，从而影响我们的认知方式。

图片来源：Getty Images

AI研究专家David Ha和Jürgen Schmidhuber在一篇论文中举了一个棒球击球手的例子。击球手在毫秒之间决定如何挥棒，比视觉信号传达至大脑的时间还短。Ha和Schmidhuber解释道，击球手能打中时速100英里的快球，是因为他们能本能地预测球的轨迹。

“对于职业选手来说，这一切都是下意识的，”两位研究人员写道，“他们的肌肉会在正确的时间和位置挥棒，与他们内在模型的预测一致。他们可以迅速基于对未来的预测采取行动，而无需特意推演可能的未来情景来制定计划。”

David Ha

Jürgen Schmidhuber

论文《世界模型》(World Models）原文获取链接：https://arxiv.org/pdf/1803.10122

正是世界模型的这种下意识推理能力，有人认为这是达到人类级别智能的前提之一。

Modeling the world

模拟世界

尽管这一概念已存在数十年，世界模型最近因其在生成视频领域的应用潜力而受到关注。几乎所有AI生成的视频都会进入“不适之谷”（即让人感到怪异的状态），如果看得足够久，会发现奇怪的现象，如四肢扭曲、融合等。

一个基于多年视频训练的生成模型或许能预测篮球会弹跳，但它并不理解为什么篮球会弹跳，就像语言模型并不真正理解词汇背后的含义一样。但一个具有基础理解的世界模型则可以更好地表现篮球弹跳的行为。

为了实现这种洞察，世界模型会训练大量的数据，包括图片、音频、视频和文本，以形成世界运作的内部表征，并推理出行为的后果。正如Higgsfield AI创建者马什拉博夫（Mashrabov）所言：

观众希望看到的与现实相符的行为。如果羽毛以铁锤的重量下落，或者保龄球冲上几百英尺高的空中，就让人出戏了。强大的世界模型可以让模型自主理解对象的运动方式，而无需创作者逐一设定。

不过，视频生成仅仅是世界模型应用的一小部分。包括Meta首席AI科学家杨立昆（Yann LeCun）在内的研究人员认为，这些模型未来或可用于数字和物理领域的复杂预测和规划。

在今年的演讲中，杨立昆描述了一个世界模型如何通过推理来实现目标。例如，给一个有“世界”基本表征的模型（如一段脏乱房间的视频）设定一个清洁目标，它可以推导出一系列行动来实现该目标（使用吸尘器清扫、洗碗、清空垃圾桶），不仅是因为观察了模式，而是基于更深层次的认知——如何从脏到洁。

我们需要能够理解世界的机器——可以记忆、拥有直觉和常识，能够像人类一样推理和规划。尽管一些热衷的支持者可能声称当前AI系统已经具备这些能力，但事实上它们远未达到。

虽然LeCun估计距离他所设想的世界模型至少还有十年，但现今的世界模型已经在初级物理模拟方面展现出潜力。OpenAI在其博客中提到，Sora（被视为世界模型之一）可以模拟画家在画布上留下笔触的动作。Sora等模型还可以有效地模拟电子游戏，例如可以渲染出类似Minecraft的界面和游戏世界。

Sora 在 Minecraft 中控制玩家并渲染世界。图片来源：OpenAI

未来的世界模型或许能够按需生成3D世界，用于游戏、虚拟摄影等领域。World Labs的联合创始人Justin Johnson在a16z播客中提到：“我们已经具备创建虚拟互动世界的能力，但需要耗费数亿美金和大量开发时间。”而世界模型将使我们不仅能获得一张图片或短片，还能生成完整的模拟、充满活力且互动的3D世界。

High hurdles

高难度挑战

尽管前景诱人，但许多技术挑战仍待解决。

世界模型的训练和运行需要巨大的计算能力，甚至超出当前生成模型的需求。即使最新的语言模型可以在现代智能手机上运行，Sora（作为早期世界模型）也需要数千个GPU进行训练和运行，尤其是当这种应用成为社会化普遍需求的时候。

此外，世界模型和所有AI模型一样会出现“幻觉”现象，还可能内化训练数据中的偏见。例如，一个主要训练于欧洲城市晴天视频的世界模型，可能难以理解或正确展示雪天的韩国城市场景。

马什拉博夫认为缺乏足够多样的训练数据会加剧这些问题。他说：

我们已经看到某些模型在生成特定种族或人种的表现上存在局限性。世界模型的训练数据必须足够广泛以涵盖多种情境，同时又需非常具体，才能深入理解这些情境的细微差别。