AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


什么是AI“世界模型”?为何如此重要?
发布日期:2024-11-04 15:35:04 浏览次数: 2028 来源:AIRS创新教育



2024年9月,被誉为“AI教母”的人工智能先锋人物李飞飞教授的World Labs筹集了2.3亿美元用于构建大世界模型(Large World Models),供艺术家、设计师、开发者和工程师等专业人士使用。谷歌DeepMind也招募了OpenAI视频生成器Sora的创建者,专注于世界模拟器的开发。那么,世界模型到底是什么?



世界模型(world models),也被称为世界模拟器(world simulators),被一些人视为AI领域的下一场重大突破。


那么,究竟什么是世界模型呢?


World Models


世界模型的灵感来自人类大脑自然而然形成的世界认知模型。我们的大脑将感官获取的抽象信息转化为对周围世界的具象理解,形成我们所谓的“模型”,这一术语在AI领域被广泛借用。基于这些模型,我们可以对世界进行预测,从而影响我们的认知方式。


图片来源:Getty Images


AI研究专家David Ha和Jürgen Schmidhuber在一篇论文中举了一个棒球击球手的例子。击球手在毫秒之间决定如何挥棒,比视觉信号传达至大脑的时间还短。Ha和Schmidhuber解释道,击球手能打中时速100英里的快球,是因为他们能本能地预测球的轨迹。


“对于职业选手来说,这一切都是下意识的,”两位研究人员写道,“他们的肌肉会在正确的时间和位置挥棒,与他们内在模型的预测一致。他们可以迅速基于对未来的预测采取行动,而无需特意推演可能的未来情景来制定计划。


David Ha

Jürgen Schmidhuber

论文《世界模型》(World Models)原文获取链接:https://arxiv.org/pdf/1803.10122


正是世界模型的这种下意识推理能力,有人认为这是达到人类级别智能的前提之一。


Modeling the world

模拟世界


尽管这一概念已存在数十年,世界模型最近因其在生成视频领域的应用潜力而受到关注。几乎所有AI生成的视频都会进入“不适之谷”(即让人感到怪异的状态),如果看得足够久,会发现奇怪的现象,如四肢扭曲、融合等。


一个基于多年视频训练的生成模型或许能预测篮球会弹跳,但它并不理解为什么篮球会弹跳,就像语言模型并不真正理解词汇背后的含义一样。但一个具有基础理解的世界模型则可以更好地表现篮球弹跳的行为。


为了实现这种洞察,世界模型会训练大量的数据,包括图片、音频、视频和文本,以形成世界运作的内部表征,并推理出行为的后果。正如Higgsfield AI创建者马什拉博夫(Mashrabov)所言:


观众希望看到的与现实相符的行为。如果羽毛以铁锤的重量下落,或者保龄球冲上几百英尺高的空中,就让人出戏了。强大的世界模型可以让模型自主理解对象的运动方式,而无需创作者逐一设定。


不过,视频生成仅仅是世界模型应用的一小部分。包括Meta首席AI科学家杨立昆(Yann LeCun)在内的研究人员认为,这些模型未来或可用于数字和物理领域的复杂预测和规划。


在今年的演讲中,杨立昆描述了一个世界模型如何通过推理来实现目标。例如,给一个有“世界”基本表征的模型(如一段脏乱房间的视频)设定一个清洁目标,它可以推导出一系列行动来实现该目标(使用吸尘器清扫、洗碗、清空垃圾桶),不仅是因为观察了模式,而是基于更深层次的认知——如何从脏到洁。


我们需要能够理解世界的机器——可以记忆、拥有直觉和常识,能够像人类一样推理和规划。尽管一些热衷的支持者可能声称当前AI系统已经具备这些能力,但事实上它们远未达到。


虽然LeCun估计距离他所设想的世界模型至少还有十年,但现今的世界模型已经在初级物理模拟方面展现出潜力。OpenAI在其博客中提到,Sora(被视为世界模型之一)可以模拟画家在画布上留下笔触的动作。Sora等模型还可以有效地模拟电子游戏,例如可以渲染出类似Minecraft的界面和游戏世界。


Sora 在 Minecraft 中控制玩家并渲染世界。图片来源:OpenAI


未来的世界模型或许能够按需生成3D世界,用于游戏、虚拟摄影等领域。World Labs的联合创始人Justin Johnson在a16z播客中提到:“我们已经具备创建虚拟互动世界的能力,但需要耗费数亿美金和大量开发时间。”而世界模型将使我们不仅能获得一张图片或短片,还能生成完整的模拟、充满活力且互动的3D世界。


High hurdles

高难度挑战


尽管前景诱人,但许多技术挑战仍待解决。


世界模型的训练和运行需要巨大的计算能力,甚至超出当前生成模型的需求即使最新的语言模型可以在现代智能手机上运行,Sora(作为早期世界模型)也需要数千个GPU进行训练和运行,尤其是当这种应用成为社会化普遍需求的时候。


此外,世界模型和所有AI模型一样会出现“幻觉”现象,还可能内化训练数据中的偏见。例如,一个主要训练于欧洲城市晴天视频的世界模型,可能难以理解或正确展示雪天的韩国城市场景。


马什拉博夫认为缺乏足够多样的训练数据会加剧这些问题。他说:


我们已经看到某些模型在生成特定种族或人种的表现上存在局限性。世界模型的训练数据必须足够广泛以涵盖多种情境,同时又需非常具体,才能深入理解这些情境的细微差别。


Sora 生成的视频。图片来源:OpenAI


Runway联合创始人兼CEO克里斯托瓦尔·巴伦苏埃拉(Cristóbal Valenzuela)在近期的一篇文章中表示,数据和工程方面问题尚未解决,导致当前的模型无法准确捕捉世界中角色的行为(如人类和动物),“模型需要生成环境的连贯地图,并具备在这些环境中导航和互动的能力。”


人工智能初创公司 Runway 的 Gen-3 视频生成模型示例。图片来源:Runway


马什拉博夫认为如果所有主要障碍能够克服,世界模型有望更牢固地将AI与现实世界连接起来,不仅会在虚拟世界生成方面取得突破,还将推进机器人和AI决策能力的发展。


这也可能催生出更智能的机器人。


目前的机器人在任务执行方面受限,因为它们缺乏对周围世界(甚至自身)的感知能力。马什拉博夫认为世界模型可以至少在一定程度上,赋予机器人这种认知能力。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询