微信扫码
与创始人交个朋友
我要投稿
2024年9月,被誉为“AI教母”的人工智能先锋人物李飞飞教授的World Labs筹集了2.3亿美元用于构建大世界模型(Large World Models),供艺术家、设计师、开发者和工程师等专业人士使用。谷歌DeepMind也招募了OpenAI视频生成器Sora的创建者,专注于世界模拟器的开发。那么,世界模型到底是什么?
世界模型(world models),也被称为世界模拟器(world simulators),被一些人视为AI领域的下一场重大突破。
那么,究竟什么是世界模型呢?
✦
World Models
世界模型的灵感来自人类大脑自然而然形成的世界认知模型。我们的大脑将感官获取的抽象信息转化为对周围世界的具象理解,形成我们所谓的“模型”,这一术语在AI领域被广泛借用。基于这些模型,我们可以对世界进行预测,从而影响我们的认知方式。
图片来源:Getty Images
AI研究专家David Ha和Jürgen Schmidhuber在一篇论文中举了一个棒球击球手的例子。击球手在毫秒之间决定如何挥棒,比视觉信号传达至大脑的时间还短。Ha和Schmidhuber解释道,击球手能打中时速100英里的快球,是因为他们能本能地预测球的轨迹。
“对于职业选手来说,这一切都是下意识的,”两位研究人员写道,“他们的肌肉会在正确的时间和位置挥棒,与他们内在模型的预测一致。他们可以迅速基于对未来的预测采取行动,而无需特意推演可能的未来情景来制定计划。”
David Ha
Jürgen Schmidhuber
论文《世界模型》(World Models)原文获取链接:https://arxiv.org/pdf/1803.10122
正是世界模型的这种下意识推理能力,有人认为这是达到人类级别智能的前提之一。
Modeling the world
尽管这一概念已存在数十年,世界模型最近因其在生成视频领域的应用潜力而受到关注。几乎所有AI生成的视频都会进入“不适之谷”(即让人感到怪异的状态),如果看得足够久,会发现奇怪的现象,如四肢扭曲、融合等。
一个基于多年视频训练的生成模型或许能预测篮球会弹跳,但它并不理解为什么篮球会弹跳,就像语言模型并不真正理解词汇背后的含义一样。但一个具有基础理解的世界模型则可以更好地表现篮球弹跳的行为。
为了实现这种洞察,世界模型会训练大量的数据,包括图片、音频、视频和文本,以形成世界运作的内部表征,并推理出行为的后果。正如Higgsfield AI创建者马什拉博夫(Mashrabov)所言:
观众希望看到的与现实相符的行为。如果羽毛以铁锤的重量下落,或者保龄球冲上几百英尺高的空中,就让人出戏了。强大的世界模型可以让模型自主理解对象的运动方式,而无需创作者逐一设定。
不过,视频生成仅仅是世界模型应用的一小部分。包括Meta首席AI科学家杨立昆(Yann LeCun)在内的研究人员认为,这些模型未来或可用于数字和物理领域的复杂预测和规划。
在今年的演讲中,杨立昆描述了一个世界模型如何通过推理来实现目标。例如,给一个有“世界”基本表征的模型(如一段脏乱房间的视频)设定一个清洁目标,它可以推导出一系列行动来实现该目标(使用吸尘器清扫、洗碗、清空垃圾桶),不仅是因为观察了模式,而是基于更深层次的认知——如何从脏到洁。
我们需要能够理解世界的机器——可以记忆、拥有直觉和常识,能够像人类一样推理和规划。尽管一些热衷的支持者可能声称当前AI系统已经具备这些能力,但事实上它们远未达到。
虽然LeCun估计距离他所设想的世界模型至少还有十年,但现今的世界模型已经在初级物理模拟方面展现出潜力。OpenAI在其博客中提到,Sora(被视为世界模型之一)可以模拟画家在画布上留下笔触的动作。Sora等模型还可以有效地模拟电子游戏,例如可以渲染出类似Minecraft的界面和游戏世界。
Sora 在 Minecraft 中控制玩家并渲染世界。图片来源:OpenAI
未来的世界模型或许能够按需生成3D世界,用于游戏、虚拟摄影等领域。World Labs的联合创始人Justin Johnson在a16z播客中提到:“我们已经具备创建虚拟互动世界的能力,但需要耗费数亿美金和大量开发时间。”而世界模型将使我们不仅能获得一张图片或短片,还能生成完整的模拟、充满活力且互动的3D世界。
High hurdles
尽管前景诱人,但许多技术挑战仍待解决。
世界模型的训练和运行需要巨大的计算能力,甚至超出当前生成模型的需求。即使最新的语言模型可以在现代智能手机上运行,Sora(作为早期世界模型)也需要数千个GPU进行训练和运行,尤其是当这种应用成为社会化普遍需求的时候。
此外,世界模型和所有AI模型一样会出现“幻觉”现象,还可能内化训练数据中的偏见。例如,一个主要训练于欧洲城市晴天视频的世界模型,可能难以理解或正确展示雪天的韩国城市场景。
马什拉博夫认为缺乏足够多样的训练数据会加剧这些问题。他说:
我们已经看到某些模型在生成特定种族或人种的表现上存在局限性。世界模型的训练数据必须足够广泛以涵盖多种情境,同时又需非常具体,才能深入理解这些情境的细微差别。
Sora 生成的视频。图片来源:OpenAI
Runway联合创始人兼CEO克里斯托瓦尔·巴伦苏埃拉(Cristóbal Valenzuela)在近期的一篇文章中表示,数据和工程方面问题尚未解决,导致当前的模型无法准确捕捉世界中角色的行为(如人类和动物),“模型需要生成环境的连贯地图,并具备在这些环境中导航和互动的能力。”
人工智能初创公司 Runway 的 Gen-3 视频生成模型示例。图片来源:Runway
马什拉博夫认为如果所有主要障碍能够克服,世界模型有望更牢固地将AI与现实世界连接起来,不仅会在虚拟世界生成方面取得突破,还将推进机器人和AI决策能力的发展。
这也可能催生出更智能的机器人。
目前的机器人在任务执行方面受限,因为它们缺乏对周围世界(甚至自身)的感知能力。马什拉博夫认为世界模型可以至少在一定程度上,赋予机器人这种认知能力。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-05
重温 Scaling Law,思考对大模型的未来发展启示
2024-11-05
比ChatGPT更牛!苹果新AI模型刷新交互体验!能看懂你的手机屏幕!平板和安卓机也都行
2024-11-05
B站自研角色扮演模型背后的技术
2024-11-05
对抗NVLink简史?10万卡争端,英伟达NVL72超节点挑起
2024-11-05
为了在AI时代做好“个人助理”,vivo做了哪些努力?
2024-11-05
大模型在自动化测试的突破:蚂蚁、华为等头部企业应用实践
2024-11-05
微软 AI CEO 穆斯塔法:小模型绝对是未来趋势,AI 会小到能装在冰箱贴上
2024-11-05
Diffusion 模型也能“举一反三”?阿里IC-LoRA给图像生成模型增加情节记忆力能力
2024-05-28
2024-04-26
2024-04-11
2024-08-21
2024-07-09
2024-07-18
2024-08-13
2024-06-17
2024-06-07
2024-07-01
2024-11-05
2024-11-04
2024-11-01
2024-10-31
2024-10-30
2024-10-29
2024-10-29
2024-10-25