我要投稿

SIMA 项目通过训练 agent 在各种虚拟 3D 环境中应用

发布日期：2024-04-17 08:37:45 浏览次数： 2344

作者：AI帝国

微信搜一搜，关注“AI帝国”

一、结论写在前面

构建可以在任何3D环境中遵循任意语言指令的体现式人工智能系统，是创建通用人工智能的关键挑战。实现这一目标需要学会将语言与感知和体现动作联系起来，以完成复杂任务。可扩展、可指导、多世界agent(SIMA)项目通过训练agent在各种虚拟3D环境中遵循自由形式的指令来解决这个问题，包括策划的研究环境以及开放式的商业视频游戏。论文描述了论文的目标和理念，并展示了论文的agent在各种丰富的 3D 环境中将语言指令与行为联系起来的能力的一些初步结果。论文看到了在不同环境之间的显著表现和早期的迁移迹象，以及基本技能的zero-shot 迁移到保留环境中。

通过这样做，将使 SIMA 成为在复杂环境中安全地进行关联语言和预训练模型的前沿研究的理想平台，从而有助于解决 AGI 的一个基本挑战。

二、论文的简单介绍

2.1 论文的背景

尽管LLM展现出了令人印象深刻的能力，但将它们与论文居住的体现世界连接起来仍然具有挑战性。现代人工智能可以编写计算机程序或在超人水平下下国际象棋，但人工智能感知和行动于世界的能力仍远低于人类水平。单凭语言就更容易实现人工智能，而体现的感知和行为则相对较难，这凸显了著名的paradox，即对人工智能来说容易的反而对人类更难，反之亦然。

然而，语言之所以有用，是因为它传达了关于世界的抽象概念。语言抽象能够实现高效学习和泛化。一旦学会，语言就可以解锁对基于情境和任务的规划、推理(。反过来，将语言根植于丰富的环境中，可以使系统对语言本身的理解更加系统和可推广。因此，出现了几个问题：论文如何弥合语言符号与其外部参照物之间的鸿沟(参见 Harnad， 1990)?论文如何将语言所提供的抽象和通用性与基于情景的感知和行动联系起来，以及如何以安全和可扩展的方式做到这一点?

可扩展、可指导、多世界agent(SIMA)项目旨在构建一个系统，该系统可以遵循任意语言指令，通过键盘和鼠标操作在任何虚拟3D环境中行事——从定制的研究环境到广泛的商业视频游戏。创建可以与视频游戏或模拟3D环境交互的agent，甚至在有限的环境范围内遵循语言指令，这已经有着悠久的研究历史。然而，在SIMA中，论文从大型语言模型的教训中获取灵感，即在广泛分布的数据上进行训练是推进通用人工智能的最有效方式。因此，与之前的工作不同，论文正试图以最通用和可扩展的方式解决这个问题，跨多个模拟环境，除了以与人类相同的方式与环境交互外，几乎不作其他假设。

为此，论文做出了一些设计决策，使论文的方法更加通用，但也更具挑战性:

•论文纳入了许多丰富、视觉复杂、开放式的视频游戏，其中包含数百个场景中的对象和大量可能的交互。

•这些环境是异步的；与许多研究环境不同，它们不会停止和等待agent计算下一个动作。

•每个商业视频游戏实例都需要在GPU上运行;因此，论文不能像强化学习中经常做的那样在每个实验中为每个游戏运行数百或数千个actor。

•agent接收到的屏幕观察与人类玩游戏时看到的是一样的，没有访问内部游戏状态、奖励或任何其他特权信息的权限。

•要与环境交互，agent使用与人类相同的键盘和鼠标控制，而不是手工制作的动作空间或高级API。

•论文专注于遵循语言指令，而不是简单地为了最大化获胜率或生成合理的行为而玩游戏。

•论文使用开放式自然语言对agent进行训练和测试，而不是简化的语法或命令集。

这些设计选择使学习问题变得更加困难，但它们的通用性使扩展到新环境变得更加容易：agent在不同环境中使用相同的接口，无需为每个新游戏定制设计控制和观察空间。

2.2 论文的方案

许多重叠的先前和当前工作分享了论文的一些理念、动机和方法。但SIMA项目与众不同的是，论文专注于跨越一系列视觉和机械复杂的模拟环境中的语言条件行为，这些环境提供了丰富的技能集。

2.2.1. 环境

SIMA旨在跨多个丰富的3D环境植入语言(图2)。因此，论文选择了提供广泛开放式交互的3D体现环境——这种环境使富有且深入的语言交互成为可能。论文关注的环境要么是a)第一人称视角，要么是b)第三人称视角，摄像机位于玩家肩后。为了获得多样和深入的体验，论文使用了各种商业视频游戏，以及一些专门为agent研究创建的环境。每种类型的环境都提供了不同的优势，从开放式的多样体验到对agent技能的针对性评估。

2.2.1.1. 商业视频游戏

商业视频游戏提供了令人兴奋的、开放式的世界，充满了视觉丰富性和复杂交互的潜力。在SIMA中，论文与开发商合作使用他们的游戏来训练agent，并且论文正在与新的开发商建立合作关系——论文当前合作伙伴的完整列表，请参阅致谢部分。论文专注于包含多种技能的开放世界或沙盒游戏，同时避免包含极端暴力或存在偏见等有害内容的游戏。论文还寻求世界和故事的广泛多样性，但专注于展现有趣机制深度的游戏。

论文专注于这些游戏中的单人交互。论文在安全的谷歌云环境中运行每个游戏的实例，使用硬件加速渲染到虚拟显示器。该显示器会流式传输到浏览器供人类玩游戏，或在评估期间传输到远程agent客户端进程。

论文使用的游戏如下：

•山羊模拟器3(Goat Simulator 3)：一款第三人称游戏，玩家扮演一只生活在物理夸张世界中的山羊。玩家可以完成任务，其中大多数涉及制造混乱。

•Hydroneer：一款第一人称采矿和基地建设沙盒游戏，玩家的任务是挖掘黄金和其他资源以赚钱并增强他们的采矿业务。

•无人深空(No Man’s Sky)：一款第一人称或第三人称的生存游戏，玩家需要探索一个充满程序生成行星的银河系。

•Satisfactory：一款第一人称开放世界探索和工厂建设游戏，玩家试图在一个外星球上建造一个太空电梯。这需要建造日益复杂的生产链来开采自然资源，并将它们转化为工业品、工具和建筑物——同时在一个庞大的开放环境中穿越越来越hostile的区域。

•Teardown：一款第一人称沙盒-解谜游戏，置身于一个完全可破坏的体素世界中，玩家被要求完成抢劫以赚钱，获取更好的工具，并承担更高风险的抢劫任务。

•Valheim：一款第三人称生存和沙盒游戏，游戏世界受北欧神话启发。玩家必须探索各种生物群落，收集资源，狩猎动物，建造住所，制造装备，航海和击败神话怪物才能在游戏中前进——同时还要应对诸如饥饿和寒冷等挑战。

•Wobbly Life：一款第三人称开放世界沙盘游戏，玩家可以探索世界、解锁秘密，并完成各种工作赚钱购买物品，最终买下自己的房子。

2.2.1.2. 研究环境

与商业视频游戏形成对比的是，人工智能研究环境通常更易控制，能够灌输和仔细评估特定技能，并提供更快速和可靠的任务完成评估。与论文的游戏组合中的许多游戏不同，这些研究环境中的一些也往往呈现更多现实世界类似的物理交互(尽管仍有简化)：

建筑实验室：一个新的研究环境，agent需要用互连的建筑块构建新奇的物品和雕塑，包括用于攀爬的斜坡、用于跨越的桥梁和动态机械装置。建筑实验室侧重于认知能力，如物体操纵和对物理世界的直观理解。

Playhouse：由程序生成的房屋环境和各种物体组成。论文增强了这个环境的图形和丰富的交互，包括烹饪或绘画等技能。

ProcTHOR：由程序生成的房间和现实内容(如办公室和图书馆)组成。尽管在该环境中存在基准任务集，但先前的工作并未使用键盘和鼠标操作来控制agent;因此，论文主要将重点放在使用该环境进行数据收集，而非评估。

WorldLab：通过使用一组有限的直观机制(如传感器和门)并主要依赖于各种物体的模拟物理来进一步专门测试体现agent。

2.2.2. 数据

论文的方法依赖于通过行为克隆大规模训练agent，即在由人类生成的数据上有监督地学习从观察到行动的映射。因此，论文工作的一个主要重点是收集和整合来自人类专家的游戏数据。这包括视频、语言指令和对话、记录的动作，以及诸如描述或成功或失败标记等各种注释。这些数据构成了一个丰富的、多模态的、跨越10多个模拟环境的体现互动数据集，更多数据将陆续推出。

这些数据集涵盖了广泛的指令任务：图3显示了在固定的预训练词嵌入空间内通过层次聚类从数据中现有的文本指令得到的指令簇。然而，大规模收集数据还不足以训练出成功的agent。

数据收集：论文使用各种方法收集数据，包括允许单人玩家自由游戏，然后事后用指令对这些轨迹进行注释。论文还执行了两人制定-解决的数据收集，其中一名玩家在选定的场景中指导另一名玩家做什么，同时共享单个玩家视图，以匹配单人玩家收集。论文所有的数据收集都是由与谷歌签约的参与者执行的。论文的数据收集协议的全部细节，包括赔偿率，都经过独立的人类行为研究委员会审查和批准，以确保符合道德和隐私标准。所有参与者在完成任务之前都提供了知情同意，并获得了时间报酬。

预处理、过滤和加权：在训练之前，论文执行各种离线预处理步骤，包括调整数据的大小以供agent输入、使用各种启发式过滤掉低质量数据，以及在环境和收集之间重新混合和加权数据，以优先考虑最有效的学习体验。

2.2.3. agent

SIMA agent将视觉观察和语言指令映射到键盘和鼠标动作(图4)。鉴于这一任务的复杂性——例如输入和输出空间的高维度，以及在长时间尺度上可能指令的广度——论文主要专注于训练agent执行可在约10秒内完成的指令。将任务分解为更简单的子任务，有助于在不同环境中的不同设置中重用它们，只要用户提供适当的指令序列。

论文的agent架构：首先，论文的agent不仅包含从头开始训练的组件，还包含了几个预训练模型——包括在细粒度图像-文本对齐上训练的模型SPARC和视频预测模型)——论文分别通过行为克隆和视频预测在论文的数据上对它们进行进一步微调。在初步实验中，论文发现这些模型提供了互补的好处。结合这些预训练模型、微调和从头开始训练，允许agent利用互联网规模的预训练，同时还能专门针对它遇到的环境和控制任务的特定方面。

更具体地说，论文的agent(图4)利用从头开始训练的transformers跨注意不同的预训练视觉组件、编码的语言指令，以及注意过去记忆状态以构建状态表示的Transformer-XL。生成的状态表示作为输入提供给策略网络，生成8个动作序列的键盘和鼠标动作。论文使用行为克隆以及预测目标完成的辅助目标来训练这个agent。论文使用无分类器指导来改善经过训练的agent在运行环境时的语言条件性。CFG最初被提出用于加强扩散模型中的文本条件，但也被证明对语言模型和语言条件化agent具有类似用途。

2.2.4. 评估方法

在商业视频游戏中评估agent面临着重大的额外挑战。视频游戏评估不能依赖于对环境状态的特权信息。此外，在没有设计为可重现基准的环境中准确恢复agent到完全相同状态是困难的，而且在商业视频游戏中加载每个任务要比研究环境中的要慢得多，成本更高。因此，实现跨环境快速、稳定和可靠的评估是具有挑战性的。因此，论文使用一系列不同的评估类型，提供了效率、成本、准确性和覆盖范围方面的不同权衡。此外，确保论文的评估真正评估语言条件性，而不是环境能力，需要谨慎。例如，如果一个任务包含刀子、砧板和胡萝卜，agent可以确定目标（“在砧板上切胡萝卜”），而不依赖于语言指令。因此，任务设置需要提供多样化的行动，最好是从单一初始状态测试多个指令，以正确评估agent的行动是否受语言驱动。

动作对数概率：一个简单的方法是基于agent在保留的评估数据上的动作预测来评估agent。然而，与先前的研究结果一致（，论文观察到agent在评估数据上的动作对数概率与agent的性能之间最多只有弱相关性，超出了最基本的技能。因此，需要在线评估，其中agent与环境互动，以详细了解agent的性能。

静态视觉输入：与在保留数据上预测动作类似，论文可以向agent提供静态视觉输入和语言指令，以执行特定有效的动作（例如，“跳跃”），以直接评估直接映射到特定键盘和/或鼠标动作的简单响应。论文已经在论文的商业视频游戏环境中使用了这种形式的评估，因为它们具有无需加载游戏的优势。虽然这些评估可以是有用的早期信号，但它们不能可靠地预测长时间任务的成功。

地面真相(Ground-truth)：论文内部开发的研究环境能够提供关于语言跟随任务是否成功完成的地面真相评估。这些任务可能依赖于agent的状态（“向前移动”）和周围环境（“举起绿色立方体”），以及更复杂的交互（“在大块的顶部连接一个连接点”或“用刀切胡萝卜”）。这些任务能够对一系列特定技能进行强大的测试，并提供高度可靠的任务成功信号。

光学字符识别（OCR）：论文的许多商业视频游戏环境提供屏幕上的文本，用于标志任务或任务完成，甚至包括收集资源或进入游戏某些区域的低级操作的结果。通过在预定义的评估场景中使用OCR检测屏幕上的文本，有时结合检测特定的键盘和鼠标操作，论文可以廉价地评估agent是否成功执行了特定任务。这种自动化评估形式还避免了人类评估的主观性。论文特别在两款游戏《无人之境》和《瓦尔海姆》中使用OCR评估，这两款游戏都有大量的屏幕文本。例如，在《无人之境》中，论文开发了评估任务，如“开采碳/盐/铁”，“使用分析视器”或“打开外骨骼套装菜单”。同样，在《瓦尔海姆》中，论文有任务，如“收集木材/石头/覆盆子”，“使用工作台”或“烹饪食物”。然而，总的来说，OCR评估局限于使用游戏特定文本来标志任务完成的任务，而不是可以用语言指令指定的任意任务，论文期望通用代理能够解决这些任务。其他视频游戏也有明显较少的屏幕文本，这使得在这些游戏中可以使用OCR评估的行为范围非常有限。

人类评估：在许多情况下，论文无法自动推导任务成功的信号，论文转而请人类提供这一评估。虽然这是论文最通用的评估方法，但也是最慢和最昂贵的。论文使用游戏专家作为人类评委，也就是说，他们至少已经玩过这些特定游戏16个小时，并且通常在几周的时间内。论文要求他们审查记录的agent视频，并从不同的评委（通常是5个）那里收集同一视频的多个评分，以确保可靠的评估。论文还鼓励严格评估：论文要求评委在agent首先执行无关的动作的情况下将情节标记为失败，即使agent后来成功完成了指示的任务。

论文通过识别英语中频繁出现的动词列表，并将其与游戏过程和论文agent的交互测试中自然产生的动词列表相结合，精心策划了论文的人类评估任务。论文将这个动词列表作为论文在所有视频游戏环境中进行评估的基础。论文将每个任务（保存状态和指令对）分配给一个单一、最具代表性的技能类别（例如“制作物品”），尽管大多数任务需要一系列广泛的隐含技能才能成功（例如制作经常需要使用菜单）。由此产生的评估集为agent研究提供了长期挑战，涵盖了各种难度——从简单的游戏无关任务，比如“左转”，到测试专业游戏知识的任务，比如“比较反物质和反物质外壳的制作成本”，再到利用更广泛的语义知识的任务，比如“从挖干草的人那里拿叉子”。将论文的评估框架基于自然语言的分布，使论文能够在常见和对抗性场景中测试论文的agent，从而衡量论文朝着开发一个可指导的agent、能够在任何模拟的3D环境中完成人类所能做的任何事情的长期目标的进展。

2.2.4.1. 减轻延迟

论文的agent在几个实时运行的环境中进行评估，这些环境与agent异步运行。这可能对agent生成动作的及时执行提出挑战。动作的计算和观察和动作在网络上传输引入了延迟或延迟）。在行为克隆过程中，论文考虑了这种延迟，通过预测相对于agent的视觉输入的偏移时间的动作，并在评估过程中通过在神经网络推理期间适当缓冲观察和动作来反映这种偏移。论文还通过适当调度TPU加速器上的动作计算、跨时间步缓存神经网络状态以及仔细选择批量大小和其他实现细节来最小化延迟。

2.3 论文的效果

在呈现了几个 SIMA agent能力的定性例子后，论文首先考虑了 SIMA agent的定量性能，按环境和技能类别进行了分析。然后，论文将这些结果与几个基准和削弱方案进行了比较，从而评估了agent的泛化能力和论文设计选择的功效。最后，论文调查了评估任务的一个子集，以估计人类水平的性能作为额外的比较。

定性例子：为了让人们了解agent的一般能力，图 5 显示了论文商业视频游戏环境中几个代表性例子。尽管环境的视觉多样性，agent仍能够执行这些任务，展示了基本的导航和工具使用技能。即使指示的目标不在视野中（如“去太空船”和“去HUB”），agent也能够找到目标。有关更多定性示例，请参阅附带的网站。

2.3.1. 不同环境和技能表现

在图 6 中，论文报告了 SIMA agent在论文有定量评估的七个环境中的平均表现。平均值是在每个任务（在研究环境中，每个视频游戏中的一个任务）的多个情节，每个环境的多个任务以及三次使用不同随机种子的训练运行中计算的。误差棒表示该环境内任务和三次使用不同随机种子的训练运行中的 95% 置信区间（CI）。论文注意到，开发信息丰富的评估任务本身就是一项持续的工作，本文中的定量结果仅反映了此时此刻评估的特定行为范围。

总体而言，结果表明 SIMA agent能够在许多环境中完成一系列任务，但仍有相当大的改进空间。Playhouse 和 WorldLab 的性能更好，这是相对较简单的研究环境。对于更复杂的商业视频游戏环境，论文看到性能理所当然地稍低。值得注意的是，Construction Lab 的性能也较低，突显了这个研究环境及其评估任务的相对困难。这使得 SIMA 平台能够成为进一步开发将语言与感知和行动连接起来的agent的有用测试平台。

为了更好地理解 SIMA agent在越来越多的模拟环境中的表现，论文开发了一个以自然语言为基础的评估框架，用于添加和聚类评估任务，详细说明在论文的评估方法中。由于这些技能聚类是从论文的评估任务中派生而来，而不是训练数据，它们与图 3 中的技能类别类似，但又不同。如图 7 所示，性能在不同的技能类别之间变化，包括技能聚类内部，如“运动”或“游戏进度”。

2.3.2. 评估环境泛化性能与削弱实验比较

论文将主要的 SIMA agent与各种基准线和削弱实验进行比较，无论是总体（见图 8）还是在论文的环境中分解（见图 9）。论文在所有环境中报告的agent包括：

•SIMA：论文的主要 SIMA agent，在除了 Hydroneer 和 Wobbly Life 之外的所有环境中训练，论文用于定性Zero-shot 评估。

•Zero-shot：类似于主要agent训练的单独 SIMA agent，但只在 ? − 1 个环境中训练，并在保留的环境上进行zero-shot 评估——也就是说，在该环境上没有任何 BC 训练。这些agent评估了论文的agent在受控环境中的迁移能力。（请注意，这些agent使用与主要 SIMA agent相同的预训练编码器，这些编码器是在论文环境的子集的数据上进行微调的；因此，在某些情况下，预训练编码器将通过来自保留环境的视觉输入进行调整，尽管agent没有在该环境中接受训练。然而，在 Goat Simulator 的数据上，编码器没有进行微调，因此在这种情况下的迁移结果没有受到混淆。）

•无预训练削弱实验：一个删除了 SIMA agent中预训练编码器的agent。论文用一个从头开始训练的 ResNet 视觉模型替换了这些模型（），因为在初步实验中，论文发现通过agent训练 SPARC/Phenaki 编码器导致性能不佳。与这个agent的比较测试了预训练模型对agent性能的好处。

•无语言削弱实验：一个在训练和评估期间都缺乏语言输入的agent。与这个agent的比较显示了论文的agent的性能可以通过简单的与语言无关的行为先验来解释的程度。

•环境专用：论文另外在每个环境上训练了一个专家agent，该agent仅在与该环境对应的数据上进行训练，但仍包括更广泛的预训练编码器。论文通过专家agent在每个环境上的性能对所有其他agent的性能进行归一化，作为论文的方法和论文为该环境拥有的数据所能实现的度量。

请注意，由于比较agent的数量，论文仅对每个agent运行了单个种子，而不是主要 SIMA agent使用的三个种子。每个agent在进行 120 万次训练步骤后进行评估。图 8 和图 9 中的柱状图表示平均性能（相对于环境专家的归一化）；误差棒是任务和种子之间的参数化 95% 置信区间（如果有多个种子）。

图 8 显示了论文结果的摘要，而图 9 显示了按环境的结果。SIMA 总体上表现优于环境专用agent（相对于环境专家的平均改进达到 67%)，从而证明了在环境之间的正向迁移。论文通过对每个领域内 SIMA agent和环境专用agent之间的每个任务性能的平均差异进行排列测试来统计量化这一好处。

请注意，zero-shot性能在 WorldLab 环境中特别强大，原因有三。首先，该环境的评估任务包含相对较大比例的领域通用技能，例如通过颜色识别对象，因为论文将它们用作对代理能力的快速测试。其次，该环境使用相同的基础引擎，并与其他内部研究环境共享一些实现细节，尽管它们具有不同的视觉风格、资产库、物理机制和环境可负担性，但可能支持行为迁移。此外，环境专用agent在这个环境中的表现可能稍微弱一些，因为从训练到测试存在非平凡的分布偏移。这是因为论文的一些数据来自具有动态差异和任务分布差异的较早版本的环境。跨多个环境进行训练的agent可能对这种分布偏移更加稳健。

无分类器指导：最后，图 10 比较了在论文的部分研究环境中使用和不使用无分类器指导的agent的表现：Construction Lab、Playhouse 和 WorldLab。然而，没有 CFG 的agent仍然表现出较高程度的语言条件性，明显优于没有语言基线。这些结果显示了 CFG 的好处，突出了推理时干预对agent可控性的影响。

2.3.3. 人类比较

为了提供额外的基准比较，论文对来自《无人之境》的一组额外任务上的agent进行了评估，这些任务被选择来测试一系列不同环境中的一组专注技能。这些任务的难度各不相同，从简单的指令（“向前走”）到更复杂的指令（“使用分析视器识别新动物”）不等。执行任务的人类是参与论文数据收集并对游戏有经验的玩家。论文使用了与论文的agent相同的评委和评估设置来评估人类的表现；评委们并没有被告知他们在评估人类的表现而不是agent。

结果总结如图 11 所示，误差线表示参数化 95% 置信区间。人类玩家在这些任务上只取得了 60% 的成功率，显示了论文在这个项目中考虑的任务的困难性以及论文评估标准的严格性。例如，一些人类的失败似乎是由于在完成任务之前进行了不必要的行为，比如在被告知“给采矿激光充电”后，最初打开并与飞船菜单进行交互，或在扫描后被告知“采集氧气”时进入分析模式。尽管这些具有挑战性的评估，SIMA agent取得了相当可观的表现（34% 成功率），远远超过了没有语言基线（11% 成功率）的表现。论文注意到，由于人类评委在更模糊的任务上存在分歧，可能无法达到 100% 的成功率。尽管如此，仍然需要相当大的进展来达到人类的表现水平。这突显了整个 SIMA 设置在提供具有挑战性但有信息意义的评估指标方面的实用性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业