微信扫码
与创始人交个朋友
我要投稿
通过这样做,将使 SIMA 成为在复杂环境中安全地进行关联语言和预训练模型的前沿研究的理想平台,从而有助于解决 AGI 的一个基本挑战。
然而,语言之所以有用,是因为它传达了关于世界的抽象概念。语言抽象能够实现高效学习和泛化。一旦学会,语言就可以解锁对基于情境和任务的规划、推理(。反过来,将语言根植于丰富的环境中,可以使系统对语言本身的理解更加系统和可推广。因此,出现了几个问题:论文如何弥合语言符号与其外部参照物之间的鸿沟(参见 Harnad, 1990)?论文如何将语言所提供的抽象和通用性与基于情景的感知和行动联系起来,以及如何以安全和可扩展的方式做到这一点?
可扩展、可指导、多世界agent(SIMA)项目旨在构建一个系统,该系统可以遵循任意语言指令,通过键盘和鼠标操作在任何虚拟3D环境中行事——从定制的研究环境到广泛的商业视频游戏。创建可以与视频游戏或模拟3D环境交互的agent,甚至在有限的环境范围内遵循语言指令,这已经有着悠久的研究历史。然而,在SIMA中,论文从大型语言模型的教训中获取灵感,即在广泛分布的数据上进行训练是推进通用人工智能的最有效方式。因此,与之前的工作不同,论文正试图以最通用和可扩展的方式解决这个问题,跨多个模拟环境,除了以与人类相同的方式与环境交互外,几乎不作其他假设。
为此,论文做出了一些设计决策,使论文的方法更加通用,但也更具挑战性:
•论文纳入了许多丰富、视觉复杂、开放式的视频游戏,其中包含数百个场景中的对象和大量可能的交互。
•这些环境是异步的;与许多研究环境不同,它们不会停止和等待agent计算下一个动作。
•每个商业视频游戏实例都需要在GPU上运行;因此,论文不能像强化学习中经常做的那样在每个实验中为每个游戏运行数百或数千个actor。
•agent接收到的屏幕观察与人类玩游戏时看到的是一样的,没有访问内部游戏状态、奖励或任何其他特权信息的权限。
•要与环境交互,agent使用与人类相同的键盘和鼠标控制,而不是手工制作的动作空间或高级API。
•论文专注于遵循语言指令,而不是简单地为了最大化获胜率或生成合理的行为而玩游戏。
•论文使用开放式自然语言对agent进行训练和测试,而不是简化的语法或命令集。
这些设计选择使学习问题变得更加困难,但它们的通用性使扩展到新环境变得更加容易:agent在不同环境中使用相同的接口,无需为每个新游戏定制设计控制和观察空间。
SIMA旨在跨多个丰富的3D环境植入语言(图2)。因此,论文选择了提供广泛开放式交互的3D体现环境——这种环境使富有且深入的语言交互成为可能。论文关注的环境要么是a)第一人称视角,要么是b)第三人称视角,摄像机位于玩家肩后。为了获得多样和深入的体验,论文使用了各种商业视频游戏,以及一些专门为agent研究创建的环境。每种类型的环境都提供了不同的优势,从开放式的多样体验到对agent技能的针对性评估。
论文专注于这些游戏中的单人交互。论文在安全的谷歌云环境中运行每个游戏的实例,使用硬件加速渲染到虚拟显示器。该显示器会流式传输到浏览器供人类玩游戏,或在评估期间传输到远程agent客户端进程。
论文使用的游戏如下:
•山羊模拟器3(Goat Simulator 3):一款第三人称游戏,玩家扮演一只生活在物理夸张世界中的山羊。玩家可以完成任务,其中大多数涉及制造混乱。
•Hydroneer:一款第一人称采矿和基地建设沙盒游戏,玩家的任务是挖掘黄金和其他资源以赚钱并增强他们的采矿业务。
•无人深空(No Man’s Sky):一款第一人称或第三人称的生存游戏,玩家需要探索一个充满程序生成行星的银河系。
•Satisfactory:一款第一人称开放世界探索和工厂建设游戏,玩家试图在一个外星球上建造一个太空电梯。这需要建造日益复杂的生产链来开采自然资源,并将它们转化为工业品、工具和建筑物——同时在一个庞大的开放环境中穿越越来越hostile的区域。
•Teardown:一款第一人称沙盒-解谜游戏,置身于一个完全可破坏的体素世界中,玩家被要求完成抢劫以赚钱,获取更好的工具,并承担更高风险的抢劫任务。
•Valheim:一款第三人称生存和沙盒游戏,游戏世界受北欧神话启发。玩家必须探索各种生物群落,收集资源,狩猎动物,建造住所,制造装备,航海和击败神话怪物才能在游戏中前进——同时还要应对诸如饥饿和寒冷等挑战。
•Wobbly Life:一款第三人称开放世界沙盘游戏,玩家可以探索世界、解锁秘密,并完成各种工作赚钱购买物品,最终买下自己的房子。
建筑实验室:一个新的研究环境,agent需要用互连的建筑块构建新奇的物品和雕塑,包括用于攀爬的斜坡、用于跨越的桥梁和动态机械装置。建筑实验室侧重于认知能力,如物体操纵和对物理世界的直观理解。
Playhouse:由程序生成的房屋环境和各种物体组成。论文增强了这个环境的图形和丰富的交互,包括烹饪或绘画等技能。
ProcTHOR:由程序生成的房间和现实内容(如办公室和图书馆)组成。尽管在该环境中存在基准任务集,但先前的工作并未使用键盘和鼠标操作来控制agent;因此,论文主要将重点放在使用该环境进行数据收集,而非评估。
WorldLab:通过使用一组有限的直观机制(如传感器和门)并主要依赖于各种物体的模拟物理来进一步专门测试体现agent。
这些数据集涵盖了广泛的指令任务:图3显示了在固定的预训练词嵌入空间内通过层次聚类从数据中现有的文本指令得到的指令簇。然而,大规模收集数据还不足以训练出成功的agent。
数据收集:论文使用各种方法收集数据,包括允许单人玩家自由游戏,然后事后用指令对这些轨迹进行注释。论文还执行了两人制定-解决的数据收集,其中一名玩家在选定的场景中指导另一名玩家做什么,同时共享单个玩家视图,以匹配单人玩家收集。论文所有的数据收集都是由与谷歌签约的参与者执行的。论文的数据收集协议的全部细节,包括赔偿率,都经过独立的人类行为研究委员会审查和批准,以确保符合道德和隐私标准。所有参与者在完成任务之前都提供了知情同意,并获得了时间报酬。
预处理、过滤和加权:在训练之前,论文执行各种离线预处理步骤,包括调整数据的大小以供agent输入、使用各种启发式过滤掉低质量数据,以及在环境和收集之间重新混合和加权数据,以优先考虑最有效的学习体验。
论文的agent架构:首先,论文的agent不仅包含从头开始训练的组件,还包含了几个预训练模型——包括在细粒度图像-文本对齐上训练的模型SPARC和视频预测模型)——论文分别通过行为克隆和视频预测在论文的数据上对它们进行进一步微调。在初步实验中,论文发现这些模型提供了互补的好处。结合这些预训练模型、微调和从头开始训练,允许agent利用互联网规模的预训练,同时还能专门针对它遇到的环境和控制任务的特定方面。
更具体地说,论文的agent(图4)利用从头开始训练的transformers跨注意不同的预训练视觉组件、编码的语言指令,以及注意过去记忆状态以构建状态表示的Transformer-XL。生成的状态表示作为输入提供给策略网络,生成8个动作序列的键盘和鼠标动作。论文使用行为克隆以及预测目标完成的辅助目标来训练这个agent。论文使用无分类器指导来改善经过训练的agent在运行环境时的语言条件性。CFG最初被提出用于加强扩散模型中的文本条件,但也被证明对语言模型和语言条件化agent具有类似用途。
动作对数概率:一个简单的方法是基于agent在保留的评估数据上的动作预测来评估agent。然而,与先前的研究结果一致(,论文观察到agent在评估数据上的动作对数概率与agent的性能之间最多只有弱相关性,超出了最基本的技能。因此,需要在线评估,其中agent与环境互动,以详细了解agent的性能。
静态视觉输入:与在保留数据上预测动作类似,论文可以向agent提供静态视觉输入和语言指令,以执行特定有效的动作(例如,“跳跃”),以直接评估直接映射到特定键盘和/或鼠标动作的简单响应。论文已经在论文的商业视频游戏环境中使用了这种形式的评估,因为它们具有无需加载游戏的优势。虽然这些评估可以是有用的早期信号,但它们不能可靠地预测长时间任务的成功。
地面真相(Ground-truth):论文内部开发的研究环境能够提供关于语言跟随任务是否成功完成的地面真相评估。这些任务可能依赖于agent的状态(“向前移动”)和周围环境(“举起绿色立方体”),以及更复杂的交互(“在大块的顶部连接一个连接点”或“用刀切胡萝卜”)。这些任务能够对一系列特定技能进行强大的测试,并提供高度可靠的任务成功信号。
光学字符识别(OCR):论文的许多商业视频游戏环境提供屏幕上的文本,用于标志任务或任务完成,甚至包括收集资源或进入游戏某些区域的低级操作的结果。通过在预定义的评估场景中使用OCR检测屏幕上的文本,有时结合检测特定的键盘和鼠标操作,论文可以廉价地评估agent是否成功执行了特定任务。这种自动化评估形式还避免了人类评估的主观性。论文特别在两款游戏《无人之境》和《瓦尔海姆》中使用OCR评估,这两款游戏都有大量的屏幕文本。例如,在《无人之境》中,论文开发了评估任务,如“开采碳/盐/铁”,“使用分析视器”或“打开外骨骼套装菜单”。同样,在《瓦尔海姆》中,论文有任务,如“收集木材/石头/覆盆子”,“使用工作台”或“烹饪食物”。然而,总的来说,OCR评估局限于使用游戏特定文本来标志任务完成的任务,而不是可以用语言指令指定的任意任务,论文期望通用代理能够解决这些任务。其他视频游戏也有明显较少的屏幕文本,这使得在这些游戏中可以使用OCR评估的行为范围非常有限。
人类评估:在许多情况下,论文无法自动推导任务成功的信号,论文转而请人类提供这一评估。虽然这是论文最通用的评估方法,但也是最慢和最昂贵的。论文使用游戏专家作为人类评委,也就是说,他们至少已经玩过这些特定游戏16个小时,并且通常在几周的时间内。论文要求他们审查记录的agent视频,并从不同的评委(通常是5个)那里收集同一视频的多个评分,以确保可靠的评估。论文还鼓励严格评估:论文要求评委在agent首先执行无关的动作的情况下将情节标记为失败,即使agent后来成功完成了指示的任务。
论文通过识别英语中频繁出现的动词列表,并将其与游戏过程和论文agent的交互测试中自然产生的动词列表相结合,精心策划了论文的人类评估任务。论文将这个动词列表作为论文在所有视频游戏环境中进行评估的基础。论文将每个任务(保存状态和指令对)分配给一个单一、最具代表性的技能类别(例如“制作物品”),尽管大多数任务需要一系列广泛的隐含技能才能成功(例如制作经常需要使用菜单)。由此产生的评估集为agent研究提供了长期挑战,涵盖了各种难度——从简单的游戏无关任务,比如“左转”,到测试专业游戏知识的任务,比如“比较反物质和反物质外壳的制作成本”,再到利用更广泛的语义知识的任务,比如“从挖干草的人那里拿叉子”。将论文的评估框架基于自然语言的分布,使论文能够在常见和对抗性场景中测试论文的agent,从而衡量论文朝着开发一个可指导的agent、能够在任何模拟的3D环境中完成人类所能做的任何事情的长期目标的进展。
定性例子:为了让人们了解agent的一般能力,图 5 显示了论文商业视频游戏环境中几个代表性例子。尽管环境的视觉多样性,agent仍能够执行这些任务,展示了基本的导航和工具使用技能。即使指示的目标不在视野中(如“去太空船”和“去HUB”),agent也能够找到目标。有关更多定性示例,请参阅附带的网站。
在图 6 中,论文报告了 SIMA agent在论文有定量评估的七个环境中的平均表现。平均值是在每个任务(在研究环境中,每个视频游戏中的一个任务)的多个情节,每个环境的多个任务以及三次使用不同随机种子的训练运行中计算的。误差棒表示该环境内任务和三次使用不同随机种子的训练运行中的 95% 置信区间(CI)。论文注意到,开发信息丰富的评估任务本身就是一项持续的工作,本文中的定量结果仅反映了此时此刻评估的特定行为范围。
总体而言,结果表明 SIMA agent能够在许多环境中完成一系列任务,但仍有相当大的改进空间。Playhouse 和 WorldLab 的性能更好,这是相对较简单的研究环境。对于更复杂的商业视频游戏环境,论文看到性能理所当然地稍低。值得注意的是,Construction Lab 的性能也较低,突显了这个研究环境及其评估任务的相对困难。这使得 SIMA 平台能够成为进一步开发将语言与感知和行动连接起来的agent的有用测试平台。
为了更好地理解 SIMA agent在越来越多的模拟环境中的表现,论文开发了一个以自然语言为基础的评估框架,用于添加和聚类评估任务,详细说明在论文的评估方法中。由于这些技能聚类是从论文的评估任务中派生而来,而不是训练数据,它们与图 3 中的技能类别类似,但又不同。如图 7 所示,性能在不同的技能类别之间变化,包括技能聚类内部,如“运动”或“游戏进度”。
•SIMA:论文的主要 SIMA agent,在除了 Hydroneer 和 Wobbly Life 之外的所有环境中训练,论文用于定性Zero-shot 评估。
•Zero-shot:类似于主要agent训练的单独 SIMA agent,但只在 ? − 1 个环境中训练,并在保留的环境上进行zero-shot 评估——也就是说,在该环境上没有任何 BC 训练。这些agent评估了论文的agent在受控环境中的迁移能力。(请注意,这些agent使用与主要 SIMA agent相同的预训练编码器,这些编码器是在论文环境的子集的数据上进行微调的;因此,在某些情况下,预训练编码器将通过来自保留环境的视觉输入进行调整,尽管agent没有在该环境中接受训练。然而,在 Goat Simulator 的数据上,编码器没有进行微调,因此在这种情况下的迁移结果没有受到混淆。)
•无预训练削弱实验:一个删除了 SIMA agent中预训练编码器的agent。论文用一个从头开始训练的 ResNet 视觉模型替换了这些模型(),因为在初步实验中,论文发现通过agent训练 SPARC/Phenaki 编码器导致性能不佳。与这个agent的比较测试了预训练模型对agent性能的好处。
•无语言削弱实验:一个在训练和评估期间都缺乏语言输入的agent。与这个agent的比较显示了论文的agent的性能可以通过简单的与语言无关的行为先验来解释的程度。
•环境专用:论文另外在每个环境上训练了一个专家agent,该agent仅在与该环境对应的数据上进行训练,但仍包括更广泛的预训练编码器。论文通过专家agent在每个环境上的性能对所有其他agent的性能进行归一化,作为论文的方法和论文为该环境拥有的数据所能实现的度量。
请注意,由于比较agent的数量,论文仅对每个agent运行了单个种子,而不是主要 SIMA agent使用的三个种子。每个agent在进行 120 万次训练步骤后进行评估。图 8 和图 9 中的柱状图表示平均性能(相对于环境专家的归一化);误差棒是任务和种子之间的参数化 95% 置信区间(如果有多个种子)。
图 8 显示了论文结果的摘要,而图 9 显示了按环境的结果。SIMA 总体上表现优于环境专用agent(相对于环境专家的平均改进达到 67%),从而证明了在环境之间的正向迁移。论文通过对每个领域内 SIMA agent和环境专用agent之间的每个任务性能的平均差异进行排列测试来统计量化这一好处。
请注意,zero-shot性能在 WorldLab 环境中特别强大,原因有三。首先,该环境的评估任务包含相对较大比例的领域通用技能,例如通过颜色识别对象,因为论文将它们用作对代理能力的快速测试。其次,该环境使用相同的基础引擎,并与其他内部研究环境共享一些实现细节,尽管它们具有不同的视觉风格、资产库、物理机制和环境可负担性,但可能支持行为迁移。此外,环境专用agent在这个环境中的表现可能稍微弱一些,因为从训练到测试存在非平凡的分布偏移。这是因为论文的一些数据来自具有动态差异和任务分布差异的较早版本的环境。跨多个环境进行训练的agent可能对这种分布偏移更加稳健。
无分类器指导:最后,图 10 比较了在论文的部分研究环境中使用和不使用无分类器指导的agent的表现:Construction Lab、Playhouse 和 WorldLab。然而,没有 CFG 的agent仍然表现出较高程度的语言条件性,明显优于没有语言基线。这些结果显示了 CFG 的好处,突出了推理时干预对agent可控性的影响。
结果总结如图 11 所示,误差线表示参数化 95% 置信区间。人类玩家在这些任务上只取得了 60% 的成功率,显示了论文在这个项目中考虑的任务的困难性以及论文评估标准的严格性。例如,一些人类的失败似乎是由于在完成任务之前进行了不必要的行为,比如在被告知“给采矿激光充电”后,最初打开并与飞船菜单进行交互,或在扫描后被告知“采集氧气”时进入分析模式。尽管这些具有挑战性的评估,SIMA agent取得了相当可观的表现(34% 成功率),远远超过了没有语言基线(11% 成功率)的表现。论文注意到,由于人类评委在更模糊的任务上存在分歧,可能无法达到 100% 的成功率。尽管如此,仍然需要相当大的进展来达到人类的表现水平。这突显了整个 SIMA 设置在提供具有挑战性但有信息意义的评估指标方面的实用性。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-03-30
2024-05-10
2024-05-28
2024-04-26
2024-04-12
2024-04-25
2024-07-25
2024-05-06
2024-05-14