我要投稿

2024年大型多模态智能体(Large Multimodal Agents)综述：组件, 分类，协作，评估，应用，展望

发布日期：2024-05-01 06:25:02 浏览次数： 4553 作者：旺知识

我们翻译整理最新论文：大型多模态智能体综述，文末有论文连接。

大型语言模型（LLMs）在推动基于文本的AI智能体方面取得了卓越的性能，赋予了它们类似于人类的决策和推理能力。与此同时，研究趋势正逐渐将这些由LLM驱动的AI智能体扩展到多模态领域。这种扩展使得智能体能够解释和响应多样化的多模态用户查询，从而处理更复杂和微妙的任务。本文对由LLM驱动的多模态智能体进行了系统性的回顾，简称为大型多模态智能体（LMAs）。本文首先介绍了开发LMAs所涉及的基本组件，并将当前的研究体系分为四种不同类型。随后回顾了整合多个LMAs的协作框架，增强了集体效能。该领域的关键挑战之一是现有研究中使用的不同评估方法，这阻碍了不同LMA之间的有效比较。因此，本文编制了这些评估方法，并建立了一个综合框架以弥合差距。该框架旨在标准化评估，促进更有意义的比较。在回顾结束时，本文强调了LMAs的广泛应用，并提出了可能的未来研究方向。我们的讨论旨在为这一快速发展领域的未来研究提供宝贵的见解和指导。

张长旺，旺知识

1 引言

智能体是一个能够感知其环境并基于这些感知做出决策以实现特定目标的系统[56]。虽然在狭窄领域中表现出色，但早期的智能体[35, 50]通常缺乏适应性和泛化能力，与人类智能存在显著差异。近期在大型语言模型（LLMs）方面的进展开始弥合这一差距，其中LLMs在命令解释、知识吸收[36, 78]以及模仿人类推理和学习[21, 66]方面增强了其能力。这些智能体使用LLMs作为主要的决策工具，并通过关键的类似人类的特征（如记忆）进一步增强，使它们能够处理各种自然语言处理任务，并使用语言与环境进行交互[40, 38]。

然而，现实世界的情境通常涉及超出文本的信息，包括多种模态，特别是视觉方面的信息。因此，LLM驱动的智能体的下一个进化步骤是获得处理和生成多模态信息的能力，特别是视觉数据。这种能力对于这些智能体演变成更加强大的AI实体，镜像人类水平的智能至关重要。具备这种能力的智能体在我们的论文中被称为大型多模态智能体（LMAs）。通常，它们面临的挑战比仅使用语言的智能体更为复杂。以网络搜索为例，一个LMA首先需要用户需求的输入，通过搜索栏查找相关信息。随后，它通过鼠标点击和滚动浏览实时网页内容。最后，LMA需要处理多模态数据（例如，文本、视频和图像）并执行多步推理，包括从网络文章、视频报告和社交媒体更新中提取关键信息，并将这些信息整合以响应用户的查询。我们注意到，现有的LMA研究是孤立进行的，因此有必要通过总结和比较现有框架来进一步推进该领域。虽然有几项关于LLM驱动智能体的调查[60, 42, 49]，但很少有研究关注多模态方面。

在本文中，我们的目标是通过总结LMAs的主要发展来填补这一空白。首先，我们介绍了核心组件（§2），并提出了现有研究的新分类法（§3），随后对现有的协作框架进行了进一步讨论（§4）。关于评估，我们概述了评估LMA性能的现有方法，然后进行了综合总结（§5）。然后，应用部分提供了多模态智能体及其相关任务的广泛实际应用的详尽概述（§6）。我们通过讨论和提出可能的未来方向来结束这项工作，以提供有用的研究指导。

2 LMAs的核心组件

在本节中，我们详细讨论了LMAs的四个核心元素，包括感知、规划、行动和记忆。

感知。感知是一个复杂的认知过程，使人类能够收集和解释环境信息。在LMAs中，感知组件主要关注从多样化环境中处理多模态信息。如表1所示，不同任务中的LMAs涉及各种模态。它们需要从这些不同模态中提取对完成任务最有利的关键信息，从而促进更有效的规划和任务执行。

早期关于处理多模态信息的研究[57, 43, 70, 9]通常依赖于简单的相关模型或工具，将图像或音频转换为文本描述。然而，这种转换方法往往会生成大量不相关和冗余的信息，特别是对于复杂的模态（例如，视频）。随着输入长度的限制，LLMs经常面临在有效提取规划所需信息方面的挑战。为了解决这个问题，最近的研究[71, 47]引入了子任务工具的概念，这些工具旨在处理复杂的数据类型。在类似真实世界的环境中（即，开放世界游戏），[51]提出了一种处理非文本模态信息的新方法。这种方法首先从环境中提取关键的视觉词汇表，然后使用GPT模型将这些词汇表进一步细化为一系列描述性句子。当LLMs在环境中感知视觉模态时，它们使用这些来检索最相关的描述性句子，有效增强了对周围环境的理解。

规划。规划器在LMAs中扮演着核心角色，类似于人类大脑的功能。它们负责对当前任务进行深入推理，并制定相应的计划。与仅使用语言的智能体相比，LMAs在更复杂的环境下运行，使得制定合理的计划更具挑战性。我们从四个角度详细规划器（模型、格式、检查与反思和规划方法）：

模型：如表1所示，现有研究使用不同的模型作为规划器。其中最受欢迎的是GPT-3.5或GPT-4 [43, 41, 9, 30, 57, 51]。然而，这些模型并未公开，因此一些研究开始转向使用开源模型，如LLaMA [67]和LLaVA [23]，后者可以直接处理多种模态的信息，增强了它们制定更优计划的能力。
格式：它表示规划器制定的计划的表达方式。如表1所示，有两种格式化方式。第一种是自然语言。例如，在[41]中，获得的规划内容是“I did the first thing by using OpenCV’s openpose control model to analyze the pose of the boy in the image...”，这里制定的计划是使用“OpenCV的openpose控制模型”。第二种是以程序的形式，如[43]中描述的“image_patch = ImagePatch(image)”，调用ImagePatch函数执行规划。还有混合形式，如[9]。
检查与反思：对于LMAs来说，在复杂的多模态环境中始终制定有意义且能够完成任务的计划是具有挑战性的。这个组件旨在增强鲁棒性和适应性。一些研究方法[51, 52]将成功经验存储在长期记忆中，包括多模态状态，以指导规划。在规划过程中，它们首先检索相关经验，帮助规划器深思熟虑以减少不确定性。此外，[12]利用人类在执行相同任务时不同状态下制定的计划。当遇到类似状态时，规划器可以参考这些“标准答案”进行思考，从而形成更合理的计划。此外，[71]采用了更复杂的规划方法，如蒙特卡洛方法，扩大规划搜索的范围，以找到最优的规划策略。
规划方法：现有的规划策略可以分为两种类型：动态和静态规划，如表1所示。前者[57, 43, 70, 30, 41]指的是根据初始输入将目标分解为一系列子计划，类似于思维链（Chain of Thought, CoT）[80]，即使在过程中出现错误，也不会重新制定计划；后者[9, 25, 51, 71]意味着每个计划都是基于当前的环境信息或反馈制定的。如果在计划中检测到错误，它将返回到原始状态进行重新规划[12]。

行动。多模态智能体系统中的行动组件负责执行由规划器制定的计划和决策。它将这些计划转化为具体行动，如使用工具、进行物理移动或与界面交互，从而确保智能体能够准确高效地实现其目标并与环境互动。我们的讨论集中在两个方面：类型和方法。

行动在表1中被分类为三类：工具使用（T）、体现行动（E）和虚拟行动（V），其中工具包括视觉基础模型（VFMs）、API、Python等（如表2所列）；体现行动由物理实体如机器人[32, 7]或虚拟角色[51, 52, 45, 68]执行；虚拟行动（V）包括网络任务（例如，点击链接、滚动和键盘使用）。在方法方面，如表1所示，主要有两类。第一种涉及使用提示为智能体提供有关可执行行动的信息，例如当前可用的工具及其功能；第二种涉及收集行动数据，并利用这些信息对开源大型模型进行自我指导的微调过程，例如LLaVA [23]。这些数据通常由高级模型生成，如GPT-4。与仅使用语言的智能体相比，与行动相关的信息和数据的复杂性要求更复杂的方法来优化学习策略。

记忆。早期研究表明，记忆机制在通用智能体的运作中起着至关重要的作用。与人类类似，智能体中的记忆可以分为长期记忆和短期记忆。在简单环境中，短期记忆足以使智能体处理手头的任务。然而，在更复杂和现实的环境中，长期记忆变得至关重要。在表1中，我们可以看到只有少数LMA整合了长期记忆。与仅使用语言的智能体不同，这些多模态智能体需要能够跨各种模态存储信息的长期记忆。在一些研究[71, 47, 69, 7]中，所有模态都被转换为文本格式进行存储。然而，在[51]中，提出了一个多模态长期记忆系统，专门设计用于归档以前的成功经验。具体来说，这些记忆被存储为键值对，其中键是多模态状态，值是成功的计划。在遇到新的多模态状态时，根据它们编码的相似性检索最相似的示例：

其中 kt 表示通过 CLIP 模型编码的键的视觉信息，与当前视觉状态 kx 进行相似性比较，后者也由 CLIP 编码。

3 LMAs 的分类

在本节中，我们通过将现有研究分类为四种类型来呈现 LMAs 的分类法。

类型 I：无长期记忆的闭源 LLMs 作为规划器。早期研究[11, 43, 57, 41, 9, 25]使用提示来利用闭源大型语言模型（例如 GPT-3.5）作为规划器进行推理和规划，如图 2(a) 所示。根据特定环境或任务要求，这些计划的执行可以通过下游工具包或直接使用物理设备（如鼠标或机械臂）与环境进行交互来完成。这类 LMA 通常在更简单的环境中运行，执行传统任务，如图像编辑、视觉定位和视觉问题回答（VQA）。

类型 II：无长期记忆的微调 LLMs 作为规划器。这类 LMA 涉及收集多模态指令执行数据或使用自我指令来微调开源大型语言模型（如 LLaMA）[67]或多模态模型（如 LLaVA）[23, 46]，如图 2(b) 所示。这种增强不仅使模型能够作为推理和规划的中心“大脑”，而且还能够执行这些计划。类型 II LMA 面临的环境和任务与类型 I 类似，通常涉及传统的视觉或多模态任务。与以相对简单的动态、封闭环境和基本任务为特征的经典场景相比，在像 Minecraft 这样的开放世界游戏中，LMA 需要在动态环境中执行精确规划，处理高复杂性的任务，并参与终身学习以适应新挑战。因此，在类型 I 和类型 II 的基础上，类型 III 和类型 IV LMA 整合了记忆组件，展现出发展成为人工智能领域通用智能体的巨大潜力。

类型 III：具有间接长期记忆的规划器。对于类型 III LMA [71, 47]，如图 2(c) 所示，LLMs 作为中心规划器，并配备了长期记忆。这些规划器通过调用相关工具来访问和检索长期记忆，利用这些记忆来增强推理和规划。例如，在 [71] 中开发的多模态智能体框架适用于视频处理等动态任务。该框架由规划器、工具包和与任务相关的存储库组成，该存储库目录了空间和时间属性。规划器使用专门的子任务工具查询与视频内容相关的空间和时间属性，从而推断与任务相关的时间和空间数据。每个工具都存储在工具包中，专为特定类型的空间时间推理而设计，并在框架内充当执行器。

类型 IV：具有本地长期记忆的规划器。与类型 III 不同，类型 IV LMA [51, 37, 7, 76] 的特点是 LLMs 直接与长期记忆交互，绕过了使用工具访问长期记忆的需要，如图 2(d) 所示。例如，在 [51] 中提出的多模态智能体展示了在 Minecraft 的开放世界环境中完成 200 多种不同任务的能力。在他们的多模态智能体设计中，交互式规划器将多模态基础模型与 LLM 合并，首先将环境的多模态输入转换为文本。规划器进一步使用自检机制来预测和评估执行中的每一步，主动发现潜在的缺陷，并结合环境反馈和自我解释，迅速纠正和完善计划，无需额外信息。此外，这个多模态智能体框架包括一个新颖的多模态记忆。成功任务计划及其初始多模态状态被存储，规划器从该数据库中检索类似状态以用于新任务，利用累积的经验更快、更有效地完成任务。

4 多智能体协作

我们在本节中进一步介绍了 LMAs 的协作框架，超越了对孤立智能体的讨论。

如图 3(a)(b) 所示，这些框架采用多个 LMAs 协作工作。两种框架之间的关键区别在于是否存在记忆组件，但他们的基本原理是一致的：多个 LMAs 有不同的角色和责任，使它们能够协调行动以共同实现一个共同目标。这种结构减轻了单个智能体的负担，从而提高了任务性能[12, 37, 17, 29]。

例如，在表 1 中，在 [37] 的多模态智能体框架中，引入了一个感知器智能体来感知多模态环境，由大型多模态模型组成。一个被指定为巡逻器的智能体负责与感知器智能体进行多次交互，对感知的环境数据进行实时检查和反馈，以确保当前计划和行动的准确性。当检测到执行失败或需要重新评估时，巡逻器向规划器提供相关信息，促使重新组织或更新子目标下的行动序列。MemoDroid 框架[17]由几个关键智能体组成，它们协作工作以自动化移动任务。探索智能体负责离线分析目标应用程序界面，基于 UI 元素生成潜在子任务列表，然后将这些子任务存储在应用程序记忆中。在在线执行阶段，选择智能体根据用户命令和当前屏幕状态从探索集中确定要执行的特定子任务。推理智能体进一步识别并完成所选子任务所需的底层行动序列，通过提示 LLM 来完成。同时，当遇到与以前学习过的任务类似的任务时，回忆智能体可以直接调用并执行记忆中相应的子任务和行动序列。

5 评估

研究的主要焦点是提高当前 LMAs 的能力。然而，致力于开发评估和评估这些智能体的方法的工作却很少。大多数研究继续依赖于传统的性能评估指标，清楚地说明了评估 LMAs 所固有的挑战。这也强调了在该领域开发实用的评估标准和建立基准数据集的必要性。本节总结了对 LMAs 的现有评估，并对未来的发展提供了视角。

5.1 主观评估

主观评估主要是指使用人类来评估这些 LMAs 的能力。我们的最终目标是创建一个能够像人类一样理解世界并自主执行各种任务的 LMA。因此，采用人类用户对 LMAs 能力的主观评估至关重要。主要的评估指标包括多功能性、用户友好性、可扩展性和价值与安全。

多功能性。多功能性表示一个 LMA 熟练使用不同工具、执行物理和虚拟行动以及管理各种任务的能力。[30] 提出比较现有 LMAs 中使用的工具的规模和类型，以及评估它们的能力多样性。

用户友好性。用户友好性涉及用户对 LMAs 完成任务的结果的满意度，包括效率、准确性和结果的丰富性。这种类型的评估相对主观。在 [64] 中，人类对 LMA 的评估对于准确评估其解释和执行用户指令的有效性至关重要。

可扩展性。可扩展性基本上评估 LMAs 吸收新能力和应对新挑战的能力。鉴于人类需求的动态性，严格评估 LMAs 的适应性和终身学习潜力至关重要。例如，[23] 中的评估侧重于代理使用以前未见过的工具完成任务的能力。

价值与安全。除了前面提到的指标外，“价值与安全”指标在确定代理对人类用户的实际意义和安全性方面起着关键作用。虽然许多当前评估忽略了这一指标，但考虑 LMAs 的“价值与安全”至关重要。与语言代理相比，LMA 可以处理更广泛的任务类别，使它们遵循与人类社会价值观一致的道德和道德原则变得更加重要。

5.2 客观评估

与主观评估不同，客观评估依赖于定量指标来全面、系统和标准化地评估 LMAs 的能力。它目前是多模态智能体研究中最广泛采用的评估方法。

指标。在客观评估中，指标起着至关重要的作用。在当前的多模态智能体研究[43, 70, 9, 71, 12, 57, 30]中，采用了特定任务相关的指标，例如智能体在视觉问题回答（VQA）等任务中生成的答案的准确性[10, 43]。然而，LLMs 出现之前建立的传统任务指标并不足以评估由 LLM 驱动的 LMA。因此，越来越多的研究工作正在寻找更合适的评估指标。例如，在 VisualWebArena [16] 中，设计了一种专门的评估指标，用于评估 LMA 在处理视觉引导任务方面的性能。这包括测量智能体对网页内容的视觉理解的准确性，例如识别和使用标记的操作元素的能力，以及根据任务目标定义的手动设计奖励函数实现状态转换，还包括对特定视觉场景问题的响应准确性，以及根据视觉信息执行的动作的一致性。

基准。基准测试是一个测试环境，包括一套评估标准、数据集和任务。它用于评估和比较不同算法或系统的性能。与常规任务的基准测试[30, 12, 57, 23]相比，SmartPlay [58] 使用精心设计的游戏集合来全面测量 LMA 的各种能力，为每种能力建立了详细的评估指标和挑战级别。与使用游戏进行评估的方法不同，GAIA [34] 开发了一个包含 466 个问题及其答案的测试集。这些问题要求 AI 系统具备一系列基本能力，如推理、处理多模态信息、网络导航和熟练使用工具。它与当前为人类创建越来越困难任务的趋势不同，专注于对现有高级 AI 系统来说概念简单但具有挑战性的问题。这些问题涉及需要精确执行复杂操作序列的真实世界场景，输出容易验证。同样，VisualWebArena [16] 是一个基准测试套件，旨在评估和提高 LMA 在处理真实网页上的视觉和文本理解任务方面的能力。还有其他基准测试[31, 61]有效地测试了智能体的能力。

6 应用

在处理多样化数据模态方面，LMA 比仅使用语言的智能体在不同场景中的决策制定和响应生成方面更胜一筹。它们的适应性使它们在真实世界的多感官环境中异常有用，如图 4 所示。

GUI 自动化。在这一应用中，LMA 的目标是理解和模拟用户界面中的人类行为，从而执行重复性任务、跨多个应用程序导航和简化复杂工作流程。这种自动化有潜力节省用户的时间和精力，让他们专注于工作更关键和创造性的方面[44, 6, 53, 64, 75, 69, 54, 17, 8]。例如，GPT-4V-Act [6] 是一个先进的 AI，它结合了 GPT-4V 的能力与网页浏览，以改善人机交互。其主要目标是使用户界面更加易于访问，简化工作流程自动化，并增强自动化 UI 测试。这种 AI 对于残疾人或技术技能有限的人特别有益，帮助他们更容易地导航复杂的界面。

机器人技术和体现智能体。这一应用[37, 51, 68, 52, 45, 65, 79]专注于将机器人的感知、推理和行动能力与它们在环境中的物理交互相结合。使用多模态智能体，机器人能够利用多种感官通道，如视觉、听觉和触觉，获取全面的环境数据。例如，MP5 系统[37]是 Minecraft 中使用的一个尖端多模态实体系统，它利用主动感知智能地分解并执行广泛、不确定的任务，与大型语言模型结合使用。

游戏开发。游戏 AI [58, 16] 致力于设计和实现这些智能体，以展示智能和现实主义，从而为玩家提供引人入胜和具有挑战性的体验。智能体技术在游戏的成功整合导致了更复杂和互动的虚拟环境的创建。

自动驾驶。自动驾驶的传统方法[33]在有效感知和解释复杂场景方面面临障碍。最近在基于多模态智能体技术的进展，特别是由 LLM 驱动的技术，标志着在克服这些挑战和弥合感知差距方面取得了实质性进展[32, 7, 81, 55]。[32] 提出了 GPT-Driver，这是一种开创性的方法，它使用 OpenAI GPT-3.5 模型作为自动驾驶车辆的可靠运动规划器，专注于生成安全舒适的驾驶轨迹。利用 LLM 固有的推理能力，他们的方法为解决新驾驶场景中有限泛化的问题提供了一个有希望的解决方案。

视频理解。视频理解智能体[9, 71]是专门为分析和理解视频内容而设计的人工智能系统，它利用深度学习技术从视频中提取关键信息，识别对象、动作和场景，以增强对视频内容的理解。

视觉生成与编辑。这类应用[4, 70, 47]旨在创建和操作视觉内容。利用先进技术，这个工具轻松地创建和修改图像，为用户提供了一个灵活的创意项目选项。例如，LLaVA-Interactive [4] 是一个开源的多模态交互系统，它结合了预训练 AI 模型的能力，促进了带有视觉提示的多轮对话，并生成编辑后的图像，从而实现了一种成本效益高、灵活且直观的 AI 辅助视觉内容创作体验。

复杂视觉推理任务。这个领域是多模态智能体研究的一个重点，主要强调多模态内容的分析。这种流行的原因是 LLM 在理解和推理基于知识的查询方面的认知能力优于以前的模型[14, 25, 80]。在这些应用中，主要关注的是问答任务[41, 57, 70, 30]。这涉及利用视觉模态（图像或视频）和文本模态（问题或带有附加文档的问题）进行推理性回应。

音频编辑与生成。在这一应用中，LMA 集成了音频领域的基础专家模型，使音乐的编辑和创作变得高效[77, 73, 13, 26]。

7 结论和未来研究

在这项调查中，我们提供了对由 LLM 驱动的多模态智能体（LMA）的最新研究的全面概述。我们首先介绍了 LMAs 的核心组件（即感知、规划、行动和记忆），并将现有研究分类为四个类别。随后，我们编制了评估 LMAs 的现有方法，并设计了一个综合评估框架。最后，我们重点介绍了 LMAs 在现实世界中的一系列当前和重要的应用场景。尽管取得了显著进展，但该领域仍面临许多未解决的挑战，并且有很大的改进空间。我们最后根据审查的进展突出了几个有希望的发展方向：

• 在框架方面：LMA 的未来框架可能从两个不同的角度发展。从单个智能体的角度来看，发展可能会朝着创建一个更统一的系统的方向发展。这包括规划器直接与多模态环境[71]交互，使用一套全面的工具[30]，以及直接操作记忆[51]；从多个智能体的角度来看，推进多个多模态智能体之间的有效协调以执行集体任务成为关键的研究轨迹。这包括协作机制、通信协议和战略任务分配等基本方面。

• 在评估方面：该领域非常需要系统化和标准化的评估框架。理想的评估框架应该包括一系列评估任务[58, 16]，从简单到复杂，每个任务都对人类具有重要的相关性和实用性。它应该包含清晰而明智的评估指标，精心设计，以全面而非重复的方式评估 LMA 的多样化能力。此外，用于评估的数据集应该经过精心策划，以更贴近现实世界场景。

• 在应用方面：LMA 在现实世界中的潜在应用是巨大的，为传统模型难以解决的问题提供了解决方案，例如网页浏览。此外，LMA 与人类计算机交互领域的交叉[54, 44]代表了未来应用的重要方向之一。它们处理和理解各种模态信息的能力使它们能够执行更复杂和微妙的任务，从而增强了它们在现实世界场景中的实用性，并改善了人类与机器之间的交互。

参考文献

题目：Large Multimodal Agents: A Survey 作者：Junlin Xie♣♡∗ Zhihong Chen♣♡∗ Ruifei Zhang♣♡ Xiang Wan♣ Guanbin Li♠† 单位：♡香港中文大学深圳 ♣深圳大数据研究所 ♠中山大学链接：https://arxiv.org/abs/2402.15116

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业