我要投稿

论文导读 | Large Language Model based Multi-Agents的发展与挑战

发布日期：2024-04-17 08:23:59 浏览次数： 3663

作者：ADaM应用数据挖掘和机器学习

微信搜一搜，关注“ADaM应用数据挖掘和机器学习”

本期主题

在大型语言模型（LLM）应用领域，构建智能体（Agent）的概念无疑是最为引人注目的进展之一。尽管基于大型语言模型的单一智能体在处理特定任务时表现出色，但面对复杂且多变的任务时，它们的能力便显得有限。单一智能体的知识和能力受限，不仅难以处理多任务并发，也无法充分利用多个智能体间协作的潜在优势。相比之下，多智能体系统由众多智能体构成，它们能够相互协作，共同完成更为复杂的任务。这类系统不仅具有强大的鲁棒性和适应性，还能高效地应对复杂且多变的任务。研究多智能体系统不仅能提升单个智能体的性能，还能通过智能体间的协同作用，实现更为高效的任务处理机制。

本文将介绍一篇关于多智能体系统的综述文章，以及两篇介绍多智能体实际应用架构的研究工作。最后，也将探讨多智能体系统可能面临的一些挑战。

1. Large Language Model based Multi-Agents: A Survey of Progress and Challenges

论文链接：https://arxiv.org/pdf/2402.01680.pdf

一、单智能体 Single-Agent

对于单智能体而言，是指使用单一的大型语言模型作为智能体的核心处理单元的系统。系统的关键能力包括

● 体现自主性的规划能力：Agent在提示词的指导下，将复杂任务分解为更小的子任务，并从过去的经验中进行反思和改进，以便对复杂任务执行更好的决策。

● 体现有效性的规划能力：能够利用外部工具和资源来完成任务，增强其特定能力，并在多样化和动态的环境中更有效地运行

● 记忆功能：这种能力是指通过长短期记忆。使得agent能够保持上下文一致性并增强其规划能力。

二、多智能体 Multi-Agents

多智能体系统相对于单智能体，主要通过增加下面两种方式使得系统具有处理高度复杂与专业化的问题。

● 增加职业化的Agent数量，将LLM特化为各种不同的Agent，每个Agent都具有不同的功能

● 实现Agent之间的交互，不同Agent之间的交互能够有效地模拟复杂的现实世界环境，多个Agent可协同进行规划、讨论和决策

多智能体系统强调不同的主体概况、主体间互动和集体决策。是提供了一种更为灵活和强大的方法来处理复杂的任务和挑战。在业界提出的构建AI应用的五层基石理论中，多智能体系统也是处于顶层，是在单个agent基础之上，通过专业化Agent之间交互，去解决复杂问题的。

未来，在需要高度协作和专业化的领域，多智能体系统可能会成为更受欢迎的选择。

三、多智能体基本架构

本文提出多智能体的基本架构，主要分为四个部分：

1. Agents-Environment Interface(智能体环境接口) ：智能体可与哪些任务环境进行交互

●Physical真实物理环境：真实世界的环境，智能体与物理实体交互，并遵守现实世界的物理和约束。智能体与机器人的结合，去执行有物理结果的行动，如抓取物品等。

● Sandbox虚拟沙盒环境：人类构建的虚拟环境，智能体可以更自由地交互，并试验各种行动和策略。目前也有很多在游戏世界中构建智能体社会，探究多智能的能力的工作

● None无环境：智能体不与环境发生交互，主要关注智能体之间的通信，如多智能体辩论。

2. Agents Profiling(智能体配置)：智能体该如何进行思考工作

配置信息也就是为满足特定目标而量身定制的特征、行为和技能。

●预定义：系统设计人员显式地定义智能体配置文件。

● 模型生成：通过模型创建智能体配置文件。

● 数据派生：基于一些已有的数据集构建智能体配置文件。

3. Agents Communication(智能体交互)：如何让智能体之间更好的沟通

主要有三个角度

① 交互方式

主要分为合作和竞争两种。合作即gent为了一个或多个共同的目标而共同工作，通常通过交换信息来增强集体解决方案。竞争即Agent为实现自己的目标而努力，这可能与其他Agent的目标相冲突。

② 交互结构

下图显示了多智能体系统中的四种典型交互结构。

分层通信是分层结构的，每一层的Agent具有不同的角色，主要在其相邻层进行交互；
分散通信在点对点网络上运行，其中Agent直接相互通信，这是世界模拟应用中常用的结构；
集中式通信涉及一个或一组协调系统通信的中心Agent，其他代理主要通过这个中心节点进行交互；
共享通信结构维护一个共享消息池，其中Agent根据其配置文件发布消息并订阅相关消息，从而提高了通信效率

③ 交互内容

现阶段在多智能体系统中交流内容通常采用文本的形式。

4. Agents Capabilities Acquisition(多智能体能力获取)：如何开发多智能体去有效解决问题

智能体能力获取是实现多智能体的一个关键过程，它使智能体能够动态地学习和发展。在这种情况下，有两个基本概念：

● Agent应从哪些类型的反馈中学习以提高自身能力：包括环境反馈、人类反馈的外部反馈、也有从其他智能体交互过程中的内部反馈，能够帮助agent了解其行为的潜在影响并适应复杂和动态的问题。

● Agent调整自身以有效解决复杂问题的策略：包括通过系统的记忆模块获取有价值信息、自我进化（Agent可以通过修改自己来动态地自我进化，例如改变其初始目标和规划策略，并根据反馈或通信日志来训练自己，而不是仅仅依靠历史记录来决定后续行动）和动态生成（即时生成新的智能体）。

2. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

论文链接：https://arxiv.org/pdf/2308.00352.pdf

源码链接：https://github.com/geekan/MetaGPT

● 动机：直接将多个LLM链式连接去解决问题时，其中的级联幻觉问题，导致目标逻辑不一致，使得难以解决复杂的任务

● 方法：首先将标准化操作程序（SOP）编码为提示，促进结构化的协调。然后，它进一步要求模块化输出，以便于验证输出并减少级联幻觉。通过这种方式，MetaGPT利用流水线工作模型为不同的智能体分配多样的角色，从而建立了一个可以有效地分解复杂多智能体协作问题的框架。

如上图所示，现在需求是实现一个游戏，在现实标准化流程中，有功能规划、需求分析，架构设计等等环节，MetaGPT正是将这些环节分配给对应的Agent上进行完成，每个Agent输出指定的内容，产品经理输出产品需求文档，系统架构师输出架构图等，流程化的完成既定的任务。

在实验部分，实验1：使用MBPP、HumanEval两个代码生成数据集，Baselines采用在代码生成领域的LLM，MetaGPT在HumanEval和MBPP基准测试中都优于其他方法

实验2是自行构建了一个SoftwareDev的数据集，其中有70个代表性的软件开发任务，Baselines采用ChatDev，MetaGPT在SoftwareDev上大部分指标均优于ChatDev，虽然需要消耗更多Token，但是代码生成效率Productivity(一行代码消耗token)上，还是要优于ChatDev。

3. AutoAgents: A Framework for Automatic Agent Generation

论文链接：https://arxiv.org/pdf/2309.17288.pdf

源码链接：https://github.com/Link-AGI/AutoAgents

● 动机：部分现有的基于LLM的多智能体方法都依赖于预定义的智能体来处理任务，这限制了多智能体协作对不同场景的适应性。这篇工作弥补了MeteGPT流程和角色较为固定的不足。

● 方法：通过几个预设的Agent，根据任务自适应地生成和协调多个Agent，以建立一个AI团队。具体而言，预设Agent通过基于任务内容动态生成多个所需Agent，并基于生成的专家Agent为当前任务规划解决方案，来耦合任务和角色之间的关系。

例如，如上图所示，现在需求是：写一本关于人工智能觉醒的小说，AutoAgents先由预设的Agent（Planner）来设计完成当前任务所需的其他角色和各角色完成任务所需要的具体动作。Observer这几个预设Agent在Planner进行生成与动作执行时进行辅助。

为了完成这个任务，Planner 设计需要的几位专家：一名研究人员（Researcher）收集有关人工智能及其潜在觉醒的信息，一名故事策划者（Story Planner）概述小说，以及一名角色开发人员创造引人入胜的角色，最后，需要一名作家负责撰写叙事。这些角色均由是一个 Agent智能体。在执行阶段每个角色Agent自行完成自己的任务。

具体说，主要包括两个阶段：

1. Draft Stage通过预设的三个Agent，分别是

Planner：基于任务生成并细化Agents和Plan；
Agent Observer：对Agents的合理性及与Plan的匹配程度提供建议；
Plan Observer：对Plan的合理性及与Agents的匹配程度提供建议，通过他们之间的协作讨论来综合定制的agent团队和适合输入问题的执行计划。

2. Execution Stage通过生成的Agent间协作和反馈完成任务，以及产生最终结果。预定义的agent（Action Observer）以协助agents团队共享信息，协调行动，达成共识，适应环境。

对于每一个生成的Agent都是Self-Refinement Agent，利用AutoGPT和ReAct等机制，每个Agent设计了一种自细化机制，通过个体agent和协作进行自我完善，以提高agent的熟练程度并促进各agent之间的知识共享。

这篇工作的实验部分，第一个是关于开放问答任务，使用MT-Bench数据集，用一种基于LLM的公平评估指标和人工评估指标，在这两种指标上AutoAgent 的表现都优于单个 LLM 模型。

第二个是在创意写作任务上，这项任务要求模型围绕一个给定的主题编写一个连贯的故事，同时结合 N 个问题的答案。创意写作任务度量分数Score=#正确答案提及次数/#个数问题AutoAgents在知识获取方面优于现有方法的性能。与不使用Agent生成的标准方法相比，AutoAgents在所有实验中都实现了10%的显著改进。