我要投稿

XAgent：采用双循环运转机制，自主解决复杂任务的通用智能体

发布日期：2024-08-13 19:11:47 浏览次数： 2684

作者：AI应用研究Lab

微信搜一搜，关注“AI应用研究Lab”

1 XAgent简介

XAgent是一个开源、基于大型语言模型（LLM）的通用自主智能体，可以自动解决各种复杂任务。XAgent采用双环机制，外循环用于高层任务管理，起到规划（Planning）的作用，内循环用于底层任务执行，起到执行（Action）的作用。XAgent具有如下特点：

自主性：XAgent可以在无人类参与的情况下自动解决各种任务。
安全性：XAgent支持安全运行，所有的行为都被限制在一个docker容器内，无需担心主机环境受到影响。
可扩展性：XAgent支持可扩展，可以添加新的工具（甚至新的智能体）来增强智能体的能力。
GUI：XAgent支持通过GUI，或者使用命令行界面与智能体交互。
与人类的合作：XAgent可以与人类合作解决任务。它不仅有支持在行进中遵循人类的指导来解决复杂的任务，而且在遇到挑战时还可以寻求人类的帮助。

图1 XAgent的工作流程图

2 XAgent实现原理

2.1 规划（外循环）和执行（内循环）

CAMEL专注于以任务为导向的角色扮演，包含一个AI助理（AI Assistant）和一个AI用户（AI User）。在多智能体系统接收到人类用户的初步想法和角色分配后，任务指定智能体将提供详细的描述，使想法更加具体化。然后，AI助理和AI用户将通过多轮对话合作完成指定的任务，直到AI用户确定任务完成为止。一方面，AI用户负责向AI助理提供指令，并引导对话朝着任务完成的方向进行；另一方面，AI助理则需要遵循AI用户的指示，做出回答并提供具体的解决方案。完整的角色扮演框架如图2所示。

在XAgent中，规划和任务执行过程通过双循环机制（外循环和内循环）进行编排。其本质上，外循环处理高层次的任务管理和分配，内循环专注于每个子任务的低层次执行和优化。

图2 XAgent实现机制

外循环

外循环作为高层规划器和整个问题解决序列的主要协调者，充当整个问题解决序列的管理。它的职责可以分解如下：

初始计划生成：PlanAgent首先生成一个初始计划，为任务执行制定基本策略。该部分会将给定的复杂任务分解为更小、更易管理的子任务，其表现为一个任务队列，可以直接地执行。
迭代式计划优化：在初始规划之后，PlanAgent通过从任务队列中释放出第一个任务，然后将该子任务传递给内循环。PlanAgent持续监视任务的进展和状态。在每个子任务执行后，内循环会返回来自ToolAgent的反馈。根据反馈，PlanAgent触发适当的处理机制，如优化计划或继续执行后续子任务。直到队列中没有剩余的子任务为止，外循环结束。

内循环

内循环负责执行外循环分配的各个子任务。基于外循环给定的子任务，内循环会指定一个合适的ToolAgent，确保任务达到预期的结果。内循环的关键点包括：

智能体调度和工具获取：根据子任务的性质，派遣合适的ToolAgent，该Agent具备完成任务所需的能力。
工具执行：ToolAgent首先从外部系统中获取工具以帮助完成任务。然后，智能体使用ReACT来解决子任务。ReACT会寻找最佳的一系列动作（工具调用）来完成子任务。
反馈和反思：在一系列动作之后，ToolAgent可以发出一个名为“subtask_submit”的特定动作，以完成当前子任务的处理，并将反馈和反思传递给PlanAgent。这个反馈可以指示子任务是否成功完成，或者强调潜在的改进。

2.2 PlanAgent：动态规划和迭代改进

PlanAgent赋予智能体不断制定和修订计划的能力，以适应多变的环境和突发需求。这些能力对于确保灵活性、弹性和效率以应对未预见的挑战至关重要。PlanAgent专用于外循环，其通过生成初始计划和不断修订计划来实现这一目标。PlanAgent包含四个函数来优化计划：

子任务拆分：使系统能够将特定的子任务分解为粒度更细、更易管理的单元。只有当前正在执行或尚未启动的子任务才有资格进行此操作。
子任务删除：删除尚未开始的子任务。已经在进行中或已完成的子任务不具备删除资格。这确保了一定的灵活性，可以修剪多余或不相关的任务，以优化整体执行。
子任务修改：修改子任务的内容。要修改的子任务不能是已经开始或已经完成，以保持整体计划的完整性。
子任务添加：在特定子任务之后插入新的子任务。只能在当前处理的子任务或其后继任务之后添加子任务。这确保了新任务按顺序编排，简化了执行流程，并保持了一致性。

2.3 ToolAgent：在函数调用中协同推理和行动

如前所述，ToolAgent使用ReACT会寻找最佳的一系列动作（工具调用）来完成子任务。在每一轮中，智能体根据先前的交互生成一个动作，对于每个动作，在同一个函数调用中将智能体的推理和行动协同起来，即推理跟踪（“思考”）和将要执行的动作都被视为特定函数的参数。具体而言，每个（函数调用）具有以下组件：

思考：智能体关于任务的洞察力的概括。
推理：跟踪智能体通过的逻辑轨迹，以得出其思考。
批评：捕捉智能体对其行动的自我反思，作为一个反馈回路。它强调潜在的疏忽或改进的领域。
指令：根据推理决定智能体下一步要采取的动作。
参数：列举要执行的动作的具体参数或细节。

2.4 ToolServer：多样化的支持工具

ToolServer包括三个关键组件：

ToolServerManager管理Docker容器（即节点）的生命周期，处理它们的创建、监控和关闭。当一个新会话开始时，管理器可以创建一个新节点。定期检查这些节点的状态，以确保它们健康运行。
ToolServerMonitor检查节点的状态，更新它们的状态，并确保它们有效地执行。如果一个节点在长时间内空闲，监视器可以停止它以节省资源。
ToolServerNode是执行单元，其中执行动作（如API调用、文件上传、工具检索等）。

3 XAgent总结

XAgent的实现逻辑更像是BabyAGI，依赖大模型做任务分解然后执行，这种实现的问题是任务分解的粒度：大模型往往会过度分解，简单的任务会无限复杂化，无法有效终止，从XAgent给出的实例来看，也无法避免。

XAgent的框架定义的不清晰：XAgent提供的不是一个SDK框架，是一个Web服务，这样开发者无法扩充修改；代码框架层面也不是很清晰，Agent没有抽象化，逻辑混乱，而且Memory目前还没有使用。

XAgent并缺乏多Agent的能力，例如多Agent的协作模式、通信模式和自定义等，其内部定了的多个Agent，但这些Agent更像是函数的封装。

XAgent定义给出的是通用智能体：从XAgent开发框架来看，本质是想通过Agent的任务分解能力加上集成更多的Tools的能力，将复杂任务有效的分解成细粒度的任务执行，但从当前的业界实现，BabyAGI，AutoGen都不是很理想，只能在有限的问题上可能效果可以，但还不是很稳定，完全依赖GPT4的能力，遇到专业性强的复杂问题，效果都不会很好，比如：狼人杀。