我要投稿

动态构建Agent团队：平均准确性比现有方法提升了 21.94%

发布日期：2024-06-27 19:48:25 浏览次数： 2484

作者：大语言模型论文跟踪

微信搜一搜，关注“大语言模型论文跟踪”

动态构建Agent团队：平均准确性比现有方法提升了 21.94%

发布时间：2024 年 05 月 29 日

多Agent应用

Adaptive In-conversation Team Building for Language Model Agents
通过多个大型语言模型（LLM）智能体协同工作，已被证实是应对复杂任务的有效策略。然而，如何巧妙地为特定应用设计这些代理，仍是一门艺术。我们面临的核心挑战是：如何为特定任务组建一支高效的 LLM 智能体团队？我们的创新——自适应团队构建模式，提供了一种灵活的解决方案，其核心是“队长智能体”这一新颖设计。队长智能体能够根据任务解决的每一步动态组建和管理团队，通过嵌套对话和反思机制，确保团队拥有多元化的专业技能，避免单一化的输出。这种方法不仅灵活，而且结构化，有效减少了冗余，提升了输出的多样性。在六个真实场景的广泛测试中，队长代理的平均准确性比现有方法提升了 21.94%，展现出卓越性能，且无需针对特定任务进行提示工程的调整。
https://arxiv.org/abs/2405.19425

1. 现有多Agent团队构建方法的局限性

基于大语言模型的智能体应用凭借其卓越的上下文学习能力、规划能力、工具调用能力和多轮对话能力，使得其已经能够与人类团队的协作能力相提并论。

虽然现在智能体应用已经被大家广泛接受，但是如何构建一个有效的多智能体团队呢？这是大家面临的一个新问题。

• 最常见的方法是根据任务构建一支静态智能体团队。

• 但这种方法需要维持一个包含所有所需专业知识的团队，随着任务复杂性的增加，团队规模可能会急剧扩大，这使得有效管理变得困难。
• 此外，静态团队可能缺乏应对任务需求变化或意外挑战的灵活性。
实际上，人类在处理复杂任务时，往往会在任务解决的不同阶段为每个子任务组建多个团队，以利用所需的多样化专业知识。

• 另外一种方法则是自适应构建智能体团队。

• 在任务解决过程中，根据需求的变化灵活地组装具有特定技能和知识的代理。
为此，今天这篇论文作者设计了一种新的自适应构建者代理——队长智能体
• 队长智能体负责在对话的每个问题解决步骤中构建、管理和维护智能体团队。
• 队长智能体包含两个核心组件：
自适应多智能体团队构建和嵌套组对话及反思。

null

上图展示了两种构建LLM智能体团队的方法。"静态构建"方法在任务执行之前预先组建一个固定团队。而"自适应构建"策略则是在任务解决过程中，通过一个自适应构建者代理来动态组建多样化的团队。

2. 什么是自适应构建智能体团队（daptive In-conversation Team Building）

null

如上图所示，队长智能体的工作流程简洁明了：接到用户指令，便着手规划任务，从检索与生成中精选智能体团队，并引导他们在群聊环境中协同完成分解后的任务。

对话结束后，反思智能体将对交流内容进行复盘，并向队长代理提交报告。根据反馈，队长智能体将决定是结束任务还是调整团队和指令，继续推进问题解决。

队长代智能体的核心魅力在于其两大关键组件：

• 首先是自适应多代理团队构建，它包括智能体与工具的检索、筛选及创建；
• 其次是多智能体系统中的嵌套群组对话，内嵌反思机制，确保团队效能持续优化。

队长代智能体启动智能体与工具的智能检索，通过详尽的角色描述，包括技能要求与潜在角色名称，巧妙地引导出所需“专家”。这一过程自然流畅，借助句子嵌入技术与余弦相似度量化，精准匹配角色与智能体或工具之间的最佳耦合。

在角色描述的指引下，系统首先检索出排名靠前的智能体与工具，确保每个角色都与最合适的智能体和工具相匹配。这一检索过程不仅高效，而且通过余弦相似度的科学衡量，实现了角色与资源的最优配置。

智能体的选择同样经过精心设计，基于LLM的代理选择器会根据角色描述和检索到的智能体资料，挑选出最佳人选。

为此，设计了一个JSON模板，确保选择过程的准确性。此外，引入了独特的弃权机制，允许在没有合适代理的情况下选择“None”，避免了不合适代理的强行加入，保证了任务团队的专业性和效率。

对于那些在上一步中未能匹配到代理的角色，设计了一个智能体生成流程。这一流程根据角色描述自动生成智能体名称和技能，并将这些信息与任务、编码及群聊指令融合，形成最终的系统消息。参考思维链和反思的理念设计了一般任务和编码指令，确保了指令的全面性和实用性。

最终的系统消息被凝练为一句简洁的描述，为接下来的嵌套群聊环节做好准备。同时，根据描述从工具库中检索出的工具，也被巧妙地融入到生成的系统消息之中。这样生成的智能体，最终将被纳入智能体库，为未来的任务提供更多选择。

2.3 嵌套群组对话与深度反思

在自适应构建的多智能体团队中，经选拔与生成的智能体将参与到一个嵌套式的群组聊天室。他们将根据用户任务的需要，通过层层深入的对话，从队长智能体那里领取并解决细分任务。接着，一个反思型LLM将被引导检索并审视整个对话历程，在预设模板中归纳结论、结论依据、潜在矛盾与问题点，并标识出是否需对结果进行复核。

我们的嵌套群组对话技术，借助AutoGen框架和创新的工具应用范式，让所有智能体置身于同一聊天室，由一个群聊管理器LLM根据对话进展和代理特性，挑选每一轮的发言者。智能体的身份资料将转化为简洁的描述，辅助管理器决策。智能体编写的代码和调用的工具将被即时执行并反馈至对话中。工具的详细描述、Python模块路径和响应格式将嵌入到相关智能体的系统消息里，使得智能体能够依据这些信息自由编写代码，将工具无缝融入到更广阔的编程任务中。所有智能体编写的程序将由一个共享代码执行环境的用户代理执行，并将执行结果实时反馈至对话。

在对话反思环节，智能体的发言可能包含不一致之处，如事实错误、臆想或成见。尽管其他智能体有机会在对话中进行调整和纠正，但有时也可能会陷入困境，导致问题解决失败。为此，设计了一个反思智能体，配合精心设计的对话总结提示模板，来发现并标记对话中的矛盾和问题。一旦发现问题，反思器将标记“需复核”，并给出详细的理由。这将触发队长智能体启动一个验证流程，通过构建一个新的嵌套对话来复核先前的结果。

2.4 相较于静态构建的优势

静态团队由于成员数量有限，可能无法全面覆盖所需能力。尽管构建大量具备全面人物设定或技能的代理可以扩展能力范围，但LLM智能体介绍所有参与者的长上下文存在难度，这会降低对话质量。同时，功能重叠的智能体也可能参与到问题解决中。与之相对，队长智能体能够根据当前任务的具体情况，自适应地选择和构建更加优化的智能体团队，既减轻了LLM的提示负担，也减少了不相关智能体的冗余输出，同时保证了团队的多样性。

3. 效果评估

• 多样化智能体的协作能有效激发解决问题时所需的专业知识输出。在对比队长智能体、AutoAgents以及AutoGen + executor 的表现时，可见队长智能体与AutoAgents在化学与物理科学场景中平均成绩超越了AutoGen + executor。这些场景对专业知识有较高要求，而AutoGen助手受限于固定系统消息，难以满足。队长智能体和AutoAgents通过为智能体分配针对性的领域消息，成功塑造了多样化的专家角色，这有助于更有效地激发LLM内在的知识储备，从而提供精准答案。在所有测试场景中，队长智能体均展现出超越AutoAgents的性能，这得益于其能够制定宏观计划，并借助适应性指导和智能体团队逐一解决问题。
• 自适应构建团队的方法在提升性能方面具有普适性，不受特定任务限制。队长智能体在所有场景中的卓越表现说明其不受任务类型的限制。适时引入不同智能体，赋予了队长智能体逐步解决复杂问题，如科学问题和全球信息检索问题的能力。与此同时，Meta-prompting在科学场景中遭遇挫折，原因在于它无法将科学问题细化为可由单一智能体解决的细小子任务。采用智能体团队构建策略的队长智能体，不依赖于可分解为单一智能体任务的问题，也不强制要求所有智能体参与对话。
• 作者对工具库和智能体库的作用进行了消融分析。逐一移除了工具库和智能体库，以评估其对全球信息检索任务（GAIA数据集）的影响。结果显示，两者的缺失均会显著影响系统表现。尽管单独使用任一库都能提升性能，但两者共同作用时才能发挥最大效能。处理初级任务需要一定程度的网页浏览和逻辑推理，可以通过连续调用工具或专家编写代码来实现。工具库和智能体库的结合使用，使系统在面对网络交互中的未知错误时更为稳定和强健，从而提升了整体性能。特别地，缺少智能体库时，队长智能体在处理二级任务时表现大幅下滑，因为这些任务更为复杂，涉及大量的网页导航和逻辑推理。网页浏览的复杂性和动态性使得静态工具库难以应对。智能体需要协调多种工具来达成目标，这一过程在不可预测的网络环境中容易出错。
• 尝试了不同的语言模型来支持嵌套对话的参与者，包括gpt-3.5-turbo、claude-3-sonnet、gemini-1.5-pro等黑盒模型，以及LLaMA-3-70B和Mixtral-8x22B等开放权重模型。嵌套对话的指令由搭载gpt-4-0125-preview主干的队长智能体提供。除了gpt-4-0125-preview在大多数场景中继续保持最佳状态外，gemini-1.5-pro以其较低的成本也展现出了良好的性能。LLaMA-3-70B在成本约为gpt-4-0125-preview的1/16.7的情况下，也取得了三次第二好的成绩。不同模型对特定任务有偏好，这会影响嵌套聊天的质量。例如，gpt-3.5-turbo在编程场景中的代码生成能力突出，而gemini-1.5-pro在数学、数据分析和化学问题上更为擅长。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业