支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


为什么Multi-Agent多智能体系统终将失败?(伯克利论文)

发布日期:2025-04-14 07:12:12 浏览次数: 1678 作者:沐白AI笔记
推荐语

深入探讨多智能体系统(MAS)面临的挑战与局限性,揭示其性能提升有限的深层原因。

核心内容:
1. MAS在复杂任务处理中的潜力与现实性能差距
2. 阻碍MAS有效性的挑战与故障模式分析
3. 结构性缺陷识别与改进MAS设计原则的建议

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

研究背景

image.png|550
  1. 研究问题
  • 这篇文章要解决的问题是多智能体大语言模型(LLM)系统(Multi-Agent LLM systems,简称MAS)在性能上与单智能体框架相比提升甚微的原因。尽管MAS在处理复杂多步骤任务和与不同环境动态交互方面具有潜力,但在流行基准测试中其准确性或性能的提升仍然有限。
  • 研究难点
    • 该问题的研究难点包括:如何全面分析阻碍MAS有效性的挑战;如何确定导致MAS失败的多种故障模式;如何提出有效的改进措施以提高MAS的性能和可靠性。
  • 相关工作
    • 在代理系统挑战方面,已有研究针对特定的代理挑战提出了相关解决方案,如通过引入工作流内存解决长视距网络导航问题,但这些工作没有全面理解MAS失败的原因,也没有提出可广泛应用于各领域的策略。
    • 在代理系统设计原则方面,一些研究强调了构建强大代理系统的挑战,并提出了新的策略,但这些研究主要集中在单代理设计上,对MAS的全面故障模式研究不足。
    • 在LLM系统中的故障分类方面,对LLM agent失效模式的专门研究有限,本文的研究填补了这一空白,提供了对MAS故障模式的开创性研究。

    总体结论

    论文的研究结果表明,MAS的失败不仅仅是由于LLM的局限性,更重要的是MAS设计中存在的结构性缺陷。未来的研究应着重于改进MAS的设计原则和组织结构,以提高其可靠性和性能。论文的主要贡献包括:

    1. 引入了MASFT,这是第一个基于经验的MAS故障分类法,为理解和减轻MAS故障提供了一个结构化框架。
    2. 开发了一个可扩展的LLM-as-a-judge评估流程,用于分析新的MAS性能和诊断故障模式。
    3. 针对代理规范、对话管理和验证策略开展了干预研究,尽管取得了一定改进,但凸显了结构性MAS重新设计的必要性。
    4. 开源了相关数据集和工具,为MAS的进一步研究提供了便利。

    研究方法

    image.png|550这篇论文提出了多智能体系统故障分类法(MASFT),用于解决多智能体大语言模型系统失败的问题。具体来说,

    1. 数据收集与分析
    • 采用理论抽样方法选择多样化的多智能体系统和任务集,收集了五种流行的开源MAS的150多条对话轨迹进行分析。每条轨迹平均超过15,000行文本。
  • 故障模式识别与分类法构建
    • 规范和系统设计故障:包括不服从任务规范(15.2%)、不服从角色规范(1.57%)、步骤重复(11.5%)、对话历史丢失(2.36%)、未意识到终止条件(6.54%)等。
    • 代理间错位:包括对话重置(5.50%)、未能澄清(2.09%)、任务脱轨(5.50%)、信息隐瞒(6.02%)、忽略其他代理输入(4.71%)、推理 - 行动不匹配(7.59%)等。
    • 任务验证和终止:包括过早终止(9.16%)、无或不完整验证(3.2%)、错误验证(3.3%)等。
    • 通过理论抽样、开放式编码、持续比较分析、备忘和理论化迭代收集和分析数据,识别出14种不同的故障模式。
    • 将故障模式聚类为3个主要故障类别:
    • 通过三位专家annotator独立标记15条轨迹,实现annotator间一致性,Cohen’s kappa得分为0.88,不断迭代调整故障模式和故障类别,最终形成结构化的MASFT分类法。
  • 自动评估流程开发
    • 引入使用OpenAI的O1的LLM-as-a-judge流程进行可扩展的自动评估。在10条轨迹上与三位人类专家annotator交叉验证,获得0.77的Cohen's kappa一致性率。image.png|550

    实验设计

    1. 数据收集:分析了五种流行的开源MAS(Metagpt、Chatdev、Hyperagent、Appworld、Ag2),涉及150多个任务,雇用了六位专家annotator参与研究。
    2. 样本选择:选择了具有代表性的多智能体系统和任务,涵盖了不同的应用场景和系统结构,以确保研究结果的广泛适用性。
    3. 参数配置:在实验过程中,对不同的MAS系统进行了详细的分析和评估,包括对其执行轨迹的跟踪和分析,以及对各种故障模式的识别和分类。

    实证数据

    image.png|550
    系统名称
    成功率
    失败率
    测试场景
    MetaGPT
    66.0%
    34.0%
    programdev
    ChatDev
    25.0%
    75.0%
    programdev
    HyperAgent
    25.3%
    74.7%
    SWE-bench lite
    AppWorld
    13.3%
    86.7%
    test-c
    AG2
    84.8%
    15.2%
    GSM-Plus

    结果与分析

    1. 故障模式分析
    • 通过详细的分析和评估,确定了14种不同的故障模式,并将其归类为3个主要故障类别。这些故障模式在不同的MAS系统中普遍存在,导致了系统性能的下降和任务失败率的增加。
    • 例如,在规范和系统设计故障类别中,不服从任务规范和角色规范的故障率较高,分别为15.2%和1.57%;在代理间错位类别中,对话重置和推理 - 行动不匹配等故障模式也较为常见。
  • 与现有系统对比
    • 将最先进的开源MAS Chatdev的正确性与GPT - 4o和Claude - 3进行对比,结果显示Chatdev的正确性可能低至25%,表明MAS在与现有先进模型相比时仍存在较大的性能差距。
  • 干预措施效果
    • 实施了两种干预措施:改进代理角色的规范和增强编排策略。对Ag2的案例研究和Chatdev的实验表明,尽管这些干预措施为Chatdev带来了+14%的改进,但它们并不能解决所有故障情况,且改进后的性能对于实际部署来说仍然不够好。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询