我要投稿

为什么Multi-Agent多智能体系统终将失败？（伯克利论文）

发布日期：2025-04-14 07:12:12 浏览次数： 1678 作者：沐白AI笔记

研究背景

image.png|550

研究问题

这篇文章要解决的问题是多智能体大语言模型（LLM）系统（Multi-Agent LLM systems，简称MAS）在性能上与单智能体框架相比提升甚微的原因。尽管MAS在处理复杂多步骤任务和与不同环境动态交互方面具有潜力，但在流行基准测试中其准确性或性能的提升仍然有限。
研究难点

该问题的研究难点包括：如何全面分析阻碍MAS有效性的挑战；如何确定导致MAS失败的多种故障模式；如何提出有效的改进措施以提高MAS的性能和可靠性。

相关工作

在代理系统挑战方面，已有研究针对特定的代理挑战提出了相关解决方案，如通过引入工作流内存解决长视距网络导航问题，但这些工作没有全面理解MAS失败的原因，也没有提出可广泛应用于各领域的策略。
在代理系统设计原则方面，一些研究强调了构建强大代理系统的挑战，并提出了新的策略，但这些研究主要集中在单代理设计上，对MAS的全面故障模式研究不足。
在LLM系统中的故障分类方面，对LLM agent失效模式的专门研究有限，本文的研究填补了这一空白，提供了对MAS故障模式的开创性研究。

总体结论

论文的研究结果表明，MAS的失败不仅仅是由于LLM的局限性，更重要的是MAS设计中存在的结构性缺陷。未来的研究应着重于改进MAS的设计原则和组织结构，以提高其可靠性和性能。论文的主要贡献包括：

引入了MASFT，这是第一个基于经验的MAS故障分类法，为理解和减轻MAS故障提供了一个结构化框架。
开发了一个可扩展的LLM-as-a-judge评估流程，用于分析新的MAS性能和诊断故障模式。
针对代理规范、对话管理和验证策略开展了干预研究，尽管取得了一定改进，但凸显了结构性MAS重新设计的必要性。
开源了相关数据集和工具，为MAS的进一步研究提供了便利。

研究方法

image.png|550 这篇论文提出了多智能体系统故障分类法（MASFT），用于解决多智能体大语言模型系统失败的问题。具体来说，

数据收集与分析

采用理论抽样方法选择多样化的多智能体系统和任务集，收集了五种流行的开源MAS的150多条对话轨迹进行分析。每条轨迹平均超过15,000行文本。

故障模式识别与分类法构建

规范和系统设计故障：包括不服从任务规范（15.2%）、不服从角色规范（1.57%）、步骤重复（11.5%）、对话历史丢失（2.36%）、未意识到终止条件（6.54%）等。
代理间错位：包括对话重置（5.50%）、未能澄清（2.09%）、任务脱轨（5.50%）、信息隐瞒（6.02%）、忽略其他代理输入（4.71%）、推理 - 行动不匹配（7.59%）等。
任务验证和终止：包括过早终止（9.16%）、无或不完整验证（3.2%）、错误验证（3.3%）等。

通过理论抽样、开放式编码、持续比较分析、备忘和理论化迭代收集和分析数据，识别出14种不同的故障模式。
将故障模式聚类为3个主要故障类别：
通过三位专家annotator独立标记15条轨迹，实现annotator间一致性，Cohen’s kappa得分为0.88，不断迭代调整故障模式和故障类别，最终形成结构化的MASFT分类法。

自动评估流程开发

引入使用OpenAI的O1的LLM-as-a-judge流程进行可扩展的自动评估。在10条轨迹上与三位人类专家annotator交叉验证，获得0.77的Cohen's kappa一致性率。

实验设计

数据收集：分析了五种流行的开源MAS（Metagpt、Chatdev、Hyperagent、Appworld、Ag2），涉及150多个任务，雇用了六位专家annotator参与研究。
样本选择：选择了具有代表性的多智能体系统和任务，涵盖了不同的应用场景和系统结构，以确保研究结果的广泛适用性。
参数配置：在实验过程中，对不同的MAS系统进行了详细的分析和评估，包括对其执行轨迹的跟踪和分析，以及对各种故障模式的识别和分类。

实证数据

image.png|550

系统名称	成功率	失败率	测试场景
MetaGPT	66.0%	34.0%	programdev
ChatDev	25.0%	75.0%	programdev
HyperAgent	25.3%	74.7%	SWE-bench lite
AppWorld	13.3%	86.7%	test-c
AG2	84.8%	15.2%	GSM-Plus

结果与分析

故障模式分析

通过详细的分析和评估，确定了14种不同的故障模式，并将其归类为3个主要故障类别。这些故障模式在不同的MAS系统中普遍存在，导致了系统性能的下降和任务失败率的增加。
例如，在规范和系统设计故障类别中，不服从任务规范和角色规范的故障率较高，分别为15.2%和1.57%；在代理间错位类别中，对话重置和推理 - 行动不匹配等故障模式也较为常见。

与现有系统对比

将最先进的开源MAS Chatdev的正确性与GPT - 4o和Claude - 3进行对比，结果显示Chatdev的正确性可能低至25%，表明MAS在与现有先进模型相比时仍存在较大的性能差距。

干预措施效果

实施了两种干预措施：改进代理角色的规范和增强编排策略。对Ag2的案例研究和Chatdev的实验表明，尽管这些干预措施为Chatdev带来了+14%的改进，但它们并不能解决所有故障情况，且改进后的性能对于实际部署来说仍然不够好。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-28

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

AI助力！明文密码泄漏无处遁形【大模型应用实践系列二】

2025-04-28

大模型应用实践（一）：AI助力Code Review安全漏洞发现

2025-04-28

安全沙箱构筑智能体防护壁垒：解码OpenAI百万悬赏背后的安全困局

2025-04-28

Qwen3来啦

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部