我要投稿

伯克利大学35页综述：多智能体LLM系统为何会失败？

发布日期：2025-04-01 12:05:53 浏览次数： 1754 作者：探索AGI

尽管多智能体系统（MAS）备受关注，多个大模型智能体通过协作完成任务的方式引起了广泛兴趣，但在各种流行基准测试中，其性能提升相比单智能体框架仍然微不足道。这一差距凸显了分析影响MAS有效性挑战的必要性。
本文提供了首个关于MAS挑战的综合研究。我们分析了五个流行的MAS框架在超过150个任务中的表现，并邀请六位专家标注员参与研究。我们识别出14种独特的失败模式，并提出了适用于各种MAS框架的综合分类法。该分类法通过每项研究中三位专家注释员之间的迭代协商而成形，达到了0.88的Cohen's Kappa分数。这些细粒度的失败模式被组织为3个类别：(i)规范和系统设计失败，(ii)智能体间错位，以及(iii)任务验证和终止问题。
为支持可扩展评估，我们将MASFT与LLM-as-a-Judge集成。我们还探索了是否可以通过两种干预措施轻松预防已识别的失败：改进智能体角色规范和增强编排策略。我们的研究发现表明，已识别的失败需要更复杂的解决方案，为未来研究提供了明确的路线图。数据集、代码开源地址：https://github.com/multi-agent-systems-failuretaxonomy/MASFT

论文中作者们通过分析150多个多智能体系统（MAS）工作流程，系统性揭示目前多智能体系统的各种失败模式。可以很好的指导大家如何理解和构建稳健的多智能体系统。

多智能体系统失败模式分类图

研究背景：多智能体系统表现不如预期

基于大模型的多智能体系统已经遍地开花，主要是因为它们能够处理复杂的多步骤任务，同时与各种环境动态交互。

然而，在实际应用中，多智能体系统的表现却难以达到预期。研究团队通过分析ChatDev等当前最流行的开源多智能体系统发现，即使使用最先进的大模型（如GPT-4o和Claude-3），这些系统的任务正确率也低得惊人，有些甚至只有25%！

五个流行多智能体LLM系统的失败率

系统性错误分类

研究团队通过分析150多个多智能体系统执行追踪，并结合专家标注，确定了三大类14种细粒度的失败模式：

规范和系统设计失败（FC1）

这类失败源于系统架构设计缺陷、对话管理不当、任务规范不明确或约束条件违反，以及智能体角色和职责定义不足。

例如，在ChatDev中，当要求开发一个支持国际象棋标准符号（如'Ke8'、'Qd4'）的双人游戏时，系统却生成了一个使用坐标输入(x1,y1),(x2,y2)的游戏，完全不符合初始需求。

智能体间错位（FC2）

这类失败起源于智能体之间的无效沟通、协作不佳、冲突行为以及逐渐偏离初始任务的问题。

研究者观察到，多智能体系统经常出现对话效率低下的问题，智能体之间进行无意义的交流，消耗计算资源却没有实质性进展。例如，在ChatDev开发类似Wordle的游戏时，程序员与多个角色（CTO、CCO等）进行了七个周期的交互，却未能更新初始代码。

任务验证和终止问题（FC3）

这类失败来自于过早执行终止，以及缺乏充分的机制来保证交互、决策和结果的准确性、完整性和可靠性。

例如，在ChatDev的国际象棋游戏实现中，验证者智能体只检查代码是否编译通过，却没有运行程序或确保符合国际象棋规则。即使是简单的检索也应该能够防止接受格式错误的输入等问题，但由于缺乏适当的验证，无效输入处理等缺陷依然存在，导致游戏无法正常使用。

深入分析：14种细粒度失败模式

最终，论文中确定了14种具体的失败模式，每种都有其特定的表现和影响：

违背任务规范：未能遵守给定任务的约束或要求
违背角色规范：未能遵守分配角色的职责和约束
步骤重复：不必要地重复流程中已完成的步骤
对话历史丢失：意外截断上下文，忽略最近的交互历史
不了解终止条件：无法识别应触发智能体交互终止的标准
对话重置：意外或无理由地重新开始对话
未能请求澄清：面对不明确或不完整的数据时无法请求额外信息
任务偏离：偏离预期目标或任务焦点
信息隐瞒：未能共享可能影响其他智能体决策的重要数据
忽略其他智能体输入：忽视或未充分考虑系统中其他智能体提供的输入
推理-行动不匹配：逻辑推理过程与智能体实际采取的行动存在差异
过早终止：在交换所有必要信息或达成目标前结束对话
无验证或不完整验证：未能正确检查任务结果或系统输出
错误验证：未能在迭代过程中验证或交叉检查关键信息

解决方案：走向更好的多智能体系统

研究团队提出了两类改进多智能体系统的策略：战术方法和结构性策略。

战术方法

改进提示和系统架构：提供清晰的指令和角色定义
优化智能体组织和交互：设计清晰的对话模式和终止条件
模块化设计：使用简单、定义明确的智能体，而非复杂的多任务智能体

结构性策略

强大的验证机制：包括单元测试生成和域特定验证
标准化通信协议：减少基于非结构化文本通信的歧义
通过强化学习微调MAS智能体：使用特定算法奖励符合任务的行为
概率置信度测量：让智能体仅在置信度超过预定阈值时采取行动
内存和状态管理：增强上下文理解，减少通信中的歧义

案例研究：改进多智能体系统的尝试

通过在AG2和ChatDev进行了改进尝试，验证他们提出的解决方案有效性：

AG2-MathChat案例

通过改进提示和重新设计智能体配置（将系统分成问题解决者、编码者和验证者三个角色），虽然在使用GPT-4o时取得了统计上显著的改进，但使用GPT-4时效果不明显。

ChatDev案例

实施了两种干预措施：完善角色特定提示以强化层次结构和角色遵从性，以及将框架的拓扑结构从有向无环图(DAG)更改为循环图。这些改进使性能在不同任务上提高了约15%，但仍不足以解决所有失败情况。

结论与启示

现有多智能体系统的失败不仅仅是基础模型能力的局限（如幻觉、不对齐），更重要的是多智能体系统设计上的根本缺陷。即使组织中的个体再精明，如果组织结构存在缺陷，仍然可能灾难性地失败。

在构建多智能体系统时，我们需要重新思考多智能体系统的设计原则，特别是在智能体间交互、验证机制和系统架构等方面。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

从Function Call到MCP：大模型如何调用外部工具

2025-04-26

增量代码自动Review工具：洞窝在AI上的探索和实践

2025-04-25

OpenAI 白送 200 美元的深度研究功能？实测后发现这个「阉割版」不如不用

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

哇！首个MCPBench来了，MCP竟然不比Function Calls更有优势？ | 最新

2025-04-25

医疗大模型案例分析（一）：Google Med-PaLM

2025-04-25

vLLM+Qwen-32B+Open Web UI构建本地私有大模型

2025-04-25

AI产品经理思考MCP（3）：MCP的未来可能

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部