我要投稿

伯克利最新研究：为什么多 Agent 系统总是“高期待、低表现”？

发布日期：2025-04-07 06:30:02 浏览次数： 1754 作者：哆啦的AI产品实践录

最近在捣鼓多 Agent 系统，但是遇到了好多坑……看了一篇伯克利的研究后非常有感触，分享给大家。

伯克利的研究者们近期对多智能体系统（Multi-Agent Systems, MAS）“高期待，低表现”的问题进行了系统研究，找到了问题的原因所在，并探索了对应的改进措施。这篇文章对于我们进行多 Agent系统实践非常有指导意义，既可以定位问题所在，也会对解决相应问题有一定的启发。这一篇，我将会带来关于这篇文章的解读。

原文标题：Why Do Multi-Agent LLM Systems Fail?

原文链接：https://arxiv.org/abs/2503.13657

老规矩，我把本文的摘要放前面，大家可以根据自身情况来做选择性阅读。

摘要

1 分析了5个主流的MAS框架，在150多个任务中进行评估

2 识别出14种失败模式，归入3个主要类别：

(i) 任务规范与系统设计失败

(ii) Agent间不一致或误解

(iii) 任务验证与终止失败

3 探索了两种改进方法：

(i) 战术性策略：提示词优化、角色与对话结构优化、跨Agent验证机制；

(ii) 结构性策略：强化验证机制、标准化通信协议、强化学习微调、引入置信度机制、记忆与状态管理机制。

最近，基于大语言模型（LLM）的Agent系统引起了AI社区的广泛关注。这类系统因其能动态适应多变环境、处理复杂多步骤任务的能力，被认为非常适合解决现实世界问题。基于这一优势，多Agent系统（MAS）被广泛应用于诸如软件开发、科学模拟和通用Agent等领域。尽管人们对MAS抱有很高期望，其在多个流行基准任务上的表现提升却非常有限，甚至不如简单的单Agent或“best-of-N”采样策略。例如，最先进的开源MAS系统 ChatDev 的正确率可能低至 25%。

1 研究方法

作者识别MAS主要失败模式并建立结构化分类体系的研究方法。整体流程如图3所示。

初步识别失败模式后，作者构建了一个初始版本的失败分类体系。接着，他们通过多轮标注一致性实验进行迭代优化，包括合并、拆分、删除或调整分类定义，直到达成共识。

2 研究发现

研究团队构建了多Agent系统失败分类体系（MASFT），详见图2。MASFT将14种细粒度的失败模式归入3大类核心失败类型（Failure Categories, FC），并进一步对应到MAS执行过程的3个阶段：

执行前阶段（Pre-Execution）
执行阶段（Execution）
执行后阶段（Post-Execution）

2.1 失败类别

失败类别1：任务规范与系统设计失败

此类失败源自以下问题：系统架构设计不当、对话流程管理不佳、任务指令不清晰或违反约束、Agent职责定义不明确或执行不到位。

示例：在ChatDev中被要求开发一个接受标准国际象棋符号（如 Ke8, Qd4）的双人棋类游戏，系统却错误生成了一个输入格式为坐标（如 (x1,y1), (x2,y2)）的游戏，违背了原始任务规范。

另一个例子：在产品需求分析阶段，CPO Agent越权充当CEO角色，自行定义产品愿景并做出最终决策，违反了角色设定。

失败类别2：Agent间不一致

此类失败源自Agent之间沟通协作不畅，导致：对话冗长无效、信息未被合理共享、冲突行为频发、最终偏离初始任务目标。

示例：在一个开发Wordle类游戏的任务中，程序员Agent与多个角色（CTO、CCO等）进行了长达7轮交互，但未更新任何代码逻辑。虽然生成的游戏可运行，但词库仅含5个简单单词，可玩性极低，导致之前的沟通几乎没有价值。

另一个例子：在一个场景中，主管Agent指示另一个“电话Agent”通过email ID查询用户信息。电话Agent查阅文档后得知应使用手机号作为用户名，却仍然用错误信息操作，导致失败。

失败类别3：任务验证与终止失败

此类失败与系统缺乏或执行不当的验证机制有关，表现为：任务过早结束、缺少对决策与结果的准确性、完整性检查。

示例：在一个棋类游戏任务中，验证Agent仅检查代码是否能编译，却没有运行代码或验证其是否遵循棋类规则。尽管棋类游戏已有公开规则和实现，系统却未检出明显问题，例如接受了错误格式的输入，最终生成了无法正常游玩的产品。

以下是失败类别下包含对应失败模式表格：

2.2 失败分析与启示

图4展示了不同MAS系统中14种细粒度失败模式的分布情况。不同颜色表示3个失败大类（任务规范失败、Agent间不一致、验证与终止失败），同一颜色下的不同色调代表该类中的不同细粒度失败模式。

可以发现，没有哪一类失败占据绝对主导地位，这说明MAS失败的原因具有多样性。在不同的MAS系统，其失败分布具有明显差异：

AG2系统中，“Agent间不一致”的失败较少，问题更多集中在任务规范和验证方面；相比之下，ChatDev系统验证问题较少，更多失败集中于任务规范与Agent协作上。

这些差异源于各系统在问题设定、拓扑设计、通信协议、交互管理方式上的不同，从而影响了其表现出的失败类型。

图6显示了三大失败类别之间的相关性矩阵。可以发现，虽然相关性整体不强，但仍有部分失败之间存在一定程度的联系。这说明MAS中的失败并非孤立事件，一个失败可能引发其他类别的失败，形成“级联效应”。

通过上述分析可以发现：优化MAS性能不能只解决某一类问题，而需同时从任务规范、Agent协作和结果验证多个方面入手。

2.3 都是验证器的锅吗？

业界有一个常见的观点是：

“如果验证器足够强，所有错误都应该可以被检测出来并被阻止。”

按照这个逻辑，只要验证器工作完美，其他环节的错误都能在最终阶段被发现、纠正，失败也就可以避免。

基于此，研究者重点关注了验证失败，尤其是在那些系统能有效利用验证结果的情境下。但作者也进一步指出：很多失败实际上发生在验证步骤之前的早期阶段，如：任务规范阶段（如指令模糊或目标错误）、系统设计阶段（如角色分配不合理）等。因此，尽管验证器是最后一道防线，它不能也不应被视为失败的唯一原因。

3 如何构建更可靠的多智能体LLM系统

作者探讨了改进MAS（多Agent系统）可靠性的方法，将解决策略分为两大类：战术性策略和结构性策略。

表格3展示了不同类型的失败类别与这两类策略之间的对照关系，指出了每类问题可以优先尝试的解决路径。

总结来看，想要真正解决MAS中的各种失败，仅依靠“调提示词”或“改拓扑结构”是远远不够的。

3.1 战术性策略

这一类策略主要聚焦于提示词优化和Agent组织结构与交互方式的改进，属于可以快速实施的局部优化方法。作者在案例研究中发现：这些看似简单有效的战术方法表现不稳定，常常不具备通用性。因此，战术优化并不能解决MAS的结构性问题，仍需引入更强大、更系统的结构性策略。大家看一下，有没有自己常用的方法，我是全中……