支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


伯克利最新研究:为什么多 Agent 系统总是“高期待、低表现”?

发布日期:2025-04-07 06:30:02 浏览次数: 1586 作者:哆啦的AI产品实践录
推荐语

伯克利研究揭示多Agent系统低效之谜,为AI系统优化提供新思路。

核心内容:
1. 多Agent系统“高期待、低表现”现象的原因分析
2. 14种失败模式的识别与分类
3. 提出的战术性与结构性改进策略

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

最近在捣鼓多 Agent 系统,但是遇到了好多坑……看了一篇伯克利的研究后非常有感触,分享给大家。

伯克利的研究者们近期对多智能体系统(Multi-Agent Systems, MAS)“高期待,低表现”的问题进行了系统研究,找到了问题的原因所在,并探索了对应的改进措施。这篇文章对于我们进行多 Agent系统实践非常有指导意义,既可以定位问题所在,也会对解决相应问题有一定的启发。这一篇,我将会带来关于这篇文章的解读。

原文标题:Why Do Multi-Agent LLM Systems Fail?

原文链接:https://arxiv.org/abs/2503.13657

老规矩,我把本文的摘要放前面,大家可以根据自身情况来做选择性阅读。

摘要

分析了5个主流的MAS框架,在150多个任务中进行评估

识别出14种失败模式,归入3个主要类别:

(i) 任务规范与系统设计失败 

(ii) Agent间不一致或误解

(iii) 任务验证与终止失败

3 探索了两种改进方法:

 (i) 战术性策略:提示词优化、角色与对话结构优化、跨Agent验证机制;

 (ii) 结构性策略:强化验证机制、标准化通信协议、强化学习微调、引入置信度机制、记忆与状态管理机制。

最近,基于大语言模型(LLM)的Agent系统引起了AI社区的广泛关注。这类系统因其能动态适应多变环境、处理复杂多步骤任务的能力,被认为非常适合解决现实世界问题。基于这一优势,多Agent系统(MAS)被广泛应用于诸如软件开发、科学模拟和通用Agent等领域。尽管人们对MAS抱有很高期望,其在多个流行基准任务上的表现提升却非常有限,甚至不如简单的单Agent或“best-of-N”采样策略。例如,最先进的开源MAS系统 ChatDev 的正确率可能低至 25%。

1 研究方法

作者识别MAS主要失败模式并建立结构化分类体系的研究方法。整体流程如图3所示。

初步识别失败模式后,作者构建了一个初始版本的失败分类体系。接着,他们通过多轮标注一致性实验进行迭代优化,包括合并、拆分、删除或调整分类定义,直到达成共识。

2 研究发现

研究团队构建了多Agent系统失败分类体系(MASFT),详见图2。MASFT将14种细粒度的失败模式归入3大类核心失败类型(Failure Categories, FC),并进一步对应到MAS执行过程的3个阶段

  • 执行前阶段(Pre-Execution)

  • 执行阶段(Execution)

  • 执行后阶段(Post-Execution)

2.1 失败类别

失败类别1:任务规范与系统设计失败

此类失败源自以下问题:系统架构设计不当、对话流程管理不佳、任务指令不清晰或违反约束、Agent职责定义不明确或执行不到位

示例: 在ChatDev中被要求开发一个接受标准国际象棋符号(如 Ke8Qd4)的双人棋类游戏,系统却错误生成了一个输入格式为坐标(如 (x1,y1), (x2,y2))的游戏,违背了原始任务规范

另一个例子: 在产品需求分析阶段,CPO Agent越权充当CEO角色,自行定义产品愿景并做出最终决策,违反了角色设定

失败类别2:Agent间不一致

此类失败源自Agent之间沟通协作不畅,导致:对话冗长无效、信息未被合理共享、冲突行为频发、最终偏离初始任务目标。

示例:在一个开发Wordle类游戏的任务中,程序员Agent与多个角色(CTO、CCO等)进行了长达7轮交互,但未更新任何代码逻辑。虽然生成的游戏可运行,但词库仅含5个简单单词,可玩性极低,导致之前的沟通几乎没有价值。

另一个例子: 在一个场景中,主管Agent指示另一个“电话Agent”通过email ID查询用户信息。电话Agent查阅文档后得知应使用手机号作为用户名,却仍然用错误信息操作,导致失败。

失败类别3:任务验证与终止失败

此类失败与系统缺乏或执行不当的验证机制有关,表现为:任务过早结束、缺少对决策与结果的准确性、完整性检查。

示例: 在一个棋类游戏任务中,验证Agent仅检查代码是否能编译,却没有运行代码或验证其是否遵循棋类规则。 尽管棋类游戏已有公开规则和实现,系统却未检出明显问题,例如接受了错误格式的输入,最终生成了无法正常游玩的产品

以下是失败类别下包含对应失败模式表格:

2.2 失败分析与启示

图4展示了不同MAS系统中14种细粒度失败模式的分布情况。不同颜色表示3个失败大类(任务规范失败、Agent间不一致、验证与终止失败),同一颜色下的不同色调代表该类中的不同细粒度失败模式。

可以发现,没有哪一类失败占据绝对主导地位,这说明MAS失败的原因具有多样性。在不同的MAS系统,其失败分布具有明显差异

AG2系统中,“Agent间不一致”的失败较少,问题更多集中在任务规范和验证方面;相比之下,ChatDev系统验证问题较少,更多失败集中于任务规范与Agent协作上。

这些差异源于各系统在问题设定、拓扑设计、通信协议、交互管理方式上的不同,从而影响了其表现出的失败类型。

图6显示了三大失败类别之间的相关性矩阵。可以发现,虽然相关性整体不强,但仍有部分失败之间存在一定程度的联系。这说明MAS中的失败并非孤立事件,一个失败可能引发其他类别的失败,形成“级联效应”

通过上述分析可以发现:优化MAS性能不能只解决某一类问题,而需同时从任务规范、Agent协作和结果验证多个方面入手。

2.3 都是验证器的锅吗?

业界有一个常见的观点是:

“如果验证器足够强,所有错误都应该可以被检测出来并被阻止。”

按照这个逻辑,只要验证器工作完美,其他环节的错误都能在最终阶段被发现、纠正,失败也就可以避免。

基于此,研究者重点关注了验证失败,尤其是在那些系统能有效利用验证结果的情境下。但作者也进一步指出:很多失败实际上发生在验证步骤之前的早期阶段,如:任务规范阶段(如指令模糊或目标错误)、系统设计阶段(如角色分配不合理)等。因此,尽管验证器是最后一道防线,它不能也不应被视为失败的唯一原因

如何构建更可靠的多智能体LLM系统

作者探讨了改进MAS(多Agent系统)可靠性的方法,将解决策略分为两大类:战术性策略结构性策略。

表格3展示了不同类型的失败类别与这两类策略之间的对照关系,指出了每类问题可以优先尝试的解决路径。

总结来看,想要真正解决MAS中的各种失败,仅依靠“调提示词”或“改拓扑结构”是远远不够的。

3.1 战术性策略

这一类策略主要聚焦于提示词优化Agent组织结构与交互方式的改进,属于可以快速实施的局部优化方法。作者在案例研究中发现:这些看似简单有效的战术方法表现不稳定,常常不具备通用性。因此,战术优化并不能解决MAS的结构性问题,仍需引入更强大、更系统的结构性策略。大家看一下,有没有自己常用的方法,我是全中……

方法包括:

提示词优化

提示词应清晰描述任务指令,并明确每个Agent的角色与职责。

提示词还可以鼓励Agent进行主动式对话,在出现不一致时主动重新提问或尝试

在复杂任务结束后,可在提示中加入自我验证步骤:回顾推理过程、重述解决方案、检查前提条件、执行错误检测。

角色与对话结构优化

强化角色边界,例如定义对话模式任务终止条件

采用模块化设计:每个Agent只承担单一职责,而非多任务复合角色,有助于性能提升与调试。

跨Agent验证机制

多Agent可以进行:方案多样性提出(如多个不同解决方案)、交叉讨论与假设验证、类比“学术评审”流程进行深度评审。

还可以进行多数表决,多轮LLM调用 + 多数投票机制;或者反复采样,直到某种“验证条件”被满足。

3.2 结构性策略

除了上面提到的战术性策略,还需要更系统、深入的结构性策略来从根本上提升MAS的鲁棒性与智能协作能力。这些策略通常影响系统整体结构,需要更多研究与工程投入。

方法如下:

1. 强化验证机制

多数MAS失败都可追溯到验证机制薄弱或缺失,验证方式应视领域而定:

编码任务:需要全面的边界情况覆盖;

问答系统:需验证数据来源的真实性;

复杂推理:应借助符号验证或形式逻辑方法。

2. 标准化通信协议

LLM智能体大多依赖非结构化自然语言沟通,容易产生歧义。因此,可以构建标准通信格式(包括意图、参数、反馈等),有助于提升理解度并支持形式化一致性检查

作者给出了一些相关研究,大家有兴趣的可以去看看。

Multi-agent graph-attention communication and teaming. In AAMAS, volume 21, pp. 20th, 2021.:建模智能体间的交互结构;

Learning attentional communication for multi-agent cooperation. Advances in neural information processing systems, 31, 2018.:让智能体聚焦于相关信息;

Learning when to communicate at scale in multiagent cooperative and competitive tasks. arXiv preprint arXiv:1812.09755, 2018:提升协作效率与稳定性。

3. 强化学习微调

针对角色微调智能体行为,奖励任务一致的行为,惩罚低效或偏离的行为,相关研究如下;

MAPPO(Yu等,2022):优化智能体对角色职责的遵守;

SHPPO(Guo等,2024):使用隐变量网络先学习策略,再引入异构决策层;

Optima(Chen等,2024):通过强化学习提升通信效率与任务完成率。

4. 引入置信度机制

智能体只有在置信度高于阈值时才行动;若置信度低,则暂停决策、主动获取更多信息;还可实现动态阈值调整(adaptive thresholding),增强系统自适应能力。

5. 记忆与状态管理机制

虽然常见于单智能体研究,但在MAS中同样关键,有助于:理解上下文、减少沟通歧义、支持任务的持续追踪和动态调整。

相关研究如下:

MemGPT(Packer等,2023):引入类似操作系统的上下文管理机制;

TapeAgents(Chakraborty & Purkayastha, 2023):使用结构化、可重播的“行为日志”来记录智能体行为,支持动态任务分解与持续优化

结论:结构性策略是打造下一代MAS系统的关键。相比提示词微调和拓扑调整等战术手段,这些方法更具普适性、可持续性与研究深度,但也更具挑战性,是未来MAS系统研究的重要方向。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询