我要投稿

2025 AI Agent（多智能体系统）评估和优化指南

发布日期：2025-03-24 07:54:00 浏览次数： 1664 来源：哆啦的AI产品实践录

对于Agent 产品而言，评估和优化是非常重要的两项工作，直接决定了产品的好用程度。这两项工作在实际工作过程中占比非常高，举个简单的例子，可能团队用 2 周的时间就把基本框架搭起来了，后面的评估和优化工作可能会做两个月才弄完。这一篇，我们主要从评估流程，评估指标，评估工具和优化方法四个方面，来看一下如何对 Multi-Agent System(多智能体系统)进行评估和优化。

老规矩，还是把摘要放前面，大家可以看看要不要往下看。我尽量把所有内容用大白话表述出来，但有些专业词语确实绕不过去，还望大家包涵。这篇整体有 5000字+，大家可以找个宽裕的时间来阅读。

摘要

1 评估流程：从数据集中取样本，输入到应用，获得输出，然后由评估器（可结合真实答案）对输出进行打分，从而完成对产品的评估。

2 评估指标：主要介绍了任务成功率，正确的函数调用使用，协作指标等。

3 评估工具：介绍了多种多Agent系统（MAS）的评估工具，包括：DeepEval，LangSmith，MultiAgentBench等。

4 优化方法：从工程和算法两个角度介绍了多 Agent 系统的优化方法。

评估流程

首先，我们简单来看一下评估的过程。

首先从数据集中取样本，输入到应用，获得输出，然后由评估器（可结合真实答案）对输出进行打分，从而完成对产品的评估。

数据集（Dataset）中包含若干示例（Examples），这些示例将作为输入提供给应用（Application）。其中的“(Optional)”表示可以选择性地提供真实答案（或标注信息）等参考数据，以便评估器（Evaluator）在对比时使用。

应用（Application）接收数据集中的示例作为输入，执行完毕后，应用会输出相应的结果。

评估器（Evaluator）接收应用的输出，必要时还会对比“(Optional)”提供的真实答案或期望结果。最终，评估器根据对比结果给出一个分数（Score），用以量化和衡量应用的性能表现。

大体的流程就是这样，接下来我们再来扩展一下。

流程和我们之前说的其实一样，只是在这张图里对（1）数据集，（2）评估器，（3）任务，（4）评估落地形式，这四部分进行了拓展。

（1）数据集：数据集是评估流程的输入源，包含三类示例：

Developer curated：由开发者手动挑选并标注的样本，用于覆盖关键用例和边缘情况。

User‑provided：来自真实用户日志的输入（含用户反馈），反映产品在实际使用中的多样性与噪声。

LLM generated（Synthetic）：由大型模型自动生成的示例，可用于快速扩充数据集、模拟稀有场景或进行压力测试。

（2）评估器：评估器负责对应用输出（Output）进行打分或判定，分为三种：

模型充当裁判，对比多个模型生成的结果，少数服从多数。

规则决策，对比生成是否符合规则。

人类评估，与真实数据对比。

（3）任务类型：一些场景的任务场景，包括 RAG 问答，chatbot 的对话，代码生成等。

（4）评估落地形式：评估可在不同环节、不同深度执行，以确保产品质量持续提升，主要有两种方法：

生产环境下评估。在生产环境流量上进行测试，以评估应用在运行条件下的性能。常用的方法包括，A/B 测试，人工在线评估，用历史流量评估。

部署前评估。在应用部署之前运行的单元测试或评估。常用的方法包括，单元测试，离线评估，成对比较。

评估指标

衡量 MAS 性能涉及多个指标，以全面评估准确性、效率和可扩展性：

任务成功率

指标如精确匹配或任务完成率用于评估 MAS 是否产生了正确的结果。例如，任务完成准确率可用于量化整体准确性。在协作环境中，若涉及信息检索等任务，可能需要使用精确率/召回率等指标。然而，在许多情况下，每个任务或查询的简单成功率已足够评估系统性能。

正确的函数调用使用

在 MAS中Agent会调用各种工具（函数）。一个关键指标是Agent是否针对特定问题调用了正确的函数或 API。

工具成功率：衡量工具/API 调用是否达到了预期结果的比例。

函数调用评测：例如，Berkeley Function-Calling Leaderboard（BFCL） 通过提供任务及其期望的函数调用，检查Agent是否选择了正确的调用方式。

高级 BFCL 评测：包括多步场景和基于状态的指标（State-based Metrics），用于跟踪Agent在多次调用过程中是否能正确维护系统状态，从而评估函数调用的正确性。

可扩展性指标评估 MAS 的可扩展性通常需要调整Agent数量或任务数量，观察性能下降情况。关键指标包括：

吞吐量/延迟变化：随着Agent数量或任务数量的增加，吞吐量是否接近线性增长，延迟是否保持可接受水平。

任务分配准确性：衡量任务是否被正确分配给最合适的Agent，确保团队扩展时仍能高效运作。

通信开销：跟踪每个任务的消息数量，以防止新增Agent导致过多的协调成本，从而拖慢系统。

一个良好扩展性的 MAS 应该在增加Agent时，保持吞吐量接近线性增长，且系统协调成本不会急剧上升。

协作指标

MAS 还需要评估多 Agent 的协作情况，以确保输出具有连贯性，验证Agent间的协作是否顺畅。关键指标包括：

输出连贯性：衡量最终输出（如报告、计划）是否逻辑一致、统一连贯。可以采用人工评分或自动化连贯性评分。

协调成功率：检测Agent是否避免冲突（例如，两个Agent是否同时编辑同一文件，导致数据不一致）。

任务执行路径的匹配度：如果存在最优执行序列（Ground-truth Sequence），可以衡量 MAS 实际执行路径与最优路径的接近程度，尤其适用于规划类任务。

高质量的 MAS 需要保证其输出连贯性高、Agent协调顺畅，并且在执行复杂任务时能遵循最佳的行动序列。

在实际应用中，这些指标并不是都要去评估的，要根据具体情况来看。

例如，在多Agent数据分析助手的案例中，可以同时跟踪以下关键指标：

准确性：Agent是否得出了正确的分析结论？

工具使用成功率：数据获取Agent是否成功检索到了所需数据？

延迟：Agent对用户请求的响应时间是多少？

可扩展性：系统是否能支持更多数据源或新增分析Agent？

通过关注多个指标，可以确保 MAS 不仅能提供正确的结果，同时具备高效性，并且能够扩展以应对更复杂的问题。

评估工具

评估 MAS 需要结构化的框架、基准测试和工具。研究人员和行业专家开发了多种评估框架，以系统化地测试 MAS 在不同场景下的表现。

MultiAgentBench

MultiAgentBench 是一个MAS的综合基准测试，用于评估 MAS 在多种交互场景中的协作与竞争能力。MultiAgentBench不仅评估最终任务成功率，还衡量协作与竞争质量。采用里程碑式 KPI来细化评估。比如在一个协作研究任务中，它会设定中间里程碑（如：收集参考资料 → 起草章节 → 完成报告），并评估Agent在每一步的配合程度，确保团队整体协作效率。MultiAgentBench还会进行Agent协调协议评估，研究不同Agent通信拓扑（星型、链式、图结构）如何影响团队表现，同时还会评估不同**策略（如小组讨论）**对团队协作效率的影响。

相比单Agent评测，MultiAgentBench 提供了更全面的 MAS 评估，能够反映：最佳的Agent协作策略，最优的通信架构，多Agent系统的团队表现，而不仅仅是单个Agent的能力。

PlanBench

PlanBench 是一套专门用于评估Agent规划能力的测试套件。这个套件主要用评估以下几点：

生成有效计划：Agent能否制定合理、可执行的计划？

优化能力：Agent找到的是高效路径还是仅仅是可行路径？

自适应能力：当条件变化时，能否重新调整计划？

执行推理：Agent能否预测可能失败的步骤并做出调整？

假设一个Agent需要安排家具搬运，PlanBench 可能会进行如下测试：

基础测试：Agent是否能列出所有必要的搬运步骤，确保操作逻辑合理？

适应性测试：如果搬运卡车尺寸过小，Agent能否调整方案，例如安排额外车辆？（来源：《Mastering Agents: Evaluating AI Agents - Galileo AI》）

相比简单的任务执行评测，PlanBench 深入分析 MAS 的规划智能，以确定Agent是否真正理解任务，还是仅仅在复述训练样本。通过对计划质量、执行推理和适应能力的评分，PlanBench 让 MAS 规划智能的真实性和泛化能力一目了然。

函数调用Benchmark

如前所述，伯克利函数调用排行榜（BFCL）是一个专门用于评估agent在工具使用和 API 调用方面的框架。它提供包含查询及预期函数输出的数据集，并监测Agent是否正确选择并调用相应的函数来解决查询问题。

BFCL 包含的关键指标包括：Agent在一系列 API 调用中保持状态的能力，以及是否能正确执行多步工具使用。

此类基准测试对于多Agent系统（MAS）尤为重要，因为这些系统依赖外部工具（如数据检索、计算等）。BFCL 的测试确保Agent能够处理真实世界的 API 使用模式。

行业评估工具

在实际应用中，工程师使用框架和库来捕获多Agent系统（MAS）的各项指标，用于记录和分析多Agent行为。

DeepEval ：允许定义自定义的 MAS 相关指标，并可与 CI/CD 集成，实现持续测试。

TruLens ：专注于可解释性，帮助调试Agent间的通信，并确保输出符合目标。

RAGas ：针对检索增强生成（RAG）系统（适用于使用共享知识库的Agent），可跟踪答案准确性和上下文使用情况。

DeepCheck： 负责监控公平性和偏差，确保 MAS 进行任务分配或决策时不会出现不公正的倾向。

LangSmith：LangSmith 是一个用于调试、测试、监控和优化生产级大语言模型应用的平台，助力开发者高效迭代和部署 LLM 解决方案。

Langfuse：可以理解为开源版仿制的LangSmith。

Arize Phoenix：Arize Phoenix 是一个开源的可观测性工具，专为 AI 和 LLM 应用的实验、评估和故障排除而设计。它使 AI 工程师和数据科学家能够快速可视化数据、评估性能、追踪问题并导出数据以优化改进。

这一部分的GitHub 链接都附在了文末。

通过使用这些工具，团队可以持续评估 MAS 在关键指标上的表现，并及时发现问题，例如某个Agent过度占用资源或未能与其他Agent协调工作。

优化方法

优化多Agent系统意味着改进Agent的学习方式或设计，以在指标上表现更优。我们会从工程和算法两个角度来介绍一下优化方法。

工程

标准化通信协议

制定统一的通信标准和数据交换格式，确保各Agent之间信息传递清晰、准确，降低因格式不一致导致的调用错误。例如，可以参考一些成熟系统（如ROS等）的经验，借鉴其通信模块设计。

构建错误处理机制

引入专用的中间件或Agent管理系统，集中协调任务分配和工具调用，内置自动重试、回退和容错机制。这样当某个Agent调用工具失败时，可以自动捕获错误并进行补救，减少系统整体中断。

建立自动校验机制

设计统一的API接口供各个Agent调用工具，配合自动校验和反馈机制，确保调用过程中的参数正确、结果符合预期。此外，可采用日志记录与监控工具（如Arize Phoenix、Langfuse）实时跟踪工具调用过程，快速定位并修正错误。

利用分布式优化

采用分布式算法和并行计算方法，让各Agent在局部环境中独立执行任务后再进行汇总，从而减少因串行调用工具而导致的延迟和错误。这种方法也有助于缓解单个节点的负载压力，提高整体系统的响应速度和稳定性。

混合优化方法

使用混合多Agent系统，将多个优化求解器（如直接搜索方法和元启发式算法）集成到一个协调框架中。在这种系统中，每个求解器作为一个自主“Agent”运行，而调度器（或协调器）管理整个优化过程，在合作与竞争之间保持平衡。这种自适应切换策略可以减少不必要或错误的工具调用，因为系统能够动态选择当前最有效的方法。例如，一篇研究论文提出了一种用于混合优化的多Agent系统，其中不同类型的求解器同时处理给定问题，而调度Agent负责监督模型评估和求解器性能。这种协作优化方法可以最大限度地减少计算开销，并降低由于求解器不适用或调用错误导致的失败概率。

分布式与共识优化方法

另一种优化方式是分布式优化和共识方法。在这些方法中，各个Agent共享局部信息（例如部分解或成本估计），从而使整个网络能够收敛到一个全局最优解。这种方法的优势包括：

提高协作效率：Agent间协调合作，避免重复计算，同时实现同步更新，减少中央控制的需求。

减少工具调用错误：Agent可以共享环境信息，避免基于过时或不完整数据进行决策，降低调用工具时出现错误的风险。

算法

多Agent强化学习（MARL）：在 MARL 中，每个Agent通过获得奖励来学习策略，许多算法都是从单Agent强化学习中改编而来。核心挑战在于，Agent的动作会相互影响，因此学习过程需要考虑合作或竞争。例如，Q-learning 和策略梯度（policy gradient）方法都有多Agent版本。在合作环境中，可以为所有Agent提供一个全局奖励，以鼓励团队协作；而在竞争环境下，每个Agent则会最大化自身的奖励（例如游戏得分）。

OpenAI Five 在 Dota 2 中的应用 是另一个利用 多Agent强化学习（MARL） 和 自我博弈（self-play） 进行优化的典型示例。该系统训练了一支由五个Agent组成的团队，使其在高度复杂的游戏环境中学会合作。

OpenAI 采用了塑造奖励，结合 胜负结果、击杀和游戏目标等因素，以激励团队协作。通过强化学习，Agent自发地学会了分工策略，例如：一个Agent承担支援角色，而另一个Agent负责进攻，这些策略完全是通过学习演化而来。

进化算法（Evolutionary Algorithms, EAs）：进化算法受到自然选择的启发，用于优化Agent行为。与基于梯度的方法不同，EA 方法会维护一组Agent策略的种群，并通过迭代选择表现更优的策略，结合变异和交叉机制，形成策略。这一技术在多Agent环境中特别强大，因为它能够探索多样化策略，并帮助Agent跳出梯度方法可能陷入的局部最优。

混合进化算法（EA）+强化学习（RL）：现代研究经常将进化算法与强化学习相结合。RACE（Representation Asymmetry and Collaborative Evolution） 就是这样一个框架，它证明了进化算法可以在多Agent强化学习（MARL）的协作任务中发挥作用。该框架维护了一组多Agent团队的种群，这些团队与主强化学习训练并行进化。在特定时间点，RL 学习到的优秀行为会被注入种群，而进化出的优秀策略也会反馈到 RL 训练中。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业