微信扫码
与创始人交个朋友
我要投稿
随着近年来多模态和自主型AI系统的迅猛发展,这些系统已经能够从解决小型、孤立的问题跃升至应对复杂、现实世界的挑战。然而,随着这些系统的不断进化,我们的评估方法也必须与时俱进。传统的评估方法(RAG(Retrieval-Augmented Generation)评测:评估LLM中的幻觉现象),如仅关注最终结果或依赖人工评估,已被证明不足以评估自主型系统所体现的逐步、动态过程。正是在这一背景下,Agent-as-a-Judge框架应运而生,它不仅革新了我们对AI的评估方式,还凸显了自主型系统在自我改进方面的日益增长的作用。今天我们一起了解一下Agent-as-a-Judge。
传统 AI 评估主要关注最终输出,例如评估代码生成系统时,仅看生成的代码是否成功运行或解决特定任务。这种方式忽略了系统达成解决方案的复杂过程,如同仅根据学生的期末考试成绩评分,而忽视其学习过程。
智能体系统像人类一样是逐步操作的,在解决问题过程中会做出决策、根据反馈调整并不断优化方法。但现有评估方法无法在任务解决过程中提供中间反馈,导致我们无法深入了解系统的性能和改进方向。
依靠人工评估者不仅劳动强度大、成本高,还容易出现偏差和不一致。尽管可以训练人工评估 AI,但所需的时间和资源使其在 AI 系统日益复杂的情况下变得不切实际。
受大型语言模型(LLM)作为评估员(LLM-as-a-Judge)框架成功的启发,该框架利用大型语言模型来评估其他大型语言模型,Agent-as-a-Judge框架在此基础上更进一步。它应用自主型系统——能够做出决策并自主行动的AI系统——来评估其他自主型系统。本质上,这是AI评估AI,但能够在整个任务解决过程中提供丰富的反馈。
Agent-as-a-Judge框架并不只是等待代理完成任务后才做出判断。相反,它评估每一个中间步骤,并实时提供反馈。这就像拥有一个个人导师,跟踪你的每一个动作,帮助你识别错误、改进方法,并在你工作时不断提高。
为了证明Agent-as-a-Judge框架的潜力,研究人员开发了DevAI,一个包含55个现实AI开发任务的基准。这些任务从生成代码到解决复杂的开发问题,模拟了AI开发者在现实世界中面临的挑战。DevAI中的每个任务都有详细的层次结构和偏好要求,使评估系统能够在从简单里程碑到更抽象目标的多个层次上衡量成功。
与关注狭窄、孤立问题的现有基准不同,DevAI反映了实际AI开发的复杂性。它提供了一种全面评估自主型系统的方法,不仅关注其最终输出,还关注达到该输出的整个过程。
Agent-as-a-Judge框架的核心是一组八个模块化组件,它们模仿人类评估过程。每个组件在评估代理的性能方面发挥着特定作用:
Graph Module:构建整个项目的图,包括文件、模块和依赖项。这有助于系统将任务分解成更小、更易管理的部分。
Locate Module:根据要求识别特定的文件或文件夹,确保代理正在针对项目的正确部分。
Read Module:超越简单的文件解析,支持读取和理解跨各种格式(代码、图像、视频等)的多模态数据。
Search Module:提供代码的上下文理解,检索相关代码片段并分析依赖项。
Retrieve Module:从长输出中提取相关信息,如日志或开发轨迹,允许进行更细致的评估。
Ask Module:基于其他模块提供的上下文,确定给定要求是否已满足。
Memory Module:存储历史判断和决策,允许系统基于过去的评估不断改进。
Planning Module:根据任务的当前状态计划未来行动,确保代理正在做出与项目目标一致的战略决策。
这些组件共同使系统能够在任务解决过程中提供丰富、实时的反馈,而不是仅仅评估最终结果。
在对 MetaGPT、GPT - Pilot 和 OpenHands 等三个流行智能体系统在 DevAI 数据集上的测试中,Agent-as-a-Judge 框架表现出色。它与人类评估者的一致性达到 90%,而 LLM - as - a - Judge 仅为 70%。
该框架将评估的时间和成本降低了 97% 以上,是一种极具可扩展性的解决方案,适用于现实世界的应用。
在某些情况下,Agent-as-a-Judge 框架比单个人工评估者更一致和可靠,更接近专家评委的共识。
中间反馈促进自我改进
框架能够在任务解决过程中提供反馈,帮助智能体系统实时识别和纠正错误,实现持续自我改进。
无需人工评估者,提供更高效的自动化评估,大幅降低评估的时间和成本,可应用于多种现实场景。
丰富动态反馈
不同于传统方法只衡量最终结果,它评估过程的每一步,深入了解智能体系统的运作和改进之处。
能够并行评估多个智能体系统,随着 AI 的发展,可处理日益复杂的任务。
Agent-as-a-Judge 框架是 AI 系统评估方法的重大突破。它克服了传统评估方法的缺陷,通过智能体评估智能体,在任务解决过程中提供丰富动态反馈,具有成本效益高、可扩展性强等优势。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-04-11
2024-07-18