我要投稿

MATEval：一个用于推进开放式文本评估的Multi-Agent讨论框架

发布日期：2024-04-15 09:00:40 浏览次数： 2367

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

随着生成性大型语言模型（LLMs）的快速发展，评估这些模型生成的文本质量，尤其是在开放式文本生成方面，一直是一个挑战。传统的手动评估方法耗时且成本高昂，而自动化评估方法如BLEU、Rouge和METEOR在开放式文本评估中存在局限性。最近的研究开始探索使用LLMs作为评估智能体，但这种方法存在不确定性和不稳定性。

为了解决这些问题，提出了MATEval框架，一个多智能体文本评估框架，旨在模拟人类协作讨论方法，通过多个智能体的交互来评估文本。

Multi-Agent文本评估框架

MATEval框架包括评估智能体、反馈智能体和总结智能体，它们协同工作完成文本评估任务。

MATEval框架示例：包括提示和对话，融合了自我反思、思维链（CoT）、反馈机制和最终总结的讨论过程。

MATEval框架关键组成部分：

评估智能体（Evaluator Agent）：这是框架中的主要评估实体，负责进行多轮的文本评估。评估智能体通过设计好的提示（prompts）引导，存储和处理来自其他智能体的陈述，并以此为参考进行对话历史记录。
反馈智能体（Feedback Agent）：反馈智能体在每轮讨论后评估讨论的内容和质量，专注于识别低效的对话和分歧，并提出改进建议，以提高后续讨论的效率和共识。
总结智能体（Summarizer Agent）：在所有讨论结束后，总结智能体负责整理整个讨论过程和结果，提供详细的评估报告，包括错误类型、具体位置、解释和得分。
自我反思（Self-reflection）：在每轮讨论中，智能体会进行自我反思，考虑同伴的输入来丰富对问题的理解，并调整自己的陈述。
思维链（Chain-of-Thought, CoT）策略：通过提示引导智能体自主分解问题，并在每轮讨论中只关注一个子问题，从而深入分析文本。
反馈机制：在每轮讨论结束时，反馈机制通过提示引导反馈智能体总结和评估讨论，指导后续讨论减少重复，提高效率，并引导参与者达成共识。
输出格式：MATEval框架提供两种格式的评估报告：一种是基于问答（Q&A）的格式，便于计算相似度和相关性分数；另一种是文本报告格式，便于业务人员快速理解和迭代模型。

MATEval框架在两个英文故事文本数据集（ROCStories和WritingPrompts）和两个中文故事文本数据集（LOT和Ant）上进行了实验。实验结果显示，MATEval在评估LLMs生成的文本方面优于现有的开放式文本评估方法，并且与人类评估具有最高的相关性。特别是，结合自我反思和CoT策略的方法在评估逻辑不一致性、不连贯性和不当词汇选择方面表现尤为出色。

使用不同模型和MATEval不同策略在ROC/WP数据集上评估结果与人类判断的相关性，其中SA代表单智能体，SR表示自我反思，CoT代表思维链。符号ρ/τ分别表示斯皮尔曼/肯德尔相关性。最高相关性值以粗体突出显示。

使用不同模型和MATEval不同策略在LOT/Ant数据集上评估结果与人类判断的相关性。最高相关性值以粗体显示。

MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluationhttps://arxiv.org/pdf/2403.19305.pdf

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

比 R1 快 8 倍、价格仅 3%，智谱新推理模型来袭，能让免费智能体自己赚钱！张鹏：Agent 也有 Scaling Law

2025-04-06

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

微软突发“封杀令”！全面禁止Cursor使用C、C++、C# 扩展，开发者被迫回退版本

2025-04-12

大家都在问

OpenAI首席研究官没有博士学位，你的985还有用吗？

2025-07-03

AI 商业化，Salesforce 做对了什么？

2025-07-03

AI 编程如何在团队中真正落地？

2025-07-02

AI 如何成为认知导航仪？

2025-07-02

RAG检索策略深度解析：从BM25到Embedding、Reranker，如何为LLM选对“导航系统”？

2025-07-01

巨头混战Agent，押注背后是真未来还是新泡沫？

2025-07-01

什么才是AI时代最大的创业机会？

2025-07-01

从碎片到图谱：Graph RAG如何用知识网络颠覆传统搜索？

2025-07-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB