微信扫码
与创始人交个朋友
我要投稿
尽管RAG模型在许多应用中表现出色,但它们在实际使用中也可能面临回答不准确的问题,那么如何有效地诊断和解决这些问题就显得尤为重要。亚马逊发布了一个全新的开源工具——
RAGChecker
,旨在帮助开发者和研究人员对RAG系统进行全面、可靠、细粒度诊断,着重解决AI回答不准的问题,并为进一步提升性能,提供可操作的方向。这个工具就像是给RAG系统开了一剂"药方",帮助它"康复",为我们的开发者打造更智能、更可靠的RAG系统。论文:https://arxiv.org/pdf/2408.08067
项目:https://github.com/amazon-science/RAGChecker
RAG评估方向 | 评估框架及链接 | 描述 |
---|---|---|
生成器基本能力评估 | RGB https://arxiv.org/abs/2309.01431 https://github.com/chen700564/RGB | 手动构建测试集,评估生成器的噪声鲁棒性、负拒绝、信息整合和反事实鲁棒性 |
生成器基本能力评估 | RECALL https://arxiv.org/pdf/2311.08147 | 引入手动编辑的反事实上下文到QA和文本生成数据集,评估LLMs的反事实鲁棒性 |
生成器基本能力评估 | NoMIRACL https://arxiv.org/pdf/2312.11361 | 通过人工判断相关和非相关数据集,评估LLMs对检索错误的鲁棒性 |
生成器基本能力评估 | https://arxiv.org/pdf/2404.10198 | 通过引入不同水平的扰动来量化LLMs的忠实度与内部先验间的平衡 |
生成器基本能力评估 | FAAF https://arxiv.org/pdf/2403.03888 | 提出细粒度的事实验证方法,用于评估生成器的真实性 |
RAG系统端到端评估 | TruLens https://www.trulens.org/trulens_eval/core_concepts_rag_triad/ | 引入RAG三元组概念,评估上下文相关性、基础性和答案相关性 |
RAG系统端到端评估 | RAGAS https://arxiv.org/pdf/2309.15217 和 ARES https://arxiv.org/pdf/2311.09476 | 跟随RAG三元组概念,在不同数据集上优化分数预测方法 |
RAG系统端到端评估 | CRUD-RAG https://arxiv.org/pdf/2401.17043 | 涉及CRUD操作,开发特定的RAG系统数据集和评估标准 |
其他端到端评估 | Findings of the Association for Computational Linguistics: EMNLP 2023, pages 7001–7025 | 进行人类评估,考察生成搜索引擎的流畅性、感知效用和可验证性 |
其他端到端评估 | MEDRAG https://arxiv.org/pdf/2402.13178 | 构建医学RAG基准,用QA准确性评估医学RAG系统 |
其他端到端评估 | MultiHop-RAG https://arxiv.org/pdf/2401.15391 | 从新闻文章生成多跳查询,评估RAG系统的QA准确性 |
其他端到端评估 | CDQA https://arxiv.org/pdf/2402.19248 | 提出一种生成动态QA问题的新方法,要求使用最新信息回答 |
然而,上述评估框架中使用的评估指标要么依赖于人类评估,要么依赖于简单的文本准确性,这使得它们无法应对需要长答案评估的复杂RAG场景。因此,我们没有真正将它们纳入元(meta)评估。下面我们进入本文将要介绍的一种先进的自动评估框架:RAGChecker。
RAGChecker 是一种先进的自动评估框架,它提供了一套全面的指标和工具,用于深入分析 RAG 性能。它的功能主要有:
Precision 精度
是响应中正确声明的比例,Recall 召回率
是真实答案中正确声明的比例。精度和召回率的调和平均值作为整体性能指标F1
分数。声明召回率
:真实答案中的声明在检索到的文本块中被覆盖的比例。上下文精度
:检索到的文本块中包含任何真实答案声明的比例。本文提出了RAGChecker,一种新的RAG评估框架,为检索器和生成器组件提供了细粒度的评估。通过元(meta)评估验证了RAGChecker与人类判断的高度相关性。广泛的实验评估揭示了RAG系统设计中的有价值的见解,如检索改进与噪声引入之间的权衡,以及忠实开源模型对上下文的盲目信任倾向。RAGChecker不仅加深了对RAG系统架构的理解,还为未来的RAG应用提供了关键指导。
RAGChecker框架通过 claim-level 的事实检查来实现细粒度的评估。具体步骤如下:
RAGChecker框架在元(meta)评估中表现出色,具体优势如下:
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-22
花60元,DIY了一个AI机器人,能聊天,会认人……
2024-12-21
基于AI智能助理的软件开源组件安全检查
2024-12-21
Llama2024年度要点总结
2024-12-21
重磅! Github Copilot 免费了
2024-12-20
万字长文帮你搞定AI Agent选型
2024-12-20
微软开源的 Markitdown 可将任意文件转换为 Markdown 格式,PDF 解析咋样?
2024-12-20
Claude的MCP(模型上下文协议)简介
2024-12-20
历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物
2024-05-06
2024-07-25
2024-08-13
2024-06-12
2024-07-11
2024-06-16
2024-07-20
2024-09-20
2024-06-15
2024-07-25
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13
2024-11-13
2024-10-07
2024-09-22