微信扫码
添加专属顾问
我要投稿
尽管RAG模型在许多应用中表现出色,但它们在实际使用中也可能面临回答不准确的问题,那么如何有效地诊断和解决这些问题就显得尤为重要。亚马逊发布了一个全新的开源工具——
RAGChecker
,旨在帮助开发者和研究人员对RAG系统进行全面、可靠、细粒度诊断,着重解决AI回答不准的问题,并为进一步提升性能,提供可操作的方向。这个工具就像是给RAG系统开了一剂"药方",帮助它"康复",为我们的开发者打造更智能、更可靠的RAG系统。论文:https://arxiv.org/pdf/2408.08067
项目:https://github.com/amazon-science/RAGChecker
RAG评估方向 | 评估框架及链接 | 描述 |
---|---|---|
生成器基本能力评估 | RGB https://arxiv.org/abs/2309.01431 https://github.com/chen700564/RGB | 手动构建测试集,评估生成器的噪声鲁棒性、负拒绝、信息整合和反事实鲁棒性 |
生成器基本能力评估 | RECALL https://arxiv.org/pdf/2311.08147 | 引入手动编辑的反事实上下文到QA和文本生成数据集,评估LLMs的反事实鲁棒性 |
生成器基本能力评估 | NoMIRACL https://arxiv.org/pdf/2312.11361 | 通过人工判断相关和非相关数据集,评估LLMs对检索错误的鲁棒性 |
生成器基本能力评估 | https://arxiv.org/pdf/2404.10198 | 通过引入不同水平的扰动来量化LLMs的忠实度与内部先验间的平衡 |
生成器基本能力评估 | FAAF https://arxiv.org/pdf/2403.03888 | 提出细粒度的事实验证方法,用于评估生成器的真实性 |
RAG系统端到端评估 | TruLens https://www.trulens.org/trulens_eval/core_concepts_rag_triad/ | 引入RAG三元组概念,评估上下文相关性、基础性和答案相关性 |
RAG系统端到端评估 | RAGAS https://arxiv.org/pdf/2309.15217 和 ARES https://arxiv.org/pdf/2311.09476 | 跟随RAG三元组概念,在不同数据集上优化分数预测方法 |
RAG系统端到端评估 | CRUD-RAG https://arxiv.org/pdf/2401.17043 | 涉及CRUD操作,开发特定的RAG系统数据集和评估标准 |
其他端到端评估 | Findings of the Association for Computational Linguistics: EMNLP 2023, pages 7001–7025 | 进行人类评估,考察生成搜索引擎的流畅性、感知效用和可验证性 |
其他端到端评估 | MEDRAG https://arxiv.org/pdf/2402.13178 | 构建医学RAG基准,用QA准确性评估医学RAG系统 |
其他端到端评估 | MultiHop-RAG https://arxiv.org/pdf/2401.15391 | 从新闻文章生成多跳查询,评估RAG系统的QA准确性 |
其他端到端评估 | CDQA https://arxiv.org/pdf/2402.19248 | 提出一种生成动态QA问题的新方法,要求使用最新信息回答 |
然而,上述评估框架中使用的评估指标要么依赖于人类评估,要么依赖于简单的文本准确性,这使得它们无法应对需要长答案评估的复杂RAG场景。因此,我们没有真正将它们纳入元(meta)评估。下面我们进入本文将要介绍的一种先进的自动评估框架:RAGChecker。
RAGChecker 是一种先进的自动评估框架,它提供了一套全面的指标和工具,用于深入分析 RAG 性能。它的功能主要有:
Precision 精度
是响应中正确声明的比例,Recall 召回率
是真实答案中正确声明的比例。精度和召回率的调和平均值作为整体性能指标F1
分数。声明召回率
:真实答案中的声明在检索到的文本块中被覆盖的比例。上下文精度
:检索到的文本块中包含任何真实答案声明的比例。本文提出了RAGChecker,一种新的RAG评估框架,为检索器和生成器组件提供了细粒度的评估。通过元(meta)评估验证了RAGChecker与人类判断的高度相关性。广泛的实验评估揭示了RAG系统设计中的有价值的见解,如检索改进与噪声引入之间的权衡,以及忠实开源模型对上下文的盲目信任倾向。RAGChecker不仅加深了对RAG系统架构的理解,还为未来的RAG应用提供了关键指导。
RAGChecker框架通过 claim-level 的事实检查来实现细粒度的评估。具体步骤如下:
RAGChecker框架在元(meta)评估中表现出色,具体优势如下:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-04
OpenAI 免费 “AI 补习班”:教你偷偷变强!『OpenAI Academy』
2025-04-03
4天开发,1700万美元融资:开源的Browser Use为啥这么火?
2025-04-03
为什么大模型本地部署后“没了下文”?
2025-04-03
35k star,一款颠覆性的文本转语音神器,已开源!
2025-04-03
阿里搞了个大新闻!这AI能听会看还会实时唠嗑,科幻片都不敢这么拍?
2025-04-03
GitHub 重磅开源!GPT-Crawler:一键爬取网站知识库,打造专属AI大脑!
2025-04-02
兼顾推理效率和代码效果的Ling-Coder-Lite解读
2025-04-02
大模型提供商:Xinference和ollama有什么区别
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-07-11
2024-08-13
2024-12-26
2025-04-03
2025-04-03
2025-04-03
2025-04-01
2025-03-31
2025-03-25
2025-03-25
2025-03-24