我要投稿

Rageval：评估检索增强生成(RAG)方法的工具

发布日期：2024-04-18 07:59:58 浏览次数： 2624

作者：GitHubStore

微信搜一搜，关注“GitHubStore”

项目简介

Rageval 是一个帮助您评估 RAG 系统的工具。评估由六个子任务组成，包括查询重写、文档排名、信息压缩、证据验证、答案生成和结果验证。

任务和指标的定义

1. 生成任务

生成任务是根据 RAG 中检索模块提供的上下文来回答问题。通常，上下文可以从压缩器中提取/生成文本片段，或者从重新排名器中提取/生成相关文档。在这里，我们将生成任务中使用的指标分为两类，即答案正确性和答案扎根性。

（1）答案正确性：这类指标是通过将生成的答案与真实答案进行比较来评估正确性。以下是一些常用的指标：

答案 F1 正确性：广泛应用于论文（江 et al.）、论文（Yu et al.）、论文（Xu et al.）等。
答案 NLI 正确性：在论文中也称为权利要求召回（Tianyu et al.）。
答案 EM 正确性：也称为论文中使用的精确匹配（Ivan Stelmakh 等人）。
答案 Bleu Score：也称为论文中使用的 Bleu（Kishore Papineni 等人）。
答案 Ter Score：也称为论文中使用的翻译编辑率（Snover 等人）。
答案 chrF 分数：也称为论文中使用的字符 n-gram F 分数（Popovic 等人）。
答案 Disambig-F1：也称为Disambig-F1，用于论文（Ivan Stelmakh等人）和论文（Zhengbao 江等人）。
答案胭脂正确性：也称为胭脂，如论文（Chin-Yew Lin）。
答案准确性：也称为论文中使用的准确性（Dan Hendrycks 等人）。
答案 LCS 比率：也称为论文中使用的 LCS（%）（Nashid 等人）。
答案编辑距离：也称为论文中使用的编辑距离（Nashid 等人）。

（2）答案扎根性：这类指标是通过将生成的答案与提供的上下文进行比较来评估扎根性（也称为事实一致性）。以下是一些常用的指标：

答：论文中的引文精度（Tianyu et al.）。
答案引文回忆：在论文中也称为引文回忆（Tianyu et al.）。
上下文拒绝率：在论文中也称为拒绝率（Wenhao Yu et al.）。

2. 重写任务

重写任务是将用户问题重新表述为一组查询，使它们对 RAG 中的搜索模块更友好。

3. 搜索任务

搜索任务是从知识库中检索相关文档。

（1）上下文充分性：这类指标是通过将检索到的文档与真实上下文进行比较来评估充分性。以下是一些常用的指标：

（2）上下文相关性：这类指标是通过将检索到的文档与真实答案进行比较来评估相关性。以下是一些常用的指标：

上下文召回：在RAGAS框架中也称为上下文召回。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

sora2官方提示词

2025-10-09

2025-10-20

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

Sora 2带来3个颠覆性创新，这个行业或将被彻底重构

2025-10-02

大家都在问

为什么Claude Code不用RAG？

2025-12-23

什么是本体（Ontology）？

2025-12-23

RAG落地实践：如何用知识打标和元数据维护提升检索精准度？

2025-12-22

拆解Palantir最新AIP客户案例：哪些行业最先被Agent化？

2025-12-22

深度解读DeepMind最新研究：为什么需要像管股市一样去管AI？

2025-12-22

别信用户的嘴：如何写一个 Prompt，把“大白话”变成“搜索关键词”？

2025-12-22

终于，NotebookLM 和 Gemini 合体了。这是什么神之更新？

2025-12-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean