我要投稿

清华团队发布RAGEval：提升RAG系统性能的利器

发布日期：2024-08-28 14:22:00 浏览次数： 2045 作者：行客科技

今天来聊聊一款全新的AI工具——RAGEval。这是由清华大学、北京师范大学、中国科学院大学和东北大学联合开发的开源框架，专门用于评估RAG（检索增强生成）系统在特定场景下的表现。

主要创新点

1. 迭代查询处理

RAGEval引入了迭代查询处理方法，显著提升了信息检索的精确度和可靠性。传统RAG系统通常只能进行一轮查询和生成，这在处理复杂和多步问题时往往不够高效。迭代查询处理的核心在于：

多轮次检索：每一轮查询的结果用于生成下一轮的查询，逐步深入到问题的核心，确保所有相关信息都被检索到。例如，在医学问答场景中，初次查询可能获取基本诊断信息，后续查询则进一步获取治疗方案和案例研究，最终形成一个全面的答案。
动态生成查询：根据之前的检索结果动态调整和生成新的查询，这使系统能不断优化查询，提高结果的相关性和准确性。

2. 上下文增强

RAGEval通过保留和利用之前查询的信息，生成更具体和相关的后续查询，从而提高整体检索效果。其主要特点包括：

信息保留和利用：每轮查询的上下文信息被保存并用于生成下一轮查询，确保模型能够参考之前的结果，避免信息重复和丢失。
增强检索精度：通过上下文增强，模型能生成更加精准的查询，避免模糊和泛化问题。例如，在法律文档处理中，上下文增强确保每一轮查询都参考之前的法律条文和判例，提高法律咨询的准确性和可靠性。

3. 新颖的评估指标

RAGEval引入了三个新指标，全面评估LLM生成的回答质量：

完整性（Completeness）：评估答案是否涵盖了问题的所有关键方面，确保答案全面完整。
幻觉（Hallucination）：检测答案中是否包含虚假或不准确的信息，确保答案真实性。
不相关性（Irrelevance）：评估答案中是否包含不相关信息，确保答案集中且相关。

技术原理

1. Schema总结

RAGEval从少量领域特定文档中总结出一个schema（模式），捕捉领域内的关键信息。这个过程包括：

分析文档中的事实信息：提取文档中的关键信息元素，如组织、事件、日期和地点。
创建schema：定义这些信息元素及其关系，为后续文档生成和问题生成提供结构化框架。

2. 文档生成

根据总结的schema生成不同配置，利用这些配置生成多样化的文档。这个过程包括：

生成多样化文档：根据不同配置生成内容丰富的文档，用于生成问题-参考-答案（QRA）三元组。
配置引导生成：确保生成的文档符合特定领域需求和标准。

3. QRA生成

利用生成的文档和配置生成问题-参考-答案三元组。这个过程包括：

配置引导问题和答案生成：通过配置文件引导生成具体且精确的问题和初步答案。
从文档中提取相关信息片段：优化答案并生成关键点，确保评估的准确性和可靠性。

实验结果

在TriviaQA、PubmedQA和ASQA三个知识密集型问答任务上的实验结果显示，RAGEval显著提高了模型的性能。通过多方面评估指标，证明了其在提高模型性能和生成答案质量方面的有效性和优势。

RAGEval框架由清华大学、北京师范大学、中国科学院大学和东北大学的研究团队联合开发。这些研究人员在自然语言处理和人工智能领域有着丰富的经验和深厚的学术背景，致力于推动前沿技术的发展。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

深度学习！构建基于LangGraph的RAG多智能体研究工具。

2025-04-26

用RAG与Agent提升企业问答效率：我的AI实践之路

2025-04-26

理解 RAG 第一部分：为什么需要它

2025-04-26

理解 RAG 第三部分：融合检索与重新排序

2025-04-26

理解 RAG 第四部分：检索增强生成评估框架

2025-04-26

理解 RAG 第五部分：管理上下文长度

2025-04-26

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

【Ragflow】21.RagflowPlus(v0.2.1)：6个bug修复/增加重置密码功能

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

HR AI小科普——什么是MCP？

2025-04-25

RAG应用必备！10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强？

2025-04-22

18种RAG技术大比拼：谁才是检索增强生成的最佳选择？

2025-04-22

大模型能像专业分析师一样提取用户需求吗？

2025-04-20

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

什么是RAG与为什么要RAG？

2025-04-18

真实场景下落地RAG的十条建议及RAG中如何提升个性化？

2025-04-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部