AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


清华团队发布RAGEval:提升RAG系统性能的利器
发布日期:2024-08-28 14:22:00 浏览次数: 1732 来源:行客科技


今天来聊聊一款全新的AI工具——RAGEval。这是由清华大学、北京师范大学、中国科学院大学和东北大学联合开发的开源框架,专门用于评估RAG(检索增强生成)系统在特定场景下的表现。

主要创新点

1. 迭代查询处理

RAGEval引入了迭代查询处理方法,显著提升了信息检索的精确度和可靠性。传统RAG系统通常只能进行一轮查询和生成,这在处理复杂和多步问题时往往不够高效。迭代查询处理的核心在于:

  • 多轮次检索:每一轮查询的结果用于生成下一轮的查询,逐步深入到问题的核心,确保所有相关信息都被检索到。例如,在医学问答场景中,初次查询可能获取基本诊断信息,后续查询则进一步获取治疗方案和案例研究,最终形成一个全面的答案。

  • 动态生成查询:根据之前的检索结果动态调整和生成新的查询,这使系统能不断优化查询,提高结果的相关性和准确性。

2. 上下文增强

RAGEval通过保留和利用之前查询的信息,生成更具体和相关的后续查询,从而提高整体检索效果。其主要特点包括:

  • 信息保留和利用:每轮查询的上下文信息被保存并用于生成下一轮查询,确保模型能够参考之前的结果,避免信息重复和丢失。

  • 增强检索精度:通过上下文增强,模型能生成更加精准的查询,避免模糊和泛化问题。例如,在法律文档处理中,上下文增强确保每一轮查询都参考之前的法律条文和判例,提高法律咨询的准确性和可靠性。

3. 新颖的评估指标

RAGEval引入了三个新指标,全面评估LLM生成的回答质量:

  • 完整性(Completeness):评估答案是否涵盖了问题的所有关键方面,确保答案全面完整。

  • 幻觉(Hallucination):检测答案中是否包含虚假或不准确的信息,确保答案真实性。

  • 不相关性(Irrelevance):评估答案中是否包含不相关信息,确保答案集中且相关。

技术原理

1. Schema总结

RAGEval从少量领域特定文档中总结出一个schema(模式),捕捉领域内的关键信息。这个过程包括:

  • 分析文档中的事实信息:提取文档中的关键信息元素,如组织、事件、日期和地点。

  • 创建schema:定义这些信息元素及其关系,为后续文档生成和问题生成提供结构化框架。

2. 文档生成

根据总结的schema生成不同配置,利用这些配置生成多样化的文档。这个过程包括:

  • 生成多样化文档:根据不同配置生成内容丰富的文档,用于生成问题-参考-答案(QRA)三元组。

  • 配置引导生成:确保生成的文档符合特定领域需求和标准。

3. QRA生成

利用生成的文档和配置生成问题-参考-答案三元组。这个过程包括:

  • 配置引导问题和答案生成:通过配置文件引导生成具体且精确的问题和初步答案。

  • 从文档中提取相关信息片段:优化答案并生成关键点,确保评估的准确性和可靠性。

实验结果

在TriviaQA、PubmedQA和ASQA三个知识密集型问答任务上的实验结果显示,RAGEval显著提高了模型的性能。通过多方面评估指标,证明了其在提高模型性能和生成答案质量方面的有效性和优势。

RAGEval框架由清华大学、北京师范大学、中国科学院大学和东北大学的研究团队联合开发。这些研究人员在自然语言处理和人工智能领域有着丰富的经验和深厚的学术背景,致力于推动前沿技术的发展。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询