我要投稿

OpenRAG：全面增强RAG推理，超越Self-RAG、RAG 2.0、Command R+

发布日期：2024-10-06 11:54:30 浏览次数： 2004 作者：PaperAgent

现有的RAG方法在使用开源LLMs处理复杂查询（如多跳检索任务）时，表现出有限的推理能力。

提出了一个名为OPEN-RAG的新框架，旨在提高开源LLMs在RAG中的推理能力。

OPEN-RAG中的推理流程。它学习生成检索/不检索标记，对比相关和不相关上下文，并将答案归类为部分支持、完全支持或不支持。然后在推理时，给定一个（多跳）用户查询，首先强制模型在输入条件为不检索的情况下生成答案，并根据模型的置信度动态决定是否需要检索。

OPEN-RAG将任意密集LLM转换为参数高效的稀疏专家混合（MoE）模型，能够处理包括单跳和多跳查询在内的复杂推理任务。

OPEN-RAG中的架构转换（从密集到PEFT MoE）。路由器R从头开始训练。FFN层保持冻结状态，并由基于并行适配器的专家E进行调整。其他层被复制。

OPEN-RAG通过独特的训练方法，使模型能够导航看似相关但具有误导性的挑战性干扰因素。

训练过程中，模型学习生成检索/不检索的反射标记，并评估检索内容的相关性、支持程度和实用性。

OPEN-RAG训练数据准备涉及从每个原始对（q, y）生成四种新的训练实例的变化，每种都使用真实情况/LLM评论家和检索到的段落，结合不同的反射标记。OPEN-RAG不仅使LLM能够反思生成质量，还能够对比干扰项。

OPEN-RAG推理流程

检索/不检索：模型学会生成检索/不检索的标记，以指示是否需要检索来回答查询。
相关性评估：对于检索到的内容，模型生成相关性标记，指示内容是否与查询相关。
生成答案：根据预测的相关性、支持度和效用标记，对所有可能的答案进行排序，生成最终答案。

在各种知识密集型的单跳/多跳短文/长文推理任务上，基于Llama2-7B的OPEN-RAG在事实准确性和推理能力方面显著优于现有的开源RAG模型，并且常常匹配或超越了最先进的专有LLMs及其RAG模型。

在多个任务中，OPEN-RAG基于Llama2-7B，超越了ChatGPT-RAG、Self-RAG、RAG 2.0和104B RAG-Command R+，树立了新的基准。

OPEN-RAG模型如何通过自适应检索方法在性能和速度之间取得平衡：

自适应检索策略有效：

信心评分：模型在推理时生成检索/不检索的反射标记，并计算输出序列在强制不检索设置下的信心分数。
阈值控制：通过调整阈值γ，可以控制检索的频率。如果模型信心分数低于阈值γ，则触发检索。

信心评分重要：fmeanp（几何平均概率）作为信心评分方法，相比于fminp（最小概率）和fret（外部模型预测的反射标记概率），在所有数据集上都显示出更稳健的性能。
性能与检索平衡：在某些任务中，过高的检索频率并不总是最佳选择；自适应检索可以在适当的时机使用检索，从而在各种检索频率下都取得较好的性能。

（上）不同自适应检索策略的性能对比检索。（下）性能与自适应检索得分对比。fret表示来自外部模型提炼/预测的反射标记的概率得分。

对比不同检索方法的鲁棒性

CRAG方法：CRAG（Corrective Retrieval Augmented Generation）是一种在检索质量较低时使用网络搜索来获取新检索的方法。通过将CRAG方法与OPEN-RAG结合，研究者评估了模型对检索质量的鲁棒性。
结果：OPEN-RAG在结合CRAG数据集时表现优于其他基线，显示出对高质量检索的潜在改进能力。

使用CRAG上下文的模型性能

路由分析

专家激活：通过分析不同任务中专家的激活情况，研究者发现某些专家在特定层次上更活跃，这表明专家能够根据任务的复杂性在不同层次上发挥作用。

单跳（PopQA、PubHealth）与多跳任务（HotpotQA、MuSiQue）的逐层专家激活情况。

OPEN-RAG限制：

OPEN-RAG的内存占用较高，因为它增加了总参数量（7.81B），与Llama2-7B系列基线（6.74B）相比有所增加。
尽管如此，OPEN-RAG在推理时只有7.01B的活跃参数，与性能相比，实际上降低了计算和内存成本。

https://openragmoe.github.io/OPEN-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Modelshttps://arxiv.org/pdf/2410.01782

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-24

RAG评估深度解析：LLM时代的全方位指南（1.5万字综述）

2025-04-24

RAG 落地必备的 1 个开源 AI 原生向量数据库 —Chroma

2025-04-24

用维基百科(wikipedia) 数据集上手RAG 优化实践

2025-04-24

Dify工作流→知识检索|问题分类

2025-04-24

基于MiniO存储的RAGFlow+Dify图片处理方案

2025-04-24

一文搞懂GraphRAG（RAG + 知识图谱）

2025-04-24

CAMEL-AI与OceanBase向量数据库的深度融合

2025-04-23

RAG 作者：RAG 已死，RAG 万岁！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

RAG应用必备！10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强？

2025-04-22

18种RAG技术大比拼：谁才是检索增强生成的最佳选择？

2025-04-22

大模型能像专业分析师一样提取用户需求吗？

2025-04-20

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

什么是RAG与为什么要RAG？

2025-04-18

真实场景下落地RAG的十条建议及RAG中如何提升个性化？

2025-04-16

RAG系统中的“幕后英雄”：重排器如何提升信息检索的精准度？

2025-04-14

Dify 基础篇| 深度解读 RAG：为什么需要混合检索？

2025-04-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB