
大型语言模型(LLMs)如GPT-4在自然语言处理(NLP)领域有着重要作用,擅长生成文本、回答问题等任务。但这些模型也存在一些短板,比如对最新信息的掌握不足、难以实时更新知识库以及在处理大量信息时效率不高。
为了解决这些问题,检索增强生成(RAG)技术应运而生,它通过整合外部数据源,提升了模型的响应质量和适用性。
今天分享10种改进版的RAG技术,它们在检索和生成环节上各有侧重,覆盖了从通用到特定问题的解决方案,能够体现出RAG在促进自然语言处理(NLP)进步中的多样性和巨大潜力。
1 标准检索增强生成(RAG)
标准RAG通过融合检索技术与大型语言模型(LLMs),可以生成既准确又符合上下文的响应,这打破了传统LLMs静态知识库的限制,能够动态利用外部数据源。

运作机制
- 高效检索:用户提出查询后,系统迅速找到最相关的文档片段,利用相似性搜索技术。
- 上下文提示:将检索到的片段整合到LLMs的输入提示中,为其提供生成精准响应所需的上下文信息。
优势
- 实时交互:能够实现1-2秒内的快速响应,对于客户服务聊天机器人等应用非常关键。
- 提升答案质量:通过访问最新和特定领域的信息,使响应更加精准,更好地符合用户需求。
实施细节
- 检索器组件:通常采用密集向量嵌入技术(如FAISS模型)进行高效的相似性搜索。
- 生成器组件:LLMs处理增强后的提示,生成自然融入检索信息的响应。
应用场景
- 客户支持:通过检索相关政策文件或FAQs,提供精确答案。
- 搜索引擎:通过检索文档生成摘要,增强搜索结果的相关性。
- 知识管理系统:帮助用户从庞大的数据库中检索和理解复杂信息。
面临的挑战
- 延迟问题:随着数据集的增长,保持快速响应是一个挑战。
标准RAG有效地结合了检索系统和生成模型,使LLMs能够动态访问外部知识库,生成高质量、上下文相关的响应。
2 纠正检索增强生成(CRAG)
纠正检索增强生成(CRAG)旨在提高大型语言模型(LLMs)生成回答的准确性和可信度。它专注于发现并修正回答中的不准确之处或错误信息,确保提供的内容既精确又符合上下文。

运作机制
- 多遍过程:通过多次迭代检索和生成,不断提炼输出结果。
- 反馈循环:对每个生成的响应进行准确性和相关性评估,必要时触发纠正措施。
- 置信度评分:利用轻量级检索评估器为文档分配置信度分数,指导后续检索或生成步骤。
优势
- 提高精度:通过迭代提炼,确保更高的准确性,减少错误。
- 提升用户满意度:提高响应的可靠性,增强用户信任和满意度。
- 多功能性:CRAG的即插即用设计,方便与现有RAG系统无缝集成。
实施细节
- 检索评估器:评估检索文档的质量,依据相关性分数或领域特定标准。
- 纠正措施:可能包括细化查询、额外搜索或关注检索文档中的关键元素。
应用场景
- 医疗信息系统:确保健康相关响应的准确性和来源可靠性。
- 法律咨询服务:提供精确的法律信息,通过验证检索文档符合法律标准。
- 学术研究协助:通过提供准确的摘要和参考资料,协助研究人员。
面临的挑战
- 复杂性:在技术上实现有效的反馈循环和置信度评分机制具有挑战性。
- 阈值设置:需要定义适当的置信度阈值,以平衡准确性和效率。
CRAG通过系统地识别和纠正生成响应中的错误,利用迭代提炼和反馈机制,提高了LLM输出的整体精度和可靠性。
3 推测检索增强生成(推测RAG)
推测RAG通过双模型策略提升RAG系统的效率与准确性,专门应对延迟和计算负担的挑战。

核心机制
- 双模型策略:一个专家模型负责起草回答,一个通用模型负责审核。
- 并行起草:专家模型同时基于不同文档子集生成多个草稿。
- 审核选择:通用模型评估这些草稿,挑选出最合适的答案。
优势所在
- 提升准确性:多草稿来自不同数据子集,增加生成正确全面回答的几率。
- 减少延迟:小模型起草,大模型审核,优化资源,加快响应速度。
- 高效处理:并行起草提升处理能力,系统能同时处理多个可能的答案。
操作细节
- 专家模型(RAG起草人):专注于特定领域的小型LLM,生成专业草稿。
- 通用模型(RAG验证者):更大型、通用的LLM,评估并挑选最佳草稿。
应用实例
- 技术支持系统:结合广泛技术知识,提供精确的技术解决方案。
- 内容创作:辅助创作多个草稿,挑选出最连贯和相关的内容。
- 财务咨询:依据全面的财务数据库,给出精确的财务建议。
面临的挑战
- 模型协调:需要确保专家模型和通用模型之间的有效沟通和同步。
- 质量保证:在起草和审核阶段都保持高标准,确保回答的整体质量。
推测RAG结合了小型模型的专业起草和大型模型的审核优势,提高了检索增强生成的准确性和效率,优化了速度与精确度。
4 融合检索增强生成(融合RAG)
融合RAG通过融合多种检索技术和数据源,旨在提供全面且高质量的回答,它超越了单一数据源的限制,能够确保对查询的全面理解。

运作机制
- 多种检索技术:综合运用语义搜索、关键词检索和混合查询方法,从不同来源搜集信息。
- 数据源整合:汇集结构化数据库、非结构化文本和多媒体等多种类型的数据。
优势
- 增强韧性:减少对单一数据源的依赖,降低信息缺失和偏见的风险。
- 提升回答质量:整合多元输入,使得输出更准确、更可靠。
- 上下文相关性:根据查询的具体需求定制检索流程,确保回答既全面又切题。
实施细节
- 检索策略层:负责管理和协调不同的检索方法,为每个查询选择最佳方案。
- 数据融合模块:整合不同来源的信息,解决冲突,确保回答的一致性。
- 上下文分析:持续评估查询上下文,指导检索方法的选择和组合。
应用场景
- 学术研究工具:整合多个学术数据库和资源,提供全面的文献综述。
- 企业知识管理:帮助员工从内部和外部资源中检索和整合信息。
- 医疗信息系统:结合临床数据库、研究论文和病历数据,提供全面的医疗建议。
挑战
- 复杂整合:需要复杂的协调机制来有效整合不同的数据源和检索方法。
- 数据一致性:确保从不同来源检索的信息保持一致性是一个挑战。
- 可扩展性:在不牺牲性能的前提下管理和处理多个检索流,需要强大的基础设施支持。
融合RAG通过有效整合多种检索方法和不同数据源,标志着RAG技术的重大进步。这种整合使得语言模型在信息检索和生成任务中的表现更加健壮、准确和贴合上下文。
5 智能体检索增强生成(智能体RAG)
智能体RAG通过集成自适应智能体强化了大型语言模型(LLMs),这些智能体能够实时调整信息检索策略,让系统更精准地捕捉用户意图,并给出符合上下文的响应,有效应对复杂多变的查询需求。

核心机制
- 模块化设计:部署了多个专责智能体,分别处理查询优化、文档搜索和回答生成等任务,它们协同作业。
- 实时适应:智能体依据对话内容实时解读用户意图,并即时调整检索策略。
- 任务分配:系统智能地将任务分配给最适合的智能体,确保检索和生成的每个环节都得到专业处理。
优势
- 数据源整合:轻松整合新数据源和功能,无需全面改造系统。
- 可扩展性:智能体并行工作,使系统能高效处理复杂任务。
- 提升准确性:实时调整确保检索策略与用户意图高度一致,带来更精准的响应。
实施细节
- 智能体框架:一个强大的框架,负责智能体间的协调与通信。
- 专业智能体:包括查询优化智能体、文档搜索智能体和回答生成智能体,各司其职。
- 上下文感知:智能体通过追踪互动历史和上下文,保持情境意识,做出更明智的决策。
应用场景
- 智能虚拟助手:动态调整用户查询和偏好,提供细致入微的帮助。
- 互动学习平台:根据学习者的进展和需求调整检索策略,提供个性化辅助。
挑战
- 复杂协调:需要复杂的机制来管理智能体间的互动和依赖。
- 资源管理:随着智能体数量增加,要确保计算资源的高效利用。
- 系统稳定性:在多智能体动态并发操作下,保持系统的稳定性和性能。
智能体RAG通过动态优化信息检索和响应生成,标志着RAG技术的重要进步。这种方法使语言模型在多种应用中的表现更加精准、相关和高效。
6 自我检索增强生成(自我RAG)
自我RAG通过赋予大型语言模型(LLMs)检索和反思自身输出的能力,从而提升模型性能。这种自我参照的方法使模型能够不断迭代优化回答,增强回答的连贯性、准确性和相关性。

运作机制
- 循环过程:通过检索、生成和自我批评的循环,持续提升回答质量。
- 自适应检索:模型根据上下文和置信度判断是否需要额外信息,并从过往输出或外部来源检索相关内容。
- 自我反思和批评:模型利用特定的标记来评估自身回答的事实准确性、连贯性和相关性,为进一步迭代提供指导。
优势
- 提高效率:减少对外部检索的依赖,通过内部输出优化资源使用。
实施细节
- 反射标记:在输出中嵌入特殊标记,引导模型进行自我评估。
- 迭代提炼循环:设定迭代次数或达到特定标准,一旦回答令人满意即停止迭代。
- 与外部源的整合:在内部检索不足时,模型仍能访问外部数据。
应用场景
- 内容生成:帮助作家通过迭代改进草稿的连贯性和准确性。
- 教育工具:辅助学生通过自我评估完善对复杂问题的回答。
- 数据分析报告:通过迭代整合和评估数据点,生成和提炼详细报告。
挑战
- 迭代控制:需要平衡迭代次数,避免过高的计算成本,同时保证回答质量。
- 整合复杂性:在不破坏提炼过程的前提下,无缝整合内部检索与外部数据源。
自我RAG通过整合自我反思和自适应检索机制,显著推进了RAG技术的发展。这种方法使LLMs能够生成更准确、连贯和相关的回答,减少对外部数据源的依赖,提升整体性能和效率。
7. 自适应检索增强生成(自适应RAG)
自适应RAG通过灵活调配内部知识库和外部信息检索,针对每个查询的具体情况优化回答生成。这种方法确保了系统能够提供既准确又贴合上下文的回答,同时减少了不必要的数据检索。

运作机制
- 门控机制:采用门控技术(如RAGate),分析对话内容和输入,预判是否需要外部知识补充。
- 置信度评分:根据模型在缺乏外部信息时生成满意回答的能力,为其内部知识打分。
- 决策制定:依据置信度分数,系统决定是依靠内部知识还是启动外部检索。高置信度时依赖内部数据,低置信度时则寻求外部信息。
优势
- 提高效率:减少非必要的检索,节省计算资源,加快响应速度。
- 增强准确性:只在必需时整合外部知识,降低错误和误导的风险。
- 上下文相关性:根据查询的具体需求定制检索策略,确保回答的质量和相关性。
实施细节
- RAGate组件:一个负责门控的模块,依据上下文和置信度评分决定是否进行外部检索。
- 与现有RAG系统的整合:能够融入标准RAG框架,提升其适应性和效率。
应用场景
- 交互式聊天机器人:减少不必要的数据检索,确保信息的准确性,提供快速准确的回答。
- 个人助理:根据查询的复杂性和上下文,定制信息访问,提升用户体验。
- 动态内容平台:适应用户互动和偏好,调整检索策略,提供及时相关内容。
挑战
- 阈值校准:需要设定合适的置信度阈值,平衡对内部知识和外部检索的依赖。
- 实时适应:确保门控机制在实时操作中高效运行,避免引入延迟。
- 复杂上下文处理:对于复杂和多维的查询,需要精细决策何时检索外部信息。
自适应RAG通过智能平衡内部和外部知识源,显著提升了RAG技术。这种自适应机制提高了对话系统的整体性能,使得回答更准确、高效且贴合上下文。
8. REFEED检索反馈
REFEED(检索反馈)是一种无需重新训练就能强化大型语言模型(LLMs)输出的技术。它通过引入外部信息来优化初始回答,有效解决了幻觉和事实不准确的问题。

运作机制
- 检索:系统依据原始查询和初步回答,从大量资源(如维基百科)中检索相关文档。
- 反馈整合:将检索到的信息融入模型上下文中,帮助模型优化初始回答。
- 提炼:模型根据额外的上下文信息,生成经过修订的最终回答。
优势
- 提高检索准确性:通过生成多个答案选项并按可靠性排序,REFEED提升了回答的质量和准确性。
- 成本效益:避免了昂贵的重新训练过程,直接增强模型输出。
- 灵活性:作为一个即插即用模块,易于与现有LLMs集成。
实施细节
- 文档排名:通过排名算法,优先检索最相关和可靠的文档。
- 上下文增强:将检索到的文档无缝整合到输入提示中,引导LLM生成更精准的回答。
- 多个答案生成:鼓励生成多样化的回答选项,增加产生准确和相关答案的机会。
应用场景
- 内容验证:与权威外部来源交叉验证,确保内容的准确性。
- 知识密集型应用:在法律、医学和金融等领域,通过整合权威文档来增强回答。
- 客户支持:通过提炼初始回答和检索到的政策文件、FAQs,提供准确和相关的客户支持。
挑战
- 整合复杂性:在不破坏回答生成过程的前提下,将反馈无缝整合到LLM的上下文中。
- 延迟:尽管增加了检索和提炼步骤,仍需保持快速响应。
REFEED通过有效利用检索反馈来提炼LLM的输出,代表了RAG技术的重大进步。这种方法提高了内容生成的事实准确性和相关性,无需广泛重新训练,增强了LLMs在现实世界中的应用价值。
9 REALM(检索增强型语言模型)
REALM旨在通过检索机制增强语言模型,使其在预训练、微调和推理过程中能够访问外部知识库。这种整合解决了传统大型语言模型(LLMs)的局限性,它们通常将知识隐式存储在参数中,而REALM提供了对外部信息的显式访问。

机制
- 神经知识检索器:REALM整合了一个神经检索器,它能够根据输入查询从大型语料库中检索相关文档。
- 掩蔽语言建模:检索器使用掩蔽语言建模目标进行训练,使模型能够通过检索相关文档来预测缺失的标记。
- 端到端训练:REALM联合训练检索器和语言模型,允许通过反向传播同时优化两个组件。
优势
- 性能提升:通过提供对最新和广泛外部知识的访问,显著提高了模型在开放领域问答任务中的性能。
- 可解释性:检索到的文档作为模型预测的显式证据,增强了透明度和可信度。
实施细节
- 检索器架构:通常采用密集向量嵌入和相似性搜索算法(例如FAISS)来实现高效的检索。
- 联合训练:检索器和生成器以一种方式进行训练,使检索器能够检索直接协助生成器预测任务的文档。
- 知识库:经常使用大型、静态的语料库,如维基百科,确保广泛和全面的知识库。
用例
- 开放领域问答:通过从广泛的知识库中检索相关文档,提供准确的答案。
- 知识密集型应用:在需要深入理解和事实准确性的任务中提高性能,如医疗诊断支持系统。
- 内容摘要:通过检索和整合多个相关来源的信息生成摘要。
挑战
- 可扩展性:管理和索引庞大的知识库以确保高效检索,同时不牺牲性能。
- 检索器准确性:确保检索器始终检索到高度相关和准确的文档。
- 整合复杂性:将检索到的文档无缝整合到生成过程中,以提高回答质量而不引入噪声。
REALM通过有效结合检索机制与传统的语言建模技术,代表了语言模型预训练的重大进步。这种整合允许模型访问和利用外部知识库,提高了知识密集型任务的性能,并为自然语言理解提供了一个更可解释和模块化的框架。
10 RAPTOR(递归抽象处理树形检索)
RAPTOR通过构建文档的层次树结构来增强LLMs,使模型能够在不同抽象级别检索和整合信息。这种结构提高了信息检索的效率和上下文感知能力,解决了传统RAG方法的局限性,后者通常只检索语料库中的短且连续的片段。

机制
RAPTOR通过多步骤过程运作:
a.预处理:
- 嵌入:每个单元转换为密集向量嵌入,捕捉语义含义,便于高效相似性比较。
b.递归处理:
- 聚类:使用聚类算法将相似的文本单元组合在一起,组织相关信息以便更好地进行摘要。
- 模型基础摘要:一个LLM(例如GPT-3)为每个聚类生成简洁的摘要。
c.树构建:
- 层次嵌入:树中的每个节点都与自己的向量嵌入相关联,捕捉不同抽象级别的总结含义。
d.检索(推理):
- 树遍历检索:从根节点开始系统地探索树结构,根据查询相关性向下遍历分支。
- 折叠树检索:将树视为单层,直接将查询嵌入与所有叶节点和摘要节点进行比较,用于基于事实、关键词的查询。
优势
- 增强多步推理:RAPTOR通过在各个抽象级别访问信息,促进复杂推理,提高需要深入理解的任务的性能。
- 效率:层次检索通过关注相关分支减少计算负载,确保快速访问相关信息。
- 全面覆盖:平衡广泛的主题理解与细节,提供全面且精确的答案。
实施细节
- 层次树结构:启用分层检索,允许系统从广泛的主题缩小到具体细节。
- 递归摘要:确保树的每个级别都能准确代表信息层次结构,保持连贯性和相关性。
- 与LLMs的整合:RAPTOR可以与强大的LLMs(如GPT-4)结合,利用它们先进的生成能力与结构化检索相结合。
用例
- 复杂问答:处理需要理解多个相互关联主题的多方面问题。
- 数据分析报告:通过综合多个来源和抽象级别的信息生成详细报告。
- 学术研究:协助研究人员检索和总结不同主题和子主题的相关文献。
挑战
- 树维护:确保层次树与知识库中的新信息和变化保持最新。
- 摘要质量:保持高质量、准确的摘要,防止信息丢失或失真。
- 可扩展性:在不牺牲检索速度的情况下高效处理大规模文档和广泛的知识库。
RAPTOR通过构建递归树结构,平衡了广泛的主题理解与细节,代表了RAG技术的显著进步。这种层次方法允许在大型文本中进行更高效和上下文感知的信息检索,增强了模型处理复杂查询和多步推理任务的能力。
推荐书单
《大模型RAG实战:RAG原理、应用与系统构建》
这是一本全面讲解RAG技术原理、实战应用与系统构建的著作。作者结合自身丰富的实战经验,详细阐述了RAG的基础原理、核心组件、优缺点以及使用场景,同时探讨了RAG在大模型应用开发中的变革与潜力。书中不仅揭示了RAG技术背后的数学原理,还通过丰富的案例与代码实现,引导读者从理论走向实践,轻松掌握RAG系统的构建与优化。无论你是深度学习初学者,还是希望提升RAG应用技能的开发者,本书都将为你提供宝贵的参考与指导。 通过阅读本书,你将掌握以下知识:透彻理解RAG的召回和生成模块算法;高级RAG系统的技巧;RAG系统的各种训练方式方法;深入了解RAG的范式变迁;实战0基础搭建RAG系统;实战高级RAG系统微调与流程搭建