我要投稿

15种典型LLM+RAG框架大盘点

发布日期：2024-11-11 08:23:49 浏览次数： 2331 作者：沙丘社区

RAG（Retrieval-Augmented Generation，检索增强生成）通过结合检索和生成模型，提升输出结果的准确性，旨在减少大模型生成内容的“幻觉”问题。其核心思想是通过外挂知识库的方式给大模型提供更可靠的知识来抑制模型产生幻觉，并通过定期迭代知识库的方式解决大模型知识更新慢和训练成本高的难题。

在RAG出现以前，NLP任务主要依赖于基于检索的系统或基于生成的系统：

· 基于检索的系统：例如传统的信息检索引擎，能够高效地根据查询检索到相关的文档或片段，但无法生成新的信息或以连贯的表达方式呈现结果；

· 基于生成的系统：随着transformer架构的兴起，生成模型以其连贯性和创造力受到欢迎，但在事实准确性上有所欠缺。

检索系统和生成系统这两种方法之间的互补性，使得大家开始尝试检索和生成的混合系统，并逐渐演化至当前的RAG系统。

RAG很容易建立但难以优化，因为RAG框架中的大部分都可以进行定制，包括数据分割和处理、存储、嵌入、检索、重排和提示等。在实践RAG的过程中，企业会发现RAG走通很容易，但实际落地生产的难度非常大。企业可以建立一个很简单的RAG系统，处理少量文档的简单查询，但当系统规模超出一定范围时，就会面临性能明显下降等问题。

沙丘智库通过整理2023年以来RAG框架领域的15个代表工作，旨在帮助大家更好地理解和应用这项技术。

框架1：SFR-RAG

SFR-RAG是一种小 LLM，经过指令调整，重点是基于上下文的生成和幻觉最小化。实验结果表明，SFR-RAG-9B模型优于Command-R+(104B)和GPT-4o等领先基线，在 ContextualBench的7个基准中的3个基准以显著较少的参数取得了最先进的结果。该模型还能抵御上下文信息的改变，并在删除相关上下文时表现适当。此外，SFR-RAG模型在一般指令跟随任务和函数调用能力方面也保持了极具竞争力的性能。

框架2：LA-RAG

LA-RAG，是一种基于LLM的ASR的新型检索增强生成（RAG）范例。LA-RAG 利用细粒度标记级语音数据存储和语音到语音检索机制，通过 LLM 上下文学习 (ICL) 功能提高 ASR 准确性。在普通话和各种中国方言数据集上进行的实验表明，与现有方法相比，ASR准确率有了显著提高，验证了其方法的有效性，尤其是在处理口音变化方面。

框架3：NLLB-E5

NLLB-E5是一种多语言检索模型，利用零点方法支持印地语，而无需印地语训练数据。

NLLB-E5推出了一个可扩展的多语言检索模型，解决支持多语言，尤其是像印度语这样的低资源语言所面临的挑战。借助NLLB编码器和E5多语言检索器的蒸馏方法，NLLB-E5能够实现跨语言的零样本检索，无需多语言训练数据。在Hindi-BEIR等基准测试上的评估显示了其强大的性能，突显了任务特定的挑战，并推动了全球包容性的多语言信息获取。

框架4：MemoRAG

MemoRAG是一种由长期记忆支持的新型检索增强生成范例。MemoRAG采用双系统架构。一方面，它采用轻型但长程的LLM来形成数据库的全局记忆。一旦提出任务，它就会生成答案草稿，并将检索工具集群化，以便在数据库中找到有用的信息。另一方面，它利用昂贵但富有表现力的LLM，根据检索到的信息生成最终答案。在这一总体框架的基础上，其通过增强聚类机制和记忆能力，进一步优化了MemoRAG的性能。在实验中，MemoRAG在各种评估任务中都取得了优异的性能，包括传统RAG失效的复杂任务和RAG常用的简单任务。

框架5：HyPA-RAG

HyPA-RAG是为法律和政策量身定制的混合参数自适应RAG系统，以纽约市地方法律144（LL144）为例。HyPA-RAG使用查询复杂度分类器进行自适应参数调整，采用结合密集、稀疏和知识图谱方法的混合检索策略，以及具有特定问题类型和指标的评估框架。通过动态调整参数，HyPA-RAG显著提高了检索准确率和响应保真度。在LL144上进行的测试表明，其正确性、忠实性和上下文精确度都得到了提高，从而满足了复杂、高风险的人工智能法律和政策应用中对适应性强的NLP系统的需求。

框架6：MK Summary

构建从大量不同文档中有效合成信息的RAG系统仍然是一项重大挑战。该团队为LLM引入了一种新颖的以数据为中心的RAG工作流程，将传统的“检索-读取”系统转变为更先进的 “准备-重写-检索-读取”框架，以实现对知识库更高层次的领域专家级理解。该方法依赖于为每个文档生成元数据和合成问答（QA），以及为基于元数据的文档集群引入元知识摘要（MK Summary）的新概念。所提出的创新技术实现了个性化的用户查询增强和跨知识库的深度信息检索。其团队研究有两个重大贡献：使用 LLM作为评估者，并采用新的性能比较指标，证明：(1)使用合成问题匹配的增强查询明显优于依赖文档分块的传统RAG管道（p< 0.01）；(2)元知识增强查询还能显著提高检索精度和召回率，以及最终答案的广度、深度、相关性和特异性。其方法成本效益高，使用Claude 3 Haiku每2000篇研究论文的成本不到 20美元，而且可以对语言或嵌入模型进行任何微调，以进一步提高端到端RAG管道的性能。

框架7：CommunityKG-RAG

CommunityKG-RAG（社区知识图谱-检索增强生成）是一种新颖的框架，将知识图谱（KG）中的社区结构与RAG系统集成在一起，以增强事实检查过程。CommunityKG-RAG无需额外训练即可适应新领域和新查询，它利用知识图谱中社区结构的多跳特性，显著提高了信息检索的准确性和相关性。其团队实验结果表明，CommunityKG-RAG的性能优于传统方法，提供了一种稳健、可扩展和高效的解决方案，代表了事实检查领域的重大进步。

框架8：Self-Route

该团队对RAG和长上下文 LLM进行了全面比较，旨在充分利用两者的优势。团队使用三个最新的LLM在各种公共数据集上对RAG和长上下文进行基准测试。结果表明，在资源充足的情况下，长上下文LLM在平均性能方面始终优于RAG。然而，RAG显著降低成本仍然是一个明显的优势。基于这一观察，该团队提出了Self-Route，这是一种简单而有效的方法，它基于模型自我反思将查询路由到RAG或长上下文 LLM。Self-Route显著降低了计算成本，同时保持了与长上下文LLM相当的性能。

框架9：RULE

RULE是一个多模态RAG框架，旨在提升医学视觉-语言模型（Med-LVLM）的事实准确性。

RULE研发团队提出了由两部分组成的RULE。首先，引入了一种可证明的有效策略，通过校准选择检索语境的数量来控制事实性风险。其次，在过度依赖检索语境导致错误的样本基础上，策划了一个偏好数据集来对模型进行微调，平衡其对固有知识和检索语境生成的依赖。团队在三个数据集上展示了RULE在医疗VQA和报告生成任务中的有效性，事实准确率平均提高了47.4%。

框架10：METRAG

METRAG团队提出了一个多层级相似度增强型检索增强生成框架——MetRag，结合文档相似性和实用性来提升性能。首先，在现有的以相似性为导向的思想之外，引入了一个小规模的实用性模型，该模型从面向实用性思想的LLM中提取监督，并通过全面结合相似性和实用性思想，进一步提出了一个更智能的模型。此外，鉴于检索到的文档集往往非常庞大，孤立地使用它们很难捕捉到它们之间的共性和特性，METRAG团队建议将LLM作为任务自适应摘要器，赋予检索增强生成以紧凑性为导向的思想。最后，通过前几个阶段的多层次思考，LLM可用于知识增强生成。对知识密集型任务的大量实验证明了MetRag的优越性。

框架11：RAFT

RAFT团队提出了检索增强微调法（RAFT），这是一种训练方法，可提高模型在“开卷”领域设置中回答问题的能力。在RAFT中，给定一个问题和一组检索到的文档，团队训练模型忽略调那些干扰文档。RAFT通过逐字引用相关文档中有助于回答问题的正确序列来实现这一点。这与RAFT的思维链式响应相结合，有助于提高模型的推理能力。在特定领域的RAG中，RAFT持续提高了模型在PubMed、HotpotQA和Gorilla数据集上的性能，为改进预训练LLM的域内RAG提供了一种后训练方法。

框架12：RAPTOR

检索增强语言模型可以更好地适应世界状态的变化，并纳入长尾知识。然而，大多数现有方法只能从检索语料库中检索连续的短文本块，从而限制了对整个文档上下文的整体理解。该团队引入了一种对文本块进行递归嵌入、聚类和摘要的新方法，自下而上地构建一棵具有不同摘要级别的树。在推理时，RAPTOR模型从这棵树上进行检索，整合不同抽象程度的冗长文档信息。实验表明，与传统的检索增强LM相比，递归摘要检索在多项任务上都有显著改进。在涉及复杂、多步骤推理的问题解答任务中，其展示了最先进的结果；例如，通过将 RAPTOR检索与GPT-4的使用相结合，可以将QuALITY基准的最佳性能在绝对准确性上提高20%。

框架13：FILCO

对相关知识的即时检索已被证明是开放领域问题解答和事实验证等任务的基本要素。然而，由于检索系统并非完美无缺，因此需要生成模型来生成部分或完全不相关的段落输出。这可能会造成对上下文的过度依赖或依赖不足，并导致生成的输出出现幻觉等问题。为了缓解这些问题，该团队提出了FILCO方法，该方法可通过以下途径提高提供给生成器的上下文的质量：（1）基于词法和信息理论方法识别有用的上下文；（2）训练上下文过滤模型，该模型可在测试时过滤检索到的上下文。该团队使用FLAN-T5和LLaMa2对六项知识密集型任务进行了实验，结果表明其方法在抽取式问题解答(QA)、复杂的多跳和长格式问题解答、事实验证和对话生成任务方面优于现有方法。无论是否支持规范输出，FILCO都能有效提高上下文的质量。

框架14：FABULA

该团队介绍了一种检索增强生成（RAG）方法，通过检索知识图谱中的结构化信息来增强自回归解码器的提示功能，从而根据叙事情节模型生成有针对性的信息。该团队将这一方法应用于神经情报报告生成问题，并引入FABULA框架，利用RAG增强情报分析工作流程。分析人员可使用FABULA查询事件情节图(EPG)，以检索相关事件情节点，这些情节点可用于增强情报报告生成过程中的大语言模型(LLM)提示。该团队的评估研究表明，生成的情报报告中包含的情节点具有高语义相关性、高一致性和低数据冗余性。

框架15：Self-RAG

“自我反思检索-增强生成”（Self-RAG）框架，通过检索和自我反思来提高LM的质量和事实性。其框架训练一个单一的任意LM，该LM可按需自适应性地检索段落，并使用特殊标记（称为反思标记）生成和反思检索到的段落及其自身的生成。反思标记的生成使 LM 在推理阶段具有可控性，使其能够根据不同的任务要求调整自己的行为。实验结果表明，Self-RAG（7B和13B参数）在各种任务中的表现明显优于最先进的LLM和检索增强模型。具体来说，在开放域质量保证、推理和事实验证任务上，Self-RAG的表现优于ChatGPT和检索增强的Llama2-chat，而且与这些模型相比，在提高长篇文章的事实性和引用准确性方面也有显著提高。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业