我要投稿

欢迎提出优化建议部分读者反馈：

发布日期：2024-04-26 07:58:57 浏览次数： 1983 作者：子非AI

检索增强生成（RAG）将检索方法与深度学习的进步相结合，以解决大型语言模型（LLMs）的静态局限性，通过动态集成最新的外部信息。这种以文本领域为主的方法提供了一种成本效益的解决方案，用于生成LLMs可能产生的合理但不正确的回应，从而通过使用现实世界数据提高其输出的准确性和可靠性。随着RAG变得越来越复杂，并融入多个可能影响其性能的概念，来自约克大学的最新综述《A Survey on Retrieval-Augmented Text Generation for Large Language Models》将RAG范式组织为四个类别：预检索、检索、后检索和生成，提供了从检索视角的详细观点。它概述了RAG的演变，并通过分析重要研究讨论了该领域的进展。此外，本文介绍了RAG的评估方法，解决了所面临的挑战，并提出了未来的研究方向。通过提供一个有组织的框架和分类，研究旨在巩固对RAG的现有研究，阐明其技术基础，并突出其潜力，以扩大LLMs的适应性和应用。

ChatGPT的横空出世引发了全球对人工智能的热议，其强大的对话能力和广泛的应用场景，让大型语言模型（Large Language Models, LLMs）成为了人工智能领域最耀眼的明星。然而，LLMs也存在着自身的局限性，例如知识局限和“幻觉”问题，限制了其进一步发展。检索增强生成技术（Retrieval-Augmented Generation, RAG）为LLMs带来了新的突破，它通过为LLMs添加“记忆外挂”，让AI能够动态获取外部知识，从而变得更加智能。

LLMs面临的挑战

•知识局限: LLMs的知识来源于其训练数据集，而训练数据集是静态的，无法实时更新。这导致LLMs的知识存在滞后性，并且在处理专业领域问题时，往往缺乏足够的知识储备。例如，一个在2022年训练的LLM可能无法回答关于2023年发生的事件的问题。此外，即使是对于通用知识，LLMs也可能因为训练数据的不完整性而存在盲区。

•“幻觉”问题: LLMs有时会生成看似合理但实际错误的文本，这种现象被称为“幻觉”。“幻觉”问题会误导用户，降低LLMs的可信度，限制其在实际场景中的应用。例如，一个LLM可能会生成一篇关于某个不存在的科学发现的新闻报道，或者编造一段历史上从未发生过的事件。

RAG技术框架

RAG技术通过检索外部数据源，为LLMs提供最新的知识，并有效解决“幻觉”问题，提升LLMs的智能水平。RAG框架主要包含四个阶段：预检索、检索（Retrieval）、后检索和生成（Generation）。

基本工作流程：索引（Indexing）、检索（Retrieval）、生成（Generation）

•索引（Indexing）: 首先，需要对外部数据源进行预处理，构建索引，以便快速检索相关信息。这类似于图书馆的图书分类系统，可以帮助我们快速找到需要的书籍。

•检索（Retrieval）: 当用户输入查询时，RAG系统会使用检索模型从索引中搜索与查询相关的文档，并按照相关性进行排序。常用的检索模型包括BM25、DPR等。

•生成（Generation）: 最后，RAG系统会将检索到的信息与用户查询结合，生成符合用户需求的文本内容。这个过程类似于我们阅读书籍后进行总结和归纳，并将自己的理解表达出来。

RAG范式：预检索、检索（Retrieval）、后检索、生成（Generation）

RAG范式将基本工作流程进一步细化，分为四个阶段：

•预检索:

◦索引构建（Indexing）: 对外部数据源进行预处理，构建索引，以便快速检索相关信息。例如，将文本数据进行分词、去除停用词等处理，并建立倒排索引。

◦查询操作: 对用户查询进行分析和处理，例如改写查询、扩展查询等，以提高检索效率和准确性。例如，将用户的自然语言查询转换为关键词查询，或者根据同义词扩展查询范围。

◦数据修改: 对外部数据进行预处理，例如去除冗余信息、添加元数据等，以提升检索结果的质量。例如，去除重复的文档，或者为文档添加主题标签。

•检索（Retrieval）: 使用检索模型从索引中搜索与查询相关的文档，常用的检索模型包括BM25、DPR等。BM25是一种基于词频统计的检索模型，而DPR是一种基于深度学习的检索模型，能够更好地理解语义信息。

•后检索:

◦重新排序（Re-Ranking）: 基于更多信息对检索结果进行排序，例如使用LLMs对文档进行打分，进一步提高排序的准确性。例如，使用LLM判断文档与查询的相关性，并根据相关性进行排序。

◦过滤: 去除不相关或低质量的文档，确保生成内容的质量。例如，去除与查询主题不相关的文档，或者去除包含虚假信息的文档。

•生成（Generation）:

◦信息增强: 将检索到的信息与用户查询结合，生成符合用户需求的文本内容。例如，将检索到的信息作为LLM的输入，让LLM根据这些信息生成文本。

◦定制化: 根据用户偏好或应用场景调整生成内容的风格、长度等。例如，根据用户的指令生成不同风格的文本，或者根据应用场景生成不同长度的文本。

预检索阶段

预检索阶段的目标是为高效检索建立数据索引，并对用户查询和外部数据进行预处理，以提升检索结果的质量。

索引构建（Indexing）

索引构建（Indexing）是将外部数据源转化为可快速检索的形式的过程。这类似于图书馆的图书分类系统，将书籍按照主题、作者等信息进行分类，方便读者快速找到需要的书籍。在RAG系统中，索引构建通常使用倒排索引等技术，将文本数据进行分词、去除停用词等处理，并建立关键词与文档之间的对应关系。

查询操作

查询操作是对用户查询进行分析和处理的过程，目的是提高检索效率和准确性。这类似于我们在图书馆检索书籍时，会根据书籍的主题、作者等信息进行关键词搜索，而不是直接输入整本书的名称。在RAG系统中，查询操作通常包括查询改写、查询扩展等技术，例如将用户的自然语言查询转换为关键词查询，或者根据同义词扩展查询范围。

数据修改

数据修改是对外部数据进行预处理的过程，目的是提升检索结果的质量。这类似于图书馆在整理书籍时，会去除破损的书籍，或者为书籍添加标签，方便读者找到需要的书籍。在RAG系统中，数据修改通常包括去除冗余信息、添加元数据等技术，例如去除重复的文档，或者为文档添加主题标签。

检索（Retrieval）阶段

检索（Retrieval）阶段的目标是根据用户查询，从索引中搜索并排序相关的文档。

搜索与排序

搜索与排序是RAG系统的核心功能，其目标是根据用户查询，从索引中找到最相关的文档，并按照相关性进行排序。常用的检索模型包括BM25、DPR等。BM25是一种基于词频统计的检索模型，而DPR是一种基于深度学习的检索模型，能够更好地理解语义信息。

后检索阶段

后检索阶段的目标是进一步优化检索结果，确保生成内容的质量。

重新排序（Re-Ranking）

重新排序（Re-Ranking）是基于更多信息对检索结果进行排序的过程，例如使用LLMs对文档进行打分，进一步提高排序的准确性。例如，使用LLM判断文档与查询的相关性，并根据相关性进行排序。

过滤

过滤是去除不相关或低质量的文档的过程，确保生成内容的质量。例如，去除与查询主题不相关的文档，或者去除包含虚假信息的文档。

生成（Generation）阶段

生成（Generation）阶段的目标是将检索到的信息与用户查询结合，生成符合用户需求的文本内容，并根据用户偏好或应用场景进行定制化。

信息增强

信息增强是将检索到的信息与用户查询结合，生成符合用户需求的文本内容的过程。例如，将检索到的信息作为LLM的输入，让LLM根据这些信息生成文本。

定制化

定制化是根据用户偏好或应用场景调整生成内容的风格、长度等的过程。例如，根据用户的指令生成不同风格的文本，或者根据应用场景生成不同长度的文本。

RAG研究现状

现有研究的综合概述

当前RAG研究主要集中在如何提高检索（Retrieval）阶段的效率和准确性，以及如何更好地将检索到的信息与LLMs结合，生成高质量的文本内容。多跳检索和多模态RAG是当前研究的热点方向。

•多跳检索: 多跳检索是指在检索过程中进行多次检索，每次检索都根据上一次检索的结果进行调整，以找到更相关的文档。例如，第一次检索可以根据用户的关键词找到相关的文档，第二次检索可以根据第一次检索到的文档中的关键词进行扩展，找到更相关的文档。

•多模态RAG: 多模态RAG是指将RAG技术扩展到多模态领域，例如图像描述、文图生成、文本生成语音等。多模态RAG需要融合文本、图像、语音等多种模态信息，并开发相应的检索和生成模型，才能实现不同模态信息的有效转换和生成。

检索器与生成器的选择

•检索模型: 传统的BM25算法仍然是RAG研究中常用的检索模型，但基于预训练语言模型的检索方法，例如DPR、Contriever等，由于能够更好地理解语义信息，具有更大的潜力，未来有望取代BM25。

•生成模型: T5、BART等LLMs被广泛应用于RAG的生成（Generation）阶段，而BERT、Transformer等基础模型较少使用。这是因为LLMs在文本生成方面具有更强的能力，能够生成更流畅、更符合语法规则的文本内容。

RAG评估方法

RAG的评估方法主要分为检索评估和生成评估两个方面。

检索评估

检索评估主要评估检索结果的相关性和准确性，常用的指标包括：

•准确率: 评估检索到的文档中包含正确信息的比例。

•拒绝率: 评估系统在没有找到相关信息时拒绝回答的比例。

•错误检测率: 评估系统识别并去除错误或误导性信息的比例。

•上下文相关性: 评估检索到的文档与查询的上下文相关程度。

•真实性: 评估生成内容是否准确反映了检索到的信息，是否存在虚假信息。

生成评估

生成评估主要评估生成文本的质量、流畅度和与事实的一致性，常用的指标包括：

•BLEU: 评估生成文本与参考文本的相似程度。

•ROUGE-L: 评估生成文本与参考文本在最长公共子序列上的重叠程度。

•EM: 评估生成文本与参考文本完全一致的比例。

•F1分数: 综合评估生成文本的准确率和召回率。

•误导率: 评估生成文本包含虚假信息的比例。

•错误重现率: 评估生成文本中重复出现错误的比例。

未来发展方向

RAG技术在未来有广阔的发展空间，以下是一些重要的研究方向：

•提升检索（Retrieval）质量: 网络上存在大量的虚假信息和不可靠信息，如何有效地识别和过滤这些信息，是提升RAG系统性能的关键。未来需要开发更强大的检索模型，能够更好地理解语义信息，并结合知识图谱等技术，提高检索结果的准确性和可靠性。

•多模态RAG: 将RAG技术扩展到多模态领域，例如图像描述、文图生成、文本生成语音等，是未来重要的研究方向。多模态RAG需要融合文本、图像、语音等多种模态信息，并开发相应的检索和生成模型，才能实现不同模态信息的有效转换和生成。

结论

RAG技术为LLMs带来了新的突破，让AI能够动态获取外部知识，突破自身局限，变得更加智能。随着RAG技术的不断发展，LLMs将在更多领域发挥更大的作用，推动人工智能迈向更加美好的未来。

论文原文：https://arxiv.org/pdf/2404.10981.pdf

检索增强生成技术：突破LLMs局限，赋能AI智能

导读摘要：

大型语言模型（LLMs）在自然语言处理领域取得了巨大进展，但仍存在知识局限和“幻觉”问题。检索增强生成技术（RAG）通过为LLMs引入外部知识，有效解决了这些问题，显著提升了LLMs的智能水平。

本文介绍了RAG技术的原理、框架、研究现状、评估方法和未来发展方向，并分析了RAG技术对人工智能的意义。

文章亮点：

深入剖析RAG技术原理，阐述其如何突破LLMs局限。
全面总结RAG技术的研究现状，包括检索、生成、评估等方面。
展望RAG技术的未来发展方向，并探讨其对人工智能的潜在影响。

适合读者：

关注人工智能技术发展的人士
自然语言处理领域的研究人员和工程师
对RAG技术感兴趣的广大读者

欢迎提出优化建议部分读者反馈：

在摘要中可以添加一些数据或案例，以更直观地体现RAG技术的优势。
文章的结构可以进一步优化，例如可以将“RAG研究现状”拆分为多个小节，分别介绍检索、生成、评估等方面的研究进展。
可以考虑添加一些图表或图片，以更好地说明RAG技术的原理和应用。

希望我的文章对您有所帮助。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业