我要投稿

智能升级：检索增强生成（RAG）技术如何为AI大语言模型（LLMs）注入新的活力？

发布日期：2024-06-02 19:34:08 浏览次数： 2734 作者：李福东频道

检索增强生成（RAG）是一种生成式AI框架，通过利用源自企业的相关数据来提高大型语言模型（LLMs）的准确性和可靠性。

企业试图利用生成式AI和大语言模型（LLMs）创造价值时，基于组织私有信息和数据自动生成可靠的响应仍然是一个难以实现的目标。

显然，像机器翻译和摘要生成这样的技术可以打破语言障碍，促成一些令人满意的交互，但从整体来看，生成准确且可靠的回答仍是一个重大挑战。

缘起：大语言模型（LLMs）难以提供可靠的回答

传统的文本生成模型，通常是基于编码器/解码器架构，能够翻译语言、以不同风格回应，并回答简单的问题。

但由于这些模型依赖于训练数据中的统计模式，它们有时会提供错误或不相关的信息，这种现象被称为“幻觉”。

生成式AI利用了大型语言模型（LLMs），这些模型是在大量公开可用（互联网）信息上进行训练的。少数几个大语言模型供应商（如OpenAI、谷歌、Meta）由于高昂的成本和时间投入，无法频繁地重新训练他们的模型。

由于LLMs使用的是截至特定时间和日期的公共数据，因此它们永远不是最新的——并且无法访问存储在组织中的高度有价值的私人数据。

检索增强生成（RAG）是一项新兴的生成式AI技术，旨在解决这些限制。

一个完整的RAG方案，既能从企业系统中检索结构化数据，也能从知识库中检索非结构化数据，可以将实时、多源的业务数据转化为智能的、上下文感知的、合规的提示，减少生成式AI的幻觉，提升生成式AI应用的有效性和可信度。

本文主要内容如下：

一、什么是检索增强生成（RAG）？

二、检索增强生成（RAG）面临的挑战

三、检索增强生成（RAG）的应用场景

四、检索增强生成（RAG）的优势

五、检索增强生成（RAG）实施建议

六、检索增强生成（RAG）的检索流程

七、通过语义搜索进行文档检索

八、企业数据的实时检索

九、聊天机器人，让RAG自然切入

十、检索增强生成（RAG）未来展望

一、什么是检索增强生成（RAG）？

检索增强生成（RAG）是一种生成式AI（GenAI）框架，通过从权威的内部知识库和企业系统中检索新鲜、可信的数据来增强大型语言模型（LLM），从而生成更加明智和可靠的响应。

“RAG”这一缩写源自2020年Facebook AI Research（现为Meta AI）提交的出版物《面向知识密集型任务的检索增强生成》。该论文将RAG描述为“一种通用的微调配方”，因为它旨在将任何LLM与任何内部数据源连接起来。

顾名思义，检索增强生成在响应生成过程中插入了一个数据检索组件，以增强答案的相关性和可靠性。

检索模型根据用户的查询，访问、选择并优先处理来自适当来源的最相关信息和数据，将其转换为丰富、上下文相关的提示，并通过其API调用LLM。LLM则以准确连贯的方式回应用户。

图1 检索增强生成（RAG）设计模式

检索增强生成（RAG）框架工作流程如下：

1. 用户输入提示词，触发数据检索模型按需访问公司的内部资源。

2. 检索模型查询公司内部资源，以获取来自企业系统的结构化数据及知识库中的非结构化数据（如文档）。

3. 检索模型构建一个富化的提示词，即在用户的原始提示中加入额外的场景化信息，并将其作为输入传递给生成模型（LLM API）。

4. LLM利用增强后的提示生成更准确、更相关的响应，然后提供给用户。

整个过程必须在1秒内完成！

一个常见的RAG类比是法庭场景，法官通常依赖法律书籍库。但为了做出明智的决定，法官会就特别狭窄的话题咨询专家顾问。在这个例子中，法官的知识和图书馆相当于LLM，而专家顾问则是检索模型。

这个类比也恰当地展示了每个角色的相对地位和位置。

LLM（法官和图书馆）在范围上远超检索模型（顾问）——想象LLM中包含的信息巨量犹如庞大的干草堆，而RAG“挖掘出”的则是宝贵的针。在角色上，虽然会咨询RAG，但LLM始终是最终的决策者。

二、检索增强生成（RAG）面临的挑战

组织通常将其内部流程、程序和运营的文档存储在线上线下，业务数据分散在几十个企业系统中，如Billing、CRM、ERP、SCM等。

RAG将直接从公司内部来源（文档数据库中的文档和企业系统中的数据）检索到的新鲜可信数据整合到生成过程中。

因此，大型语言模型（LLM）不仅依赖其公开、静态且过时的知识库，还主动从公司自身的来源中采集相关信息以生成更有根据、更相关的输出。

RAG 模型本质上是将大型语言模型（LLM）与组织的最新信息和数据相结合，从而产生更准确、可靠和相关的响应。

然而，RAG面临如下挑战：

- RAG依赖于全企业的数据检索。不仅要维护最新和准确的信息及数据，还要有准确的元数据来描述你的数据供RAG框架使用。

- 存储在内部知识库和企业系统中的信息和数据必须为RAG就绪。可访问、可搜索、高质量。例如，如果你有1亿条客户记录，是否能在不到一秒内访问并整合所有名为“李福东”的详细信息？

- 为了生成智能的上下文提示，你需要先进的提示词（Prompt）工程能力，包括链式思维提示，以便将相关数据注入LLM中，生成最准确的响应。

- 为了确保数据的隐私和安全，你必须限制LLM仅能访问授权数据。如前面示例，这意味着只能访问“李福东”的数据，而不能访问其他人的数据。

三、检索增强生成（RAG）的应用场景

尽管存在这些挑战，RAG仍然是生成式AI领域的一大进步。它利用最新内部数据的能力解决了传统生成模型的局限性，通过提供更个性化和可靠的交流体验改善了用户体验。

RAG已经在多个生成式AI领域创造价值，包括客户服务、IT服务管理、销售与市场营销以及法律和合规等。

检索增强生成应用场景如下：

RAG在企业中的应用场景跨越多个领域，如表1所示：

表1：RAG的应用场景

部门	目标	RAG数据范围
客服	根据客户的精确需求、行为、状态和偏好个性化聊天机器人响应，以更有效地回应	订单/支付历史 - 客户状态 - 合同状态 - 网络告警 - 下一问题或相关问题 - 呼叫路由工作流程 - 代理脚本 - 呼叫历史与首次接触解决 - 客户反馈历史
市场销售	通过聊天机器人或销售顾问与潜在客户互动，描述产品并提供建议	- 产品文档 - 产品规格 - 客户档案和人口统计 - 客户偏好和购买历史 - 针对性用户画像和行为偏好 - 营销活动
合规	回应客户的个人数据访问请求	- 行业标准和州法规 - 存储在企业系统中的个人客户数据 - 内部审批程序
风险	识别客户的欺诈行为	- 公司之前检测到的欺诈行为及相关数据 - 实时客户交易和活动数据

四、检索增强生成（RAG）的优势

对于生成式AI来说，数据就是差异化因素。通过部署RAG，你的组织可以受益于：

1. 更快的价值实现速度，更低的成本

训练LLM耗时长且成本高。RAG提供了一种更快捷、更经济的方式来向LLM引入新数据，使生成式AI在面向客户的操作和后台办公中变得可行和可靠。

2. 用户交互个性化

RAG通过整合特定的客户360数据与LLM广泛的通用知识，通过聊天机器人和客户服务代理个性化用户交互，实时提供针对客户的下一步最佳行动、交叉销售和向上销售建议。

3. 提升用户信任

RAG驱动的LLMs通过结合数据准确性、新鲜度和相关性，为特定用户提供可靠信息。用户信任保护甚至提升你的品牌形象。

4. 提升用户体验并降低客服成本

基于客户数据的聊天机器人提升用户体验并降低客服成本，通过提高首次接触解决率并减少总体服务呼叫数量。

五、检索增强生成（RAG）实施建议

在2023年12月Gartner发布的《新兴技术影响雷达：对话式人工智能》报告中，Gartner估计，考虑到RAG落地实施的复杂性，企业广泛采用RAG还需几年的时间，需要RAG能够做到：

- 将生成式AI应用于自助客户服务机制，如聊天机器人

- 保持敏感数据不被未经授权的人看到

- 结合洞察引擎与知识库运行搜索检索功能

- 对企业数据和文档进行索引、嵌入、预处理和/或图形化

- 构建并集成检索管道至应用程序中。

以上所有对企业来说都是挑战，原因在于技能缺口、数据分散、所有权问题和技术限制。

随着供应商开始提供数据上载工具、知识库激活工作流程以及用于RAG应用程序设计的组件（包括对话式AI聊天机器人），企业将更积极地支持生成式AI应用的落地。

Gartner在2024年1月的报告《快速解答：如何用内部数据补充大型语言模型》中，对准备采用RAG的企业建议如下：

1. 选择一个商业价值可清晰衡量的试点应用场景。

2. 对用例数据进行分类，分为结构化、半结构化或非结构化，以决定处理数据的最佳方式并减轻风险。

3. 获取尽可能多的元数据，因为它们为RAG部署提供了上下文，并为选择启用技术奠定了基础。

Forrester在其2024年1月的文章《架构师：投身生成式AI》中声称，对于专注于RAG的架构，网关、管道和服务层最为有效。因此，如果你考虑实施生成式AI应用，请确保它们：

- 在两端设有意图和治理网关

- 通过可以设计和治理提示的管道流动

- 通过RAG实现落地

六、检索增强生成（RAG）的检索流程

RAG（检索增强生成）的生命周循环：基于大型语言模型（LLM），从数据源到最终输出。

LLM是一种基础机器学习（ML）模型，使用深度学习算法处理并生成自然语言。它在大量文本数据上进行训练，以学习复杂的语言模式和关系，并执行相关任务，如文本生成、摘要、翻译、问答等。

这些模型在大量多样化的数据集上进行预训练，以学习语言的细微之处，并可以针对特定应用或任务进行微调。

"大型"这个词实际上有点保守，因为这些模型可能包含数十亿个数据点。例如，据报道ChatGPT的第4个版本拥有超过一万亿个数据点。

RAG执行检索和生成模型的五个关键步骤：

1. 数据寻源

任何RAG系统的起点都是从内部文本文档和企业系统中搜集数据。源数据由检索模型查询（如果为结构化数据）和搜索（如果为非结构化数据），以识别并收集相关信息。为了确保准确、多样和可信的数据源搜集，你必须维护准确且最新的元数据，并管理和最小化数据冗余。

2. 准备企业数据以供检索

企业必须组织其多源数据和元数据，以便RAG能够实时访问。例如，你的客户数据，包括主数据（客户的唯一标识属性）、交易数据（如服务请求、购买、付款和发票）以及交互数据（电子邮件、聊天、通话记录），必须被整合、统一并组织起来以实现实时检索。

根据用例的不同，你可能需要按照其他业务实体（如员工、产品、供应商或任何与你的用例相关的其他内容）来安排你的数据。

3. 为检索准备文档

像文本文档这样的非结构化数据必须被分割成更小、易于管理的相关信息块，这一过程称为“分块”。

有效的分块可以提高检索性能和准确性。例如，一个文档本身可能就是一个块，但它也可以进一步细分为章节、段落、句子甚至单词。分块也使得检索器成本更低，只需将文档的相关部分包含在LLM的提示中，而不是整个文档。

接下来，文本块必须转换为向量，以便存储在向量数据库中，以实现高效的语义搜索。这个过程称为“嵌入（embedding）”，通过应用基于LLM的嵌入模型来实现。嵌入被链接回源，以创建更准确和有意义的响应。

4. 保护数据

RAG框架必须采用基于角色的访问控制，防止用户获得超出其分配角色的问题答案。例如，服务于特定客户群体的客户服务代表可能被阻止访问不属于他们群体的客户数据；同样，营销人员可能无法访问某些机密的财务数据。

此外，RAG检索到的任何敏感数据，如个人身份信息，一定不能被未经授权的用户访问，比如销售人员访问信用卡信息，或服务代理访问社会保险号。

RAG解决方案必须采用动态数据掩码来保护数据，以符合数据隐私法规。

5. 从企业数据中构建提示

在企业应用数据被检索后，检索增强生成过程通过构建从检索到的360度数据的“故事（story）”来生成丰富提示。提示工程需要有一个持续的调整过程，理想情况下由机器学习（ML）模型辅助，并利用先进的链式思维提示技术。

备注：链式思维提示技术（Chain-of-Thought Prompting）是一种在大型语言模型（LLM）中引导其思考过程的方法。通过这种技术，模型可以逐步解决复杂问题，而不是一次性给出最终答案。这种方法有助于提高模型在处理需要逻辑推理和分步骤解答的问题时的表现。

例如，我们可以让LLM反思它已经拥有的数据，并让我们知道还需要什么额外数据，用户是否完成了对话等。

七、通过语义搜索进行文档检索

当RAG从知识库中向LLM注入非结构化数据（如文章、手册和其他文档）时，通常使用语义搜索。语义搜索是一种嵌入在向量数据库中的搜索技术，试图理解搜索查询和网页内容中使用的词语的含义。就RAG而言，这仅与文档相关。

传统的搜索专注于关键词。

例如，一个关于中国云南野生亚洲象的基本查询可能会使用关键词“亚洲象”和“云南”扫描搜索数据库并找到包含两者的数据。但系统可能并不真正理解“云南的亚洲象”之意，从而检索过多、过少或甚至是错误的信息。

同样的搜索也可能因为过于字面理解关键词而错过信息：例如，即使亚洲象在云南，但由于缺少关键词“西双版纳”，位于西双版纳自然保护区的亚洲象可能被忽略。

语义搜索通过理解问题的意图并相应地回答问题，超越了关键词搜索。这对于文档检索至关重要。

今天的企业在各种各样的系统中存储了大量的信息，如客户服务指南、FAQ、人力资源文档、手册和研究报告。然而，基于关键词的检索在大规模应用中具有挑战性，可能会降低生成响应的质量。

传统的关键字搜索解决方案在处理知识密集型任务时产生的结果有限。开发人员在准备数据时，还必须处理词嵌入、数据子集划分等复杂性。

相比之下，语义搜索通过生成语义相关的段落和按相关性排序的信息来自动化这一过程，从而最大化 RAG（检索-生成）响应的质量。

八、企业数据的实时检索

RAG访问企业应用数据的需求在需要实时个性化、准确响应的面向客户用例中尤为重要。

包括客户服务代理接听服务电话，或对话式AI机器人在公司门户上为已认证用户提供自助技术支持等用例场景。

这些场景所需的数据通常存在于CRM、计费和工单系统等企业系统中。需要对相关业务实体（无论是客户、员工、供应商、产品、贷款等）进行实时的360度视图。为此，你需要按照与你的用例相关的业务实体来组织你的企业数据。

但是，定位、访问、整合并在实时中统一企业数据，然后用它来支撑LLM的过程极其复杂，因为：

1. 企业数据通常分散在许多不同的应用中，具有不同的数据库和结构，以及格式。

2. 为一个实体（例如，单一客户）实时查询和统一相关数据通常需要高复杂度和高成本的数据管理。

3. 支持高规模同时保持低延迟增加了进一步的复杂性。

4. 检索的数据每次都必须是新鲜的。

5. 为了确保隐私和安全，你的LLM只能访问用户被授权查看的数据。

九、聊天机器人，让RAG自然切入

当客户需要快速回答一个问题时，RAG 聊天机器人可以非常有帮助。问题在于大多数机器人只接受有限数量的意图（或问题/答案组合）训练，并且缺乏上下文理解，这意味着它们会对不同的用户给出相同的回答。

因此，它们的响应往往效果不佳，从而使其实用性受到质疑。

RAG可以通过赋予LLM能力，回答不在意图列表上的问题，并且是与用户相关的，为的是让传统机器人变得更聪明。

例如，如果一位航空公司的白金常旅客询问能否根据累积的里程升级某个航班座位，而聊天机器人最终回答“请联系常旅客支持”，这样的回答就不会很有帮助。

但是，一旦RAG增强了航空公司的LLM，包含了该特定用户的数据集，就可以生成更加上下文相关的响应，比如：“李先生，您有10万公里可供支配。对于CA1234航班，从北京飞往成都，2024年11月5日晚上7点出发，您可以使用3万公里升至商务舱，或9万英里升至头等舱。您想如何操作？”

能力提升的是不是很大，很实用？

问答式的聊天互动使 RAG 聊天机器人成为理想的试点用例，因为理解问题的上下文以及用户的上下文，会带来更准确、相关和令人满意的回答。

事实上，服务和销售人员使用的聊天机器人是基于RAG的生成式AI应用的自然切入点。

十、检索增强生成（RAG）未来展望

许多公司正在内部用户（如客服代理）上尝试使用RAG聊天机器人，因为他们不愿意在生产环境中使用，主要是因为围绕幻觉、隐私和安全的问题。随着它们变得更加可靠，这种趋势将会改变。

事实上，新的RAG生成式AI用例正不断涌现，例如：

- 股票投资者希望查看上个季度被收取的佣金

- 医院患者想要对比他收到的药物和支付的费用

- 电信用户选择一个新的互联网-电视-电话套餐，因为旧套餐即将到期

- 车主请求三年的保险索赔历史以降低年保费

这些实例展示了RAG如何在各种行业和场景中提供定制化的、即时的信息处理和决策支持，从而提高客户满意度和企业效率。

随着技术的进步和企业对其能力的信任增长，预计RAG将在未来几年内在更多领域发挥重要作用。

如今，RAG AI主要用于通过聊天机器人、电子邮件、短信和其他会话式AI应用程序提供准确、贴合情境和及时的答案。

未来，RAG AI可能会被用来根据情境信息和用户提示建议适当的行动。

例如，如果现在的RAG生成式AI被用于告知军队退伍军人有关高等教育报销政策的信息，将来它可能会列出附近的大学，甚至根据申请者的先前经验和军事训练推荐课程项目。它甚至能够自动生成报销请求。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业