我要投稿

什么是检索增强生成（Retrieval-Augmented Generation）

发布日期：2024-06-08 06:50:28 浏览次数： 1716

要理解生成式人工智能的最新进展，想象一个法庭，法官根据对法律的一般理解来听取并判决案件。有时候一个案件——比如医疗过失诉讼或劳资纠纷——需要特殊专长，所以法官派法院书记员去法律图书馆查阅先例和可以引用的具体案件。像一位良好的法官一样，大型语言模型(LLM)可以回答各种各样的人类查询。但是要提供可引用来源的权威答复，模型需要一个助手来做一些研究工作。人工智能的"法院书记员"就是一个叫做检索增强生成(RAG)的过程。

它是如何被命名为"RAG"的？

2020 年发表提出该术语的论文的主要作者帕特里克·刘易斯，为这个现在描述了成百上千篇论文和数十种商业服务中的一大家族方法的不太优雅的缩写道歉。他认为这代表了生成式人工智能的未来。"如果我们知道自己的工作会变得如此广泛流行，我们肯定会更加深思熟虑地给它命名。"刘易斯在新加坡接受采访时说,当时他正在一个数据库开发者的地区会议上分享他的想法。"我们一直计划给它一个更好听的名字，但是当写论文的时候，没有人想出更好的主意。"现在在人工智能初创公司 Cohere 领导 RAG 团队的刘易斯说。那么，检索增强生成(RAG)是什么呢?检索增强生成(RAG)是一种通过从外部来源获取事实来增强生成式人工智能模型的准确性和可靠性的技术。换句话说，它填补了大型语言模型工作方式的一个空白。在引擎盖下，大型语言模型是神经网络，通常用包含的参数数量来衡量。一个大型语言模型的参数本质上代表了人类使用词语构成句子的一般模式。这种深层的理解,有时被称为参数化知识，使得大型语言模型能够以惊人的速度对一般的提示做出有用的响应。然而，它无法满足那些想要对当前或更加具体话题进行深入探讨的用户。

**结合内部和外部资源**

-----------------------------

刘易斯和同事开发了检索增强生成,将生成式人工智能服务与外部资源(特别是那些富含最新技术细节的资源)联系起来。这篇论文的合著者来自前Facebook 人工智能研究院(现为 Meta AI)、伦敦大学学院和纽约大学，他们称检索增强生成是"一种通用的微调配方"，因为它几乎可以被任何大型语言模型用来连接任何外部资源。

**建立用户信任**

----------------------

检索增强生成为模型提供了可以引用的来源，就像研究论文中的脚注一样，因此用户可以核查任何陈述。这建立了信任。更重要的是，这项技术可以帮助模型澄清用户查询中的歧义。它还减少了模型猜错的可能性，这种现象有时被称为"hallucination"(幻觉)。检索增强生成的另一个巨大优势是它相对容易实现。刘易斯和三位论文合著者在一篇博客中说，开发人员只需5行代码就可以实现这一过程。这使得该方法比重新训练模型并添加额外数据集更快、更便宜。它还允许用户实时热插拔新的来源。

**人们如何使用RAG**

-------------------

通过检索增强生成,用户基本上可以与数据仓库对话，开启全新的体验。这意味着 RAG 的应用可能是现有数据集数量的多倍。例如，用医学索引补充的生成式 AI 模型可以成为医生或护士的绝佳助手。金融分析师也可以从链接市场数据的助理中获益。事实上,几乎任何企业都可以将其技术或政策手册、视频或日志转化为所谓的知识库资源，来增强大型语言模型。这些来源可以支持客户或现场支持、员工培训和开发人员生产力等用例。由于广阔的潜力,包括AWS、IBM、Glean、Google、Microsoft、NVIDIA、Oracle 和 Pinecone 在内的公司都在采用 RAG。

**开始使用检索增强生成**

为了帮助用户入门，NVIDIA 开发了一个用于检索增强生成的人工智能工作流程。它包括一个示例聊天机器人和用户创建自己应用程序所需的各种元素。该工作流程使用了 NVIDIA NeMo，这是一个用于开发和定制生成式人工智能模型的框架，以及 NVIDIA Triton Inference Server 和 NVIDIA TensorRT-LLM 等软件，用于在生产环境中运行生成式 AI 模型。所有这些软件组件都是 NVIDIA AI Enterprise 的一部分,这是一个软件平台，可以使用企业所需的安全性、支持和稳定性来加速生产就绪 AI 的开发和部署。为 RAG 工作流程获得最佳性能需要大量内存和计算能力来移动和处理数据。NVIDIA GH200 Grace Hopper Superchip 凭借其 288 GB 的高速 HBM3e 内存和 8 petaflops 的计算能力是理想之选——它可以比使用 CPU 提速 150 倍。一旦公司熟悉了 RAG，他们就可以将各种现成或定制的大型语言模型与内部或外部知识库相结合，创建各种各样的助手，为员工和客户提供帮助。RAG 不需要数据中心。由于 NVIDIA 软件的支持，大型语言模型正在 Windows PC 上推出，用户甚至可以在笔记本电脑上访问各种应用程序。

配备了 NVIDIA RTX GPU 的 PC 现在可以在本地运行一些 AI 模型。通过在 PC 上使用 RAG，用户可以链接到私有知识源 - 无论是电子邮件、笔记还是文章 - 以改善响应。然后，用户可以确信他们的数据源、提示和响应都保持私密和安全。最近的一篇博客提供了一个由 TensorRT-LLM 为Windows 加速的 RAG 示例，快速获得更好的结果。

**RAG 的历史**

-----------------

这种技术的根源可以追溯到至少 20 世纪 70 年代早期。当时，信息检索领域的研究人员为他们所称的问答系统做了原型，这些应用程序利用自然语言处理(NLP)来访问文本，最初集中在狭窄的主题上，如棒球。这种文本挖掘背后的概念多年来一直相当稳定。但是驱动它们的机器学习引擎已经显著增长，提高了它们的实用性和普及性。在 20 世纪 90 年代中期，Ask Jeeves 服务(现为 Ask.com)凭借其整洁的仆人吉祥物，使问答系统普及开来。2011 年，IBM 的沃森在电视智力问答节目"危险边缘"中轻松击败了两名人类冠军，成为电视明星。今天,大型语言模型正在将问答系统推向一个全新的高度。

**来自伦敦实验室的见解**

----------------------------

开创性的 2020 年论文问世之际，刘易斯正在伦敦大学学院攻读自然语言处理博士学位，并在 Meta 位于伦敦的新人工智能实验室工作。该小组一直在寻找将更多知识装载到大型语言模型参数中的方法，并使用自己开发的基准来衡量进展。在吸收了早期方法的基础上，受到谷歌研究人员一篇论文的启发，该小组"有一个令人信服的愿景，即训练出一个系统，在其中有一个检索索引，因此它可以学习和生成任何所需的文本输出"。刘易斯回忆道。当刘易斯将另一个 Meta 团队开发的一个前景广阔的检索系统与正在进行的工作连接时，初步结果出乎意料地令人印象深刻。"我向导师展示了这个结果，他说:'哇，抓住这个机会吧。这种事情并不常见'，因为第一次正确设置这些工作流程可能会很困难，"他说。刘易斯还表彰了团队成员伊桑·佩雷斯和道维·基拉(当时分别在纽约大学和 Facebook 人工智能研究院工作)的重大贡献。完成后，这项在 NVIDIA GPU 集群上运行的工作展示了如何让生成式人工智能模型更具权威性和可信度。自那以后，它被数百篇论文引用，这些论文扩展和延伸了该概念,这仍然是一个活跃的研究领域。

**检索增强生成是如何工作的**

-------------------------------------

从高层次来看，NVIDIA 的一份技术简介是这样描述 RAG 过程的：当用户向大型语言模型提出一个问题时，AI 模型会将该查询发送给另一个模型,该模型将其转换为数值格式,以便机器可以读取。查询的数值版本有时被称为嵌入或向量。

然后，嵌入模型将这些数值与可用知识库的机器可读索引中的向量进行比较。当它找到匹配或多个匹配时，它就会检索相关数据，将其转换为人类可读的文字，并将其传回给大型语言模型。最后，大型语言模型将检索到的文字与对查询的自身回应相结合，形成最终的答复并呈现给用户，可能会引用嵌入模型找到的来源。

**保持资源的现有性**

------------------------

在后台，嵌入模型会持续为新的和更新的知识库创建和更新机器可读的索引，这些索引有时被称为向量数据库。

许多开发人员发现开源库 LangChain 在将大型语言模型、嵌入模型和知识库链接在一起时特别有用。NVIDIA 在其检索增强生成的参考架构中使用了 LangChain。LangChain 社区对 RAG 过程提供了自己的描述。

展望未来，生成式 AI 的未来在于创造性地将各种大型语言模型和知识库链接在一起，创建新类型的助手，提供用户可以验证的权威结果。通过这个 NVIDIA LaunchPad 实验室，你可以动手使用检索增强生成和 AI 聊天机器人。

在 3 月 18 日至 21 日于加利福尼亚州圣荷西和线上举行的全球人工智能和加速计算大会 NVIDIA GTC 上,探索生成式人工智能会议和体验。

注：本文内容主要由 AI 生成，经过人工润色。
原文链接：https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

OpenAI o1的架构流程已被Claude破解了？

2024-09-21

从 Data 到 Data + AI，必然之路还是盲目跟风？

2024-09-21

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

2024-09-20

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

OpenAI o1的架构流程已被Claude破解了？

从 Data 到 Data + AI，必然之路还是盲目跟风？

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

OpenAI o1的架构流程已被Claude破解了？

从 Data 到 Data + AI，必然之路还是盲目跟风？

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示