我要投稿

RAG2.0重磅发布，究竟有哪些颠覆性更新？

发布日期：2024-07-31 07:12:13 浏览次数： 2758

作者：AI技术研习社

微信搜一搜，关注“AI技术研习社”

What Are RAGs? 什么是 RAG2.0？

RAG 2.0方法由contextual.ai推出，它将预训练、微调和对齐所有组件作为一个单一的集成系统，通过大模型和检索器进行反向传播以最大化性能。旨在解决RAG面临的各个组件技术是有效，但整体远非最佳的问题。

使用 RAG 2.0 训练的上下文语言模型在我们的所有基准测试中的性能明显优于现有的 RAG 系统。Natural Questions （NQ）、HotpotQA （HPQA）和 TriviaQA 使用完全匹配指标。由于 HaluEvalQA 和 TruthfulQA 需要 logits，因此无法直接在这些任务上评估 GPT-4。

Why RAG 2.0? 为什么选择 RAG 2.0？

大型语言模型（LLMs）已日益成为大部分自然语言处理的支柱，并且人们一直在推动将各种任务表述为序列到序列的转导。

然而，当需要以外部证据语料库的形式与非参数知识进行交互时LLMs，典型的方法是通过调用单独的检索模型作为多系统管道的一部分来链接LLM几代。

语言模型在处理知识密集型任务时遇到困难，因为它们受到在训练期间接触到的信息的限制。2020 年，我们的联合创始人兼首席执行官 Douwe Kiela 及其 Facebook AI Research 团队引入了检索增强生成（RAG）来缓解这个问题，通过使用检索器增强语言模型来访问来自外部来源（例如维基百科、谷歌、公司内部文档）的数据。

如今，典型的 RAG 系统使用冻结的现成模型进行嵌入，使用向量数据库进行检索，并使用黑盒语言模型进行生成，这些模型通过提示或编排框架拼接在一起。这导致了生成式人工智能的“弗兰肯斯坦怪物”：各个组件在技术上是有效的，但整体远非最佳。

这些系统很脆弱，缺乏任何机器学习或针对它们所部署到的领域的专业化，需要大量的提示，并且会遭受级联错误的影响。因此，RAG 系统很少通过生产标准。

RAG 2.0 方法将所有组件预训练、微调和对齐为一个集成系统，通过语言模型和检索器进行反向传播，以最大限度地提高性能：

深度学习的历史一再表明，端到端优化的性能优于手动调整的系统。我们采用这种方法来超越 RAG 的限制，并开发了 RAG 2.0。总而言之：如果你知道你要做RAG，你应该训练系统来做RAG。

RAG 2.0的原理

在RAG2.0中，引入了一种新方法，RICHES（R etrieval I nterlaced with Sequence Generation），该方法可以使用单一LLM的解码过程将文本生成与证据语料库的检索进行本地交错。

Google DeepMind提出一种新颖的方法RICHES（Retrieval Interlaced with Sequence Generation），通过单一的LLM和解码过程，将文本生成与文档检索原生地交织在一起。无需单独的检索器和生成器，直接解码文档内容或相关的自然语言检索键。无需额外训练，即可通过提示适应多样的新任务。

示例RICHES输出，用于具有单个大型语言模型（LLM）和解码通道的多跳查询。绿色引用文本是从检索语料库中"检索"或逐字生成的。RICHES生成原生地交错了思考和多个检索证据。