谷歌Speculative RAG：多打草稿少出错，效果优于Self-RAG、CRAG

发布日期：2024-07-15 13:50:03 浏览次数： 3516

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

当前RAG进展集中在通过迭代的LLMs精细化处理或通过LLMs的额外指令调整获得的自我批评能力来改善检索与生成结果。谷歌多部门（Google Cloud AI Research、Google DeepMind、Google Cloud AI）联合加利福尼亚大学圣迭戈分校提出一个新的框架Speculative RAG，它利用一个更大的通用语言模型（LM）来高效地验证由一个更小的、经过蒸馏的专家LM并行生成的多个RAG草稿。每个草稿（Drafting）都是从检索到的文档的不同子集中生成的，提供了对证据的多样化视角，同时减少了每个草稿的输入标记数。

不同RAG方法的说明。给定一个知识密集型查询Q和检索到的文档，(a)标准RAG将所有文档合并到提示中，增加了输入长度并减慢了推理速度；(b) 自我反思RAG需要对通用语言模型（LM）进行专门的指令调整，以生成用于自我反思的特定标签；(c) 校正RAG采用外部检索评估器来改善文档质量，仅关注上下文信息而没有增强推理能力；(d) 与之相反，提出的推测性RAG利用一个更大的通用LM来高效地验证由一个更小的、专业的LM并行生成的多个RAG草稿。每个草稿都是从检索到的文档的不同子集中生成的，提供了对证据的多样化视角，同时最小化了每个草稿的输入标记数。

Speculative RAG的具体实现：

问题定义：在知识密集型任务中，每个条目可以表示为 (Q, D, A)，其中 Q 是需要额外知识的问题或陈述；D 是从数据库检索到的文档集；A 是预期的答案。
概述：Speculative Retrieval Augmented Generation (SPECULATIVE RAG) 的方法，旨在提高对检索文档的推理能力，同时不牺牲处理速度。该方法采用了分而治之的策略，使用较小的专家语言模型（RAG drafter）快速生成多个答案草稿，然后由较大的通用语言模型（RAG verifier）评估这些草稿，并基于其理由选择最佳草稿。
算法描述：首先，根据文档与所提问题的关系对检索到的文档进行聚类，然后从每个聚类中抽取一个文档形成一个子集，以确保多样性并减少冗余。接着，将每个子集分配给 RAG drafter 并行生成答案草稿和理由。之后，使用通用语言模型 MVerifier 计算每个草稿-理由对的置信度分数，并选择分数最高的答案草稿作为最终答案。
专家 RAG Drafter：MDrafter 的角色，这是一个较小的专家 LM，专门用于理解检索到的文档，并生成答案草稿和理由。通过指令调整训练 MDrafter，使其能够生成与问题和文档一致的草稿和理由。

多视角抽样：为减少生成答案草稿时的文档子集的冗余并增强多样性，采用了多视角抽样策略。使用基于指令感知的嵌入模型和 K-Means 聚类算法对文档进行聚类，然后从每个聚类中随机抽取一个文档形成一个子集。
RAG 起草：运行 MDrafter 处理多个文档子集，并生成相应的答案草稿。每个草稿都是基于检索结果中的多种视角生成的。
MDrafter指令微调：

理由生成：对于每个三元组（Q, A, D），利用一个较强的语言模型来自动合成理由（E）。理由是从文档中提取的关键信息，用于简明地解释为什么答案是对问题合理的。
指令调整（Instruction Tuning）：将理由E与原始的三元组数据结合，形成增强的四元组（Q, A, D, E）。然后，使用这些增强的数据对预训练的语言模型进行微调，使其学习如何基于问题和文档生成合理的理由和答案草稿。

通用 RAG Verifier：MVerifier 的角色，这是一个通用 LM，用于评估由 RAG drafter 生成的草稿和理由，以筛选出不太可靠的草稿并选择最佳答案。MVerifier 利用其语言建模能力对草稿-理由对进行排名和选择。

评分方法：MVerifier使用自洽性分数（self-consistency score）和自反性分数（self-reflection score）来评估答案草稿和理由的质量。这些分数是基于语言模型的概率计算得到的，不需要额外的训练数据。
效率：由于MVerifier使用的是已经预训练好的模型，因此在实际应用中可以快速部署，不需要等待长时间的训练过程。

Speculative RAG在TriviaQA、MuSiQue、PubHealth和ARC-Challenge等四个基准测试中实现了最先进的性能，降低了延迟，比Self-Reflective RAG 、Corrective RAG、Standard RAG效果都要好。

与常规RAG系统相比，在PubHealth上提高了准确性高达12.97%，同时将延迟降低了51%。

在TriviaQA、MuSiQue、PubHealth和ARC-Challenge（ARC-C）上的检索增强型生成结果。(∗当单独使用RAG起草器时，使用其生成概率ρDraft作为选择草稿的置信度分数；†表示Asai等人（2023年）报告的数字；−表示原始论文没有报告的数字或不适用的数字；‡使用Mistral7B或Mixtral8x7B作为RAG验证器，并分别表示为MVerifier-7B或MVerifier-8x7B。)

标准RAG（使用张量并行的Mixtral-Instruct 8x7B）与推测性RAG（MVerifier-8x7B + MDrafter-7B）在TriviaQA、MuSiQue、PubHealth和ARC-Challenge上延迟分析。标准RAG和推测性RAG之间的延迟差异用红色突出显示（+x%）。TP表示运行标准RAG时Mixtral-Instruct 8x7B的张量并行大小。由于检索到的文档长度不同，不同数据集上的延迟有所变化。推测性RAG并行编码检索到的文档，并使用较小的RAG起草器生成答案草稿。这显著提高了标准RAG的效率。

https://arxiv.org/abs/2407.08223Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-04

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-03

RAG 检索优化策略：从命中率到答案质量的一套工程打法

2026-07-03

RAG 落地总翻车？全球赛事冠军架构，改造适配企业级生产

2026-07-01

提升 RAG 准确率全攻略让你的 AI 知识库真正靠谱起来！

2026-06-30

教程：如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

2026-06-30

知识库不是文件堆——我把RAG准确率从60%调到了92%

2026-06-30

本体论语义建设新思路，另类RAG来解决检索问题

2026-06-30

别把RAG当架构：Ontology（本体）才是Agent的业务世界

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

RAG已死？不，是Grep回归了！

2026-04-30

大家都在问

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-04

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw