AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


谷歌Speculative RAG:多打草稿少出错,效果优于Self-RAG、CRAG
发布日期:2024-07-15 13:50:03 浏览次数: 2106 来源:PaperAgent


当前RAG进展集中在通过迭代的LLMs精细化处理或通过LLMs的额外指令调整获得的自我批评能力来改善检索与生成结果。谷歌多部门(Google Cloud AI Research、Google DeepMind、Google Cloud AI)联合加利福尼亚大学圣迭戈分校提出一个新的框架Speculative RAG,它利用一个更大的通用语言模型(LM)来高效地验证由一个更小的、经过蒸馏的专家LM并行生成的多个RAG草稿。每个草稿(Drafting)都是从检索到的文档的不同子集中生成的,提供了对证据的多样化视角,同时减少了每个草稿的输入标记数。

不同RAG方法的说明。给定一个知识密集型查询Q和检索到的文档,(a)标准RAG将所有文档合并到提示中,增加了输入长度并减慢了推理速度;(b) 自我反思RAG需要对通用语言模型(LM)进行专门的指令调整,以生成用于自我反思的特定标签;(c) 校正RAG采用外部检索评估器来改善文档质量,仅关注上下文信息而没有增强推理能力;(d) 与之相反,提出的推测性RAG利用一个更大的通用LM来高效地验证由一个更小的、专业的LM并行生成的多个RAG草稿。每个草稿都是从检索到的文档的不同子集中生成的,提供了对证据的多样化视角,同时最小化了每个草稿的输入标记数。

Speculative RAG的具体实现:

  1. 问题定义:在知识密集型任务中,每个条目可以表示为 (Q, D, A),其中 Q 是需要额外知识的问题或陈述;D 是从数据库检索到的文档集;A 是预期的答案。

  2. 概述:Speculative Retrieval Augmented Generation (SPECULATIVE RAG) 的方法,旨在提高对检索文档的推理能力,同时不牺牲处理速度。该方法采用了分而治之的策略,使用较小的专家语言模型(RAG drafter)快速生成多个答案草稿,然后由较大的通用语言模型(RAG verifier)评估这些草稿,并基于其理由选择最佳草稿。

  3. 算法描述:首先,根据文档与所提问题的关系对检索到的文档进行聚类,然后从每个聚类中抽取一个文档形成一个子集,以确保多样性并减少冗余。接着,将每个子集分配给 RAG drafter 并行生成答案草稿和理由。之后,使用通用语言模型 MVerifier 计算每个草稿-理由对的置信度分数,并选择分数最高的答案草稿作为最终答案。

  4. 专家 RAG Drafter:MDrafter 的角色,这是一个较小的专家 LM,专门用于理解检索到的文档,并生成答案草稿和理由。通过指令调整训练 MDrafter,使其能够生成与问题和文档一致的草稿和理由。

    1. 多视角抽样:为减少生成答案草稿时的文档子集的冗余并增强多样性,采用了多视角抽样策略。使用基于指令感知的嵌入模型和 K-Means 聚类算法对文档进行聚类,然后从每个聚类中随机抽取一个文档形成一个子集。

    2. RAG 起草:运行 MDrafter 处理多个文档子集,并生成相应的答案草稿。每个草稿都是基于检索结果中的多种视角生成的。

    3. MDrafter指令微调

      1. 理由生成:对于每个三元组(Q, A, D),利用一个较强的语言模型来自动合成理由(E)。理由是从文档中提取的关键信息,用于简明地解释为什么答案是对问题合理的。

      2. 指令调整(Instruction Tuning):将理由E与原始的三元组数据结合,形成增强的四元组(Q, A, D, E)。然后,使用这些增强的数据对预训练的语言模型进行微调,使其学习如何基于问题和文档生成合理的理由和答案草稿。

  5. 通用 RAG Verifier:MVerifier 的角色,这是一个通用 LM,用于评估由 RAG drafter 生成的草稿和理由,以筛选出不太可靠的草稿并选择最佳答案。MVerifier 利用其语言建模能力对草稿-理由对进行排名和选择。

    1. 评分方法:MVerifier使用自洽性分数(self-consistency score)和自反性分数(self-reflection score)来评估答案草稿和理由的质量。这些分数是基于语言模型的概率计算得到的,不需要额外的训练数据。

    2. 效率:由于MVerifier使用的是已经预训练好的模型,因此在实际应用中可以快速部署,不需要等待长时间的训练过程。

Speculative RAG在TriviaQA、MuSiQue、PubHealth和ARC-Challenge等四个基准测试中实现了最先进的性能,降低了延迟,比Self-Reflective RAG 、Corrective RAG、Standard RAG效果都要好。

与常规RAG系统相比,在PubHealth上提高了准确性高达12.97%,同时将延迟降低了51%。

在TriviaQA、MuSiQue、PubHealth和ARC-Challenge(ARC-C)上的检索增强型生成结果。(∗当单独使用RAG起草器时,使用其生成概率ρDraft作为选择草稿的置信度分数;†表示Asai等人(2023年)报告的数字;−表示原始论文没有报告的数字或不适用的数字;‡使用Mistral7B或Mixtral8x7B作为RAG验证器,并分别表示为MVerifier-7B或MVerifier-8x7B。)

标准RAG(使用张量并行的Mixtral-Instruct 8x7B)与推测性RAG(MVerifier-8x7B + MDrafter-7B)在TriviaQA、MuSiQue、PubHealth和ARC-Challenge上延迟分析。标准RAG和推测性RAG之间的延迟差异用红色突出显示(+x%)。TP表示运行标准RAG时Mixtral-Instruct 8x7B的张量并行大小。由于检索到的文档长度不同,不同数据集上的延迟有所变化。推测性RAG并行编码检索到的文档,并使用较小的RAG起草器生成答案草稿。这显著提高了标准RAG的效率。

https://arxiv.org/abs/2407.08223Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询