微信扫码
与创始人交个朋友
我要投稿
当前RAG进展集中在通过迭代的LLMs精细化处理或通过LLMs的额外指令调整获得的自我批评能力来改善检索与生成结果。谷歌多部门(Google Cloud AI Research、Google DeepMind、Google Cloud AI)联合加利福尼亚大学圣迭戈分校提出一个新的框架Speculative RAG,它利用一个更大的通用语言模型(LM)来高效地验证由一个更小的、经过蒸馏的专家LM并行生成的多个RAG草稿。每个草稿(Drafting)都是从检索到的文档的不同子集中生成的,提供了对证据的多样化视角,同时减少了每个草稿的输入标记数。
Speculative RAG的具体实现:
问题定义:在知识密集型任务中,每个条目可以表示为 (Q, D, A),其中 Q 是需要额外知识的问题或陈述;D 是从数据库检索到的文档集;A 是预期的答案。
概述:Speculative Retrieval Augmented Generation (SPECULATIVE RAG) 的方法,旨在提高对检索文档的推理能力,同时不牺牲处理速度。该方法采用了分而治之的策略,使用较小的专家语言模型(RAG drafter)快速生成多个答案草稿,然后由较大的通用语言模型(RAG verifier)评估这些草稿,并基于其理由选择最佳草稿。
算法描述:首先,根据文档与所提问题的关系对检索到的文档进行聚类,然后从每个聚类中抽取一个文档形成一个子集,以确保多样性并减少冗余。接着,将每个子集分配给 RAG drafter 并行生成答案草稿和理由。之后,使用通用语言模型 MVerifier 计算每个草稿-理由对的置信度分数,并选择分数最高的答案草稿作为最终答案。
专家 RAG Drafter:MDrafter 的角色,这是一个较小的专家 LM,专门用于理解检索到的文档,并生成答案草稿和理由。通过指令调整训练 MDrafter,使其能够生成与问题和文档一致的草稿和理由。
多视角抽样:为减少生成答案草稿时的文档子集的冗余并增强多样性,采用了多视角抽样策略。使用基于指令感知的嵌入模型和 K-Means 聚类算法对文档进行聚类,然后从每个聚类中随机抽取一个文档形成一个子集。
RAG 起草:运行 MDrafter 处理多个文档子集,并生成相应的答案草稿。每个草稿都是基于检索结果中的多种视角生成的。
MDrafter指令微调:
理由生成:对于每个三元组(Q, A, D),利用一个较强的语言模型来自动合成理由(E)。理由是从文档中提取的关键信息,用于简明地解释为什么答案是对问题合理的。
指令调整(Instruction Tuning):将理由E与原始的三元组数据结合,形成增强的四元组(Q, A, D, E)。然后,使用这些增强的数据对预训练的语言模型进行微调,使其学习如何基于问题和文档生成合理的理由和答案草稿。
通用 RAG Verifier:MVerifier 的角色,这是一个通用 LM,用于评估由 RAG drafter 生成的草稿和理由,以筛选出不太可靠的草稿并选择最佳答案。MVerifier 利用其语言建模能力对草稿-理由对进行排名和选择。
评分方法:MVerifier使用自洽性分数(self-consistency score)和自反性分数(self-reflection score)来评估答案草稿和理由的质量。这些分数是基于语言模型的概率计算得到的,不需要额外的训练数据。
效率:由于MVerifier使用的是已经预训练好的模型,因此在实际应用中可以快速部署,不需要等待长时间的训练过程。
Speculative RAG在TriviaQA、MuSiQue、PubHealth和ARC-Challenge等四个基准测试中实现了最先进的性能,降低了延迟,比Self-Reflective RAG 、Corrective RAG、Standard RAG效果都要好。
在TriviaQA、MuSiQue、PubHealth和ARC-Challenge(ARC-C)上的检索增强型生成结果。(∗当单独使用RAG起草器时,使用其生成概率ρDraft作为选择草稿的置信度分数;†表示Asai等人(2023年)报告的数字;−表示原始论文没有报告的数字或不适用的数字;‡使用Mistral7B或Mixtral8x7B作为RAG验证器,并分别表示为MVerifier-7B或MVerifier-8x7B。)
标准RAG(使用张量并行的Mixtral-Instruct 8x7B)与推测性RAG(MVerifier-8x7B + MDrafter-7B)在TriviaQA、MuSiQue、PubHealth和ARC-Challenge上延迟分析。标准RAG和推测性RAG之间的延迟差异用红色突出显示(+x%)。TP表示运行标准RAG时Mixtral-Instruct 8x7B的张量并行大小。由于检索到的文档长度不同,不同数据集上的延迟有所变化。推测性RAG并行编码检索到的文档,并使用较小的RAG起草器生成答案草稿。这显著提高了标准RAG的效率。
https://arxiv.org/abs/2407.08223Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-23
FastRAG半结构化RAG实现思路及OpenAI O1-long COT蒸馏路线思考
2024-11-23
检索增强生成(RAG):解密AI如何融合记忆与搜索
2024-11-23
如何提高RAG系统准确率?12大常见痛点及巧妙解!
2024-11-23
RAG 2.0性能提升:优化索引与召回机制的策略与实践
2024-11-22
RAG技术在实际应用中的挑战与解决方案
2024-11-22
从普通RAG到RAPTOR,10个最新的RAG框架
2024-11-22
如何使用 RAG 提高 LLM 成绩
2024-11-21
提升RAG性能的全攻略:优化检索增强生成系统的策略大揭秘 | 深度好文
2024-07-18
2024-05-05
2024-07-09
2024-05-19
2024-07-09
2024-06-20
2024-07-07
2024-07-07
2024-07-08
2024-07-09
2024-11-06
2024-11-06
2024-11-05
2024-11-04
2024-10-27
2024-10-25
2024-10-21
2024-10-21