我要投稿

RAG模型的忠实度如何？量化RAG与LLM内部先验知识之间的拉锯战

发布日期：2024-04-17 12:21:47 浏览次数： 2514

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

检索增强生成（RAG）通常用于修复幻觉并为大型语言模型（LLMs）提供最新知识。然而，当LLM单独回答问题时如果回答错误，提供正确的检索内容是否总能纠正错误？相反，当检索到的内容不正确时，LLM是否知道忽略错误的信息，还是会重蹈覆辙？

为了回答这些问题，斯坦福大学的研究人员系统地分析了LLM的内部知识（即其先验）与检索到的信息之间的拉锯战，特别是在它们不一致的情况下：

在有和没有参考文档的数据集上测试了GPT-4和其他LLMs的问答能力。如预期的那样，提供正确的检索信息能够修正大多数模型错误（准确度达到94%）。
当参考文档被越来越多的错误值干扰时，如果LLM的内部先验较弱，它更有可能重复错误的修改信息，但如果其先验较强，则更具抵抗力。
修改后的信息与模型先验的偏差越大，模型越不可能偏好它。
上述结果突出了模型的先验知识和参考文档中呈现的信息之间存在的一种潜在的紧张关系。

实验方法

数据集（Dataset）

研究者从六个不同的主题领域生成问题和答案对，包括药物剂量、体育统计、新闻、日期、姓名和城市。通过从专业网站和维基百科等资源提取内容网页，然后利用GPT-4基于这些文本生成问题和答案。

一致性（Concordance）

一致性是指模型生成的答案与基于文章内容生成的参考答案之间的一致性。计算了模型在有无上下文的情况下生成答案的一致性。

修改检索到的文档

对每个问题/答案对进行了系统性的修改，包括对数值型数据集的原始值进行乘数修改，以及对分类数据集进行手工修改。修改后的文档被用作上下文，与问题一起提供给GPT-4，从而收集答案和输出令牌的对数概率。

为每个数据集生成修改后的文档的示意图。向LLM提出一个问题，同时提供和不提供一个包含与查询相关信息的参考文档。然后，这个文档被扰乱以包含修改后的信息，并作为上下文提供给LLM。接着，观察LLM是偏好修改后的信息还是它自己的先验答案。

RAG与模型先验的比较分析

主要分析是比较模型对RAG的偏好与其内部先验之间的关系。首先在没有上下文的情况下查询LLM，然后再次查询，这次在提示中包含检索到的内容。通过比较两次响应，确定模型是偏好其先验知识还是偏好RAG提供的信息。RAG偏好率是通过对所有RAG查询结果的平均值来计算的。

来自三个数据集的示例，展示了LLM对各种类型上下文修改的不同响应。红色响应表示错误响应（与答案不同）；绿色响应表示正确响应。

分析不同提示策略的效果

分析了不同提示技术本身的影响，包括“标准”、“严格”和“宽松”提示。旨在以不同的方式影响模型对检索到的上下文的依赖程度。

详细实验结论

一致性（Concordance）

LLM在没有上下文的情况下生成的答案与参考答案一致的比例平均只有34.7%。
通过引入RAG，一致性显著提高到了94%，表明RAG在鼓励模型遵循检索到的内容方面非常有效。
然而，在少数情况下，当提供检索内容无法纠正LLM时，模型仍有大约20%的情况会简单地回应其原始的先验答案。

图1：每个数据集中GPT响应与参考值之间的一致性。“先验”指的是GPT-4在没有上下文的情况下的响应，“w/ RAG”指的是在提示中包含相关检索到的上下文的响应。还包括了先验概率与RAG偏好率之间关系的斜率。例如，平均斜率为-0.23，这意味着对于先验令牌概率每增加10%，观察到RAG偏好的可能性减少了2.3%。

RAG偏好率与先验概率的关系

模型的先验答案的令牌概率与其相关的RAG偏好率之间存在一致的负相关关系。
通过将概率分成十个等距的区间，研究者发现不同的斜率（范围从-0.1到-0.45），表明RAG在不同问答领域的有效性相对容易受到模型内部先验知识信心的影响。
斜率为-0.45意味着每当模型的先验响应概率增加10%，LLM偏好上下文信息的可能性就会减少4.5%。

图2：在使用GPT-4的六个问答（QA）数据集中，一致观察到RAG偏好率（y轴）与两个特征（x轴）之间的反向关系：1. 模型的先验响应概率（左侧图表），以及2. 与先验的偏差量（右侧图表）。RAG偏好率定义为与提示中作为上下文呈现的信息一致的响应比例。模型的先验响应概率是根据没有RAG时查询的响应令牌的平均对数概率计算得出的。每对图表中的左侧图表可视化了先验概率（分为10个区间）与RAG偏好率的关系，以及最佳拟合趋势线和斜率。右侧图表可视化了与参考信息的绝对偏差（对于数值型数据集（顶部），最多两次对数倍的变化（连同趋势线）；对于分类数据集（底部），总共有四个修改类别）相对于RAG偏好率的情况。此外，右侧图表还展示了上下半百分位数，以说明低概率的先验响应相对于高概率的先验响应具有单调降低的RAG偏好率。

RAG偏好率与偏离先验值的关系（图2）

还考虑了模型的先验响应与检索上下文中的值之间的偏离程度。
分析显示了类似的模式：随着RAG值偏离模型的先验，模型更不可能采纳RAG值而非其自己的初始响应。
通过将数据分为上下半百分位数，观察到在所有六个数据集中，低概率先验响应的RAG偏好率单调低于高概率响应令牌。

不同提示技术对RAG依从性的影响

为了评估特定提示技术对RAG依从性的影响，在GPT-4上测试了两种额外的提示修改："Strict"（严格）和"Loose"（宽松）。
"Strict"提示旨在强制模型严格遵循检索到的上下文，而"Loose"提示则鼓励模型在回应前对检索到的上下文进行推理。
"Strict"提示的RAG依从性普遍高于标准提示，而"Loose"提示随着先验概率的增加，RAG依从性降低得更多。

图3：使用GPT-4的不同提示对RAG偏好率与先验概率的影响。“严格”提示强烈要求字面上遵循检索到的上下文，而“宽松”提示鼓励模型在提供的上下文的基础上做出合理的判断。观察到，与严格提示相比，宽松提示会导致RAG依从性出现更低和更陡峭的下降，这表明提示措辞在控制RAG依从性方面起着重要的作用。完整的提示内容在附录中提供。

GPT-4、GPT-3.5和Mistral-7B之间的差异

使用GPT-3.5和Mistral-7B进行相同分析时，观察到在先验一致性和RAG方面的性能显著低于GPT-4。
尽管如此，这些模型仍然显示出与GPT-4相同的负趋势。

图4：GPT-3.5和Mistral-7B的一致性和斜率。请参见图1，以获取使用GPT-4进行的分析的完整表格描述。

图5：使用GPT-4（蓝色）、GPT-3.5（橙色）和Mistral-7B（绿色）对RAG偏好率与先验概率和偏差进行的分析。请参见图2以获取完整图表描述。值得注意的是，一些模型对于某些数据集没有生成任何有意义的先验响应（由于拒绝、不当响应等原因），因此无法进行分析。

How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs’ internal priorhttps://arxiv.org/pdf/2404.10198.pdf

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

高效 Agents 构建指南

2025-05-23

微软突发“封杀令”！全面禁止Cursor使用C、C++、C# 扩展，开发者被迫回退版本

2025-04-12

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

大家都在问

从谨慎检查到一键接受，TRAE 如何成为我的主力 IDE？

2025-07-10

垂直赛道 Agent 闷声发财指南：如何实现一年超千万营收？

2025-07-10

你的大脑真的在被AI“腐蚀”吗？

2025-07-10

如何在 Elasticsearch 中构建你的智能 AI 助手？

2025-07-09

AI大模型落地最后一公里：RAG？

2025-07-09

微信支付这波操作把我干懵了，Agent能赚钱？

2025-07-08

🧠提示词的魔力：Prompt 为什么能控制大模型？

2025-07-08

OpenAI 的第一款 AI 硬件，竟然是一支笔？

2025-07-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB