我要投稿

RAG下内外知识冲突问题的量化和规避方案

发布日期：2024-05-23 06:48:05 浏览次数： 3033

作者：北漂程序员日记

微信搜一搜，关注“北漂程序员日记”

概念解释

RAG：如果不知道，请关闭本页面。
内知识：指模型本身的参数知识（先验知识）。
外知识：上下文，也称参考信息。
内外知识冲突：是指模型本身的参数知识和提供的参考信息知识不一致时的情况。比如对于一个问题：1+1=？，模型本身的参数知识是等于2，但提供的参考信息答案是3。

写在前面

召回难，回复难并称RAG下两大难题。之前文章笔者探讨过召回的一些方法，包括：知识注入等一些内容。今天借一篇论文来聊聊另一个难题。

问：为啥用这篇论文？

答：做过RAG的或多或少遇到过这个问题：召回的内容中包含错误的引导内容，或过多无用的信息。在这种情况下，模型该如何应对？今天我们借助《How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs’ internal prior》这篇论文来探讨一下。

论文分析

该论文系统地分析了当大语言模型（LLMs）的内部知识（先验）与检索到的外部信息（参考信息）发生冲突时的表现。作者通过实验，量化了这种内外知识冲突，并探讨了在不同情况下模型的表现和策略。

主要发现

依赖错误信息：在模型内部先验较弱的情况下，模型更倾向于依赖参考信息，即使这些信息包含错误。例如，当提供的参考信息中包含错误答案时，模型在回答时更有可能重复这些错误答案。
抵抗错误信息：当模型的内部先验较强时，即使参考信息包含错误内容，模型也倾向于忽略这些错误信息，依赖其内部知识。例如，当提供的错误信息与模型内部知识的差异较大时，模型更可能坚持其内部知识，给出正确答案。
提示策略的影响：提示策略的选择对模型处理错误信息的能力有显著影响。严格提示强制模型依赖参考信息，而宽松提示则鼓励模型在参考信息和内部知识之间进行权衡。实验表明，宽松提示下，模型更能抵抗错误信息的影响。

实验结果

通过在六个不同领域的数据集上进行实验，论文展示了以下关键结果：

准确率提升：在没有参考信息的情况下，模型回答的平均准确率为34.7%；在有参考信息的情况下，准确率提升至94%。
错误信息依赖：当参考信息包含错误内容时，模型在内部先验较弱的情况下，错误信息依赖率为20%（即20%的情况下，模型会重复错误信息）。
偏好率与先验概率：在模型内部先验概率为0.1时，RAG偏好率平均为70%；而当先验概率为0.9时，RAG偏好率下降至30%。
提示策略影响：严格提示下，模型的RAG偏好率高达80%；而宽松提示下，RAG偏好率为50%。

量化具体指标

为了进一步量化和分析内外知识冲突问题，论文提出了以下具体指标：

先验概率（Prior Probability）：模型在没有参考信息情况下的回答置信度。通过模型对每个回答的token概率计算得出，范围为0到1。
RAG偏好率（RAG Preference Rate）：模型在有参考信息情况下，选择参考信息而不是内部先验的比例。
准确率（Accuracy）：模型回答与正确答案一致的比例。
错误信息依赖率（Error Dependence Rate）：模型在提供错误参考信息时，重复错误信息的比例。
提示策略影响指数（Prompt Strategy Impact Index）：不同提示策略下，模型对参考信息依赖程度的变化情况。

规避方案

为了规避内外知识冲突带来的问题，论文提出了以下建议：

增强模型先验：通过增加训练数据和优化训练方法，增强模型内部知识的准确性和覆盖面。例如，可以通过引入更多高质量的训练数据，增加模型对正确答案的信心。
优化提示策略：选择合适的提示策略，鼓励模型在内部知识和参考信息之间进行权衡。具体可以通过实验确定最适合的提示方式，以减少对错误信息的依赖。
过滤参考信息：在将参考信息提供给模型之前，对其进行严格的过滤和验证，确保信息的准确性和相关性，减少错误信息对模型的干扰。

结论

内外知识冲突是RAG系统中一个重要且常见的问题，通过量化这种冲突并提出相应的规避方案，可以显著提升RAG系统的可靠性和准确性。理解和控制这种依赖关系对于优化RAG系统的设计和应用具有重要意义。

希望这篇分析能为大家在RAG系统的设计和应用中提供一些有价值的参考。

最后动动大家的小手，点下方的投币吧~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

高效 Agents 构建指南

2025-05-23

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

大家都在问

Deepseek模型蒸馏：大模型如何实现传帮带？

2025-07-15

大模型如何赋能 Web 渗透测试？

2025-07-15

生成、并购、竞速：ToB AI 有下半场吗？

2025-07-15

麦肯锡：为什么 90% 的工作汇报都是 “无效输出”？

2025-07-15

Context Engineering（上下文工程）是 AI Agent 成功的关键吗？

2025-07-15

当AI开始“组团上班”：大模型多智能体协作到底有多牛？

2025-07-15

大模型检索“内卷”时代，BGE凭什么成为终极答案？

2025-07-15

月费200刀的AI浏览器，Perplexity Comet的真实体验如何？

2025-07-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部