我要投稿

RAG系统中答案无关的片段对LLMs生成结果有何影响？

发布日期：2024-05-01 06:47:13 浏览次数： 3104

作者：NLP工作站

微信搜一搜，关注“NLP工作站”

写在前面

大家好，我是刘聪NLP。

RAG（检索增强生成）通过检索系统找到用户问题相关的信息片段，利用大模型综合生成一个答案，极大解决了大模型幻觉、信息更新不及时等问题，已经成为了大模型落地的重要手段。

但在检索过程中，往往会检索到与问题极度相似、但又不包含答案或包含干扰答案的片段，这些答案无关片段对大模型生成答案有何影响呢？

今天正好刷到一篇相关文章，带给大家《How Easily do Irrelevant Inputs Skew the Responses of Large Language Models?》

Paper: https://arxiv.org/abs/2404.03302
Github: https://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Information

先放相关结论，后面补充相关细节。

与常见语义无关的答案无关片段相比，LLMs更容易受到高度语义相关的答案无关片段的影响；
随着答案无关片段的增加，LLMs更容易分心，识别正确信息的能力降低；
LLMs对答案无关片段的的识别能力随着问题格式的不同有所不同，自由式问答>是非性问答>多项选择式问答；
系统提示词中增加“忽略无关片段”等相关内容，对LLMs的识别能力有提升，但较小；
存在高度语义相关的答案无关片段时，COT或者ICL会导致LLMs过度思考，识别能力变差。

数据&片段构造

将答案无关片段，分成三类：

无关：与问题主题无关但相似性得分高的段落
部分相关：不仅在相似性度量上得分高，而且与问题的主题部分内容重叠
相关：不仅在相似性度量上得分高，而且与问题的主题内容重叠，但不包含正确答案。

数据构造：

无关：通过检索器直接检索Top10的段落；
部分相关：从检索Top10的段落中选择一个包含subj，但缺少obj的段落，作为前半段；然后找到一个包含错误答案obj'的片段作为后半段；
相关：与“部分相关”相比，“相关”片段与问题高度语义相关，但并不包含正确答案，主要涉及系误导性联类型、共同特征类型和虚构轶事类型。

结论实验

评估了LLMs在面对三个不同语义相关性级别的答案无关片段时的表现，如下表所示，随着片段的相关性增高，不同模型的效果均有所下降，对于干扰后生成的答案的信心更足。闭源模型的效果远好于开源模型。

PS：开源模型只做了Llama2-7B，感觉应该补充补充~

随着片段个数的不断增加，LLMs分心更严重，如下表所示，随着答案无关片段的数据增加，更愿意选择无关答案。

为了方便评估，选择多项选择的形式来对LLMs进行分析。但其他形式的问法表现如何？如下表所示，自由问答形式的问题受答案无关片段影响最小、其次是是否类型，影响最大的是多项选择式问题。

PS：对于自由式问题由于没有约束，答案较为散乱，不易评估，由采用了GPT3.5进行了答案对齐操作，人工抽检300条，准确率在97%，认为可靠。

忽略式Prompt对结果有微弱的改善，COT、忽略式Prompt+ICL对结果有害，效果变得更差。

写在最后

一个蛮有趣的实验报告，探索检索片段对RAG系统带来的额外影响。

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注是我坚持的最大动力！

欢迎多多关注公众号「NLP工作站」，加入交流群，交个朋友吧，一起学习，一起进步！

我们的口号是“生命不止，学习不停”！

往期推荐：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

实测Qwen3-Coder，这就是目前最强的开源编程模型

2025-07-23

DeepSeek V3.1 Base / Instruct 发布

2025-08-20

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

Qwen3-Coder开源：面向世界的智能编程引擎

2025-07-23

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

DeepSeek V3.1 测评

2025-08-19

有点东西！Qwen开源会写中文的生图模型Qwen-Image

2025-08-05

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

DeepSeek-V3.1-Base来了！MoE架构+128K上下文，性能再进化

2025-08-20

大家都在问

为何底层数据湖决定了 AI Agent 的上限？

2025-10-13

埃森哲的大裁员，向市场发出了什么信号？

2025-10-13

分发变现闭环: sora2不是“又一次热点”，而是质变？

2025-10-09

OpenAI搭台：AI应用繁荣周期的起点？

2025-10-09

OpenAI 开发者大会DevDay 2025发布了什么？

2025-10-07

Qwen3 Omni 的“全模态”，到底和多模态有啥不一样？

2025-10-04

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

AI编程学习：Chrome DevTools MCP 到底有多强？

2025-09-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB