我要投稿

RAG 噪声在大型语言模型中作用的综合分析

发布日期：2024-09-23 09:52:14 浏览次数： 2065

作者：顿数AI

微信搜一搜，关注“顿数AI”

先前对大型语言模型（ LLMs ）中的检索增强生成（RAG）的研究集中于增强检索模型以改进生成任务的文档选择。最初的研究确立了将外部信息集成到LLMs中的好处，但最近对噪声环境的扩展通常集中在有限范围的噪声类型上，通常假设噪声会对模型性能产生负面影响。这些研究缺乏全面的分类系统，限制了其研究结果的实际适用性。

不同的训练技术旨在提高 RAG 模型对抗检索噪声的鲁棒性，并使用 RobustRAG 等框架增强对腐败攻击的防御。然而，先前的研究往往忽视了噪声的系统评估，忽视了其潜在的积极影响。显然，需要对检索噪声进行详细探索，包括对噪声类型进行清晰的分类。本文通过定义七种类型的噪声、将它们分为有益组和有害组，并提供对LLMs中 RAG 噪声的细致入微的理解，解决了这些差距。

来自北京国家信息科学技术研究中心和清华大学的研究人员通过研究 RAG 在缓解这些问题中的作用来解决LLMs的挑战，特别是幻觉。该方法批评了以前的研究，因为它对噪声类型的关注有限，并且假设噪声是有害的，而忽略了潜在的好处。该论文介绍了一种新颖的评估框架NoiserBench，并将噪声分为有益和有害两种类型。通过定义七种不同的噪声类型，本研究提供了一种结构化方法来增强 RAG 系统并提高跨各种场景的LLM性能。

本研究采用系统方法来研究 RAG 噪声对LLMs的影响。该方法首先定义七种不同的噪音类型，分为有益的（例如，语义、数据类型）和有害的（例如，反事实的、支持性的）组。引入了一种新颖的基准NoiserBench来生成各种检索文档，从而能够全面评估噪声影响。提出了一个系统框架来创建各种噪声文档，从而可以全面评估它们对模型输出的影响。

实验涉及选择八个不同的LLMs ，并分析他们对多个数据集的 RAG 噪声的响应。在引入有益噪声之前和之后收集数据，并通过两步统计分析验证有关噪声影响的假设。该研究比较了输出结果，表明有益的噪音可以使LLMs的推理更加清晰，格式更加标准化。不同模型架构、规模和 RAG 设计的评估指标证实了有益噪声在增强模型性能同时解决有害噪声影响方面的重要性。

数值结果凸显了 RAG 噪声对LLMs的双重影响。非法句子噪声 (ISN) 等有益噪声持续将模型准确率提高了 3.32%，从而增强了推理和响应信心。相反，有害的噪声类型，如反事实噪声 (CN) 和正交噪声 (ON)，会降低性能，扰乱事实辨别。NoiserBench 评估框架由视觉和统计分析支持，强调了管理噪声类型以优化 RAG 系统中LLM性能的重要性。

总之，本文对LLMs中的 RAG 噪声进行了全面分析，定义了七种不同的噪声类型，并将它们分类为有益或有害。包括 NoiserBench 基准在内的新颖框架允许跨多个模型进行系统评估。值得注意的是，有益的噪声可以通过提高推理清晰度和答案标准化来增强模型性能。该论文主张未来的研究重点是利用有益的噪声，同时减轻有害影响，为更强大、适应性更强的 RAG 系统奠定基础。