我要投稿

【LLM-RAG】何时检索：教会大语言模型有效利用信息检索

发布日期：2024-05-22 09:49:42 浏览次数： 2409

作者：AI帝国

微信搜一搜，关注“AI帝国”

‍

一、结论写在前面

论文介绍了ADAPT-LLM，这是一种大型语言模型（LLM），它学会了区分何时需要额外的上下文来回答问题，而不是仅仅依赖于其参数记忆。ADAPT-LLM是通过对一个基础LLM在开放域问答数据集上进行微调的结果，该数据集被修改以区分那些仅凭LLM的参数记忆就能回答的问题和那些需要补充上下文的问题。为了构建这些训练数据集，论文首先对基础LLM进行零次评估，以确定其回答问题的准确性。对于模型回答错误的问题，论文训练LLM生成一个特殊标记，即⟨RET⟩，表示需要额外的上下文。

通过在PopQA数据集上进行的广泛实验，论文展示了ADAPT-LLM的表现优于其两个固定的替代方案：从不检索和总是检索相关上下文信息。此外，论文的发现强调了ADAPT-LLM有效区分是否需要额外上下文的能力，这是本工作的主要目标。

二、论文的简单介绍

2.1 论文的背景

问答（QA）任务仍然是自然语言理解研究的一个焦点。有许多不同的数据集作为评估QA模型的基准，例如自然问题（NQ）、SQuAD 或QuAC ，仅举几例。如今，大型语言模型（LLMs）在这些基准上持续超越传统方法，展示了出色的性能。通常，使用LLMs进行问答主要有两种方法：

（i）闭卷问答：这种方法涉及策略，如指令调整[32]或少样本提示[6]以提高性能。在这里，LLM仅依赖其参数记忆来回答问题。然而，这些参数记忆有固有的限制，因为它们完全基于训练语料库，这意味着例如它们可能对于发生在训练过程之后的事件是过时的。

（ii）开卷问答：在这种方法中，LLM与信息检索器（IR）系统[13, 36]相结合。通过利用IR系统，LLM可以检索相关上下文来补充其理解并提供更准确的答案。

然而，由Mallen, Alex Troy和Asai, Akari和Zhong, Victor和Das, Rajarshi和Khashabi, Daniel和Hajishirzi, Hannaneh 进行的研究揭示了问答策略的复杂性，挑战了总是涉及使用IR系统的最佳方法的观念。通过引入包含14千个带有流行度分数的问题的PopQA数据集，他们证明了仅依赖其参数记忆的LLMs在解决高流行度问题方面表现出色，而对于低流行度问题，使用IR变得至关重要。

他们的发现强调了混合方法的重要性，其中LLMs利用参数记忆回答高流行度问题，但使用现成的IR系统检索相关上下文来回答低流行度问题。他们方法的核心是建立一个固定的流行度分数阈值，他们用这个阈值来决定是否必须使用IR系统。

然而，在许多情况下，问答数据集不包括流行度分数，因此依赖这些分数并不是一种可推广的方法。受到这一限制的启发，论文的研究旨在解决LLMs是否能够自主决定何时使用IR系统以改进问答。为了调查这一点，论文使用开放域问答数据集对LLM进行评估，以识别LLM提供准确响应的问题以及其答案不正确的问题。具体来说，对于LLM的回答不正确的问题，论文用一个特殊标记⟨RET⟩对其进行注释，表明需要额外的上下文。随后，论文利用这些注释来构建一个针对训练目的的新数据集，论文在这里教导LLM直接回答如果它对答案有信心，或者如果它认为回答问题有用，则需要上下文（见图1）。论文的假设是，通过这个训练过程，LLM学会在需要额外上下文来回答一个问题的解决方案，因此论文将其命名为ADAPT-LLM。。

图1：ADAPT-LLM的推理过程分步进行：给定一个问题（步骤1），LLM决定（步骤2）是直接回答问题（步骤3）还是请求额外的上下文信息，生成特殊的⟨RET⟩标记；对于后者，使用现成的IR系统检索相关上下文（步骤4），这些上下文与问题一起用于再次提示LLM以获得最终答案（步骤5）

2.2 论文的方法--自适应检索大型语言模型（ADAPT-LLM）

自适应检索指的是模型动态确定是否需要检索额外的上下文信息以在问答任务中生成答案的能力。与传统的模型要么总是包含上下文，要么从不考虑上下文不同，自适应检索允许模型根据每个问题的具体要求有选择地检索上下文。这种自适应方法旨在通过仅在必要时利用上下文来优化性能，从而提高模型生成准确答案的能力。

如图1所示，ADAPT-LLM的过程按以下顺序展开：

1.包含问题的第一个提示被发送到模型（图1的步骤1）。

2.ADAPT-LLM评估提示，以确定是否有效地回答问题需要额外的上下文（步骤2）。

3.如果模型确定不需要上下文，它直接利用其参数化记忆生成对问题的响应（步骤3）。

4.如果确定需要上下文，ADAPT-LLM模型返回一个特殊标记，表示为⟨RET⟩，并使用一个现成的信息检索（IR）系统根据问题检索相关上下文（步骤4）；然后将上下文与原始问题提示结合，形成一个全面的表示用于答案生成（步骤5）。

ADAPT-LLM的决策过程使模型能够通过动态评估每个提示来确定回答问题时上下文的必要性。这种灵活的行为允许模型在利用上下文以增强理解和在足够时直接提供答案之间取得平衡。

2.2.1 训练ADAPT-LLM

创建训练数据的过程，表示为DSAdapt，在算法1中呈现。

论文首先选择一个包含问题Q、相关上下文段落P和相应答案A的开放域问答数据集。论文初始化DSAdapt为一个空集（算法中的第1行）。对于Q中的每个问题，论文利用没有检索机制的基础LLM进行零次推理（第3行）。这一步骤使论文能够区分模型生成正确答案的问题和其响应不准确的问题。这个过程可以理解为一种发现基础LLM由于其参数化记忆而知道什么的方法。对于模型响应准确的问题（第4行），论文构建一个包含以下论文称之为parametric_prompt的训练集实例：

Prompt: Answer the question Q. If you need                help answerto get the context. Q:                {...}

除了这个提示，论文还包含来自Q的问题和来自A的黄金答案，共同形成实例（第5行），随后将其添加到DSAdapt数据集中（第6行）。

相比之下，如果大型语言模型（LLM）未能对问题产生正确响应（第8行），论文构建了两个不同的实例。第一个实例使用与之前描述相同的参数化提示，其中⟨RET⟩被指定为答案（第9行），表明需要额外的上下文。第二个提示，称为上下文提示，包括问题以及上下文信息：

Prompt: Answer the question Q given the                context C. Q: {...}, C: {...}

对于这个实例，论文包括了提示、来自Q的问题、来自A的黄金答案以及来自P的相应上下文段落（第11行）。

在为LLM无法准确响应的问题填充两种类型的提示，并为所有其他问题仅填充带有黄金答案的参数化提示之后，论文的训练集DAdapt准备进入后续的微调阶段。微调过程涉及在论文的数据集上训练基础LLM，从而产生ADAPT-LLM模型。这种方法确保模型有效地学习何时需要上下文来回答问题，或者在提供上下文时直接提供响应。

2.2.2推理

在推理阶段，论文使用经过微调的模型来生成对未见问题的响应。论文使用了在训练阶段概述的相同提示。

最初，模型被提示要么直接提供响应，要么在不确定答案时返回⟨RET⟩。如果模型返回⟨RET⟩，论文通过使用现成的信息检索（IR）系统进行信息检索来获取相关上下文。随后，论文将检索到的上下文与问题结合起来，并使用在训练阶段引入的第二种提示类型再次提示模型。

2.3论文的效果

介绍了三个主要实验：

1.评估ADAPT-LLM与以下基线模型的性能比较：(i) 对所有问题检索上下文的LLM，以及(ii) 完全依赖其参数记忆而不使用IR系统回答任何问题的LLM（第4.5节）。

2.分析ADAPT-LLM确定何时需要额外上下文来回答问题的能力（第4.6节）。

3.与PopQA的最新方法进行比较（第4.7节）。

2.3.1 数据集

为了确保论文的模型得到全面训练和评估，论文特别选择了三个不同的问答数据集。对于训练，论文选择了NQ 和SQuAD ，因为它们是广泛认可的数据集，评估基于维基百科的事实知识。对于评估，论文选择了PopQA 。以下是对每个数据集的简要描述：

NQ：自然问题数据集是一组来自Google搜索查询的真实问题，伴随着从维基百科文章中获得的长篇文本段落，提供了广泛的主题和自然语言变体。论文在实验中使用这个数据集来训练论文的模型。

SQuAD：斯坦福问答数据集SQuAD 是自然语言处理领域广泛使用的数据集，由众包工作者对一系列维基百科文章提出的问题组成，以及作为上下文的相应段落。论文在实验中使用这个数据集来训练论文的模型。

PopQA：流行问题和答案数据集由来自各种在线平台的精选问题组成，涵盖广泛的领域和风格。鉴于在这个数据集中观察到的上下文检索策略的有效性变化，论文选择PopQA作为论文的测试集，以评估语言模型在确定何时需要上下文以提供准确答案方面的性能。

2.3.2 基础模型

在论文的实验中，论文使用Llama-2作为论文的基础LLM。Llama-2是一个开源的基于指令的LLM，有7B、13B和70B参数的版本。该模型在从公共在线数据源扩展的语料库上进行了预训练。与前代相比，这个语料库的大小增加了40%，有助于提高模型的性能和能力。

2.3.3 模型配置

论文使用三种不同的模型配置进行实验，对应于三种不同的方式，即大型语言模型（LLM）和信息检索（IR）系统可以结合的方式：

•自适应检索（ADAPT-LLM）。ADAPT-LLM 模型根据问题及其对上下文信息的需求动态决定是否检索上下文。作为 IR 系统，论文使用 Contriever [11]，这是一个在大型语料库上进行预训练的无监督模型，随后在 MS MARCO [24] 上进行微调。论文仅根据 IR 系统检索最相关的段落，以提示基础 LLM 生成最终答案。

•永不检索（NR-LLM）。这种模型配置被训练为仅基于问题文本回答问题，而不考虑任何上下文信息。它作为评估在缺乏上下文的情况下问答模型性能的基准。

•始终检索（AR-LLM）。与 NR-LLM 模型相反，这种配置总是检索上下文段落来辅助回答问题。它被训练为始终使用上下文来生成答案。为了确保与 ADAPT-LLM 的公平比较，论文也使用 Contriever [11] 作为 IR 系统，并且仅检索最相关的段落作为上下文。

2.3.4 训练细节

对于所有三种模型配置（ADAPT-LLM、AR-LLM 和 NR-LLM）以及两个训练集（SQuAD 和 NQ），论文遵循 Alpaca-Lora [32] 中建立的参数配置，包括批次大小为 128、三个 epoch 和一个固定的学习率为 3e-4。论文采用了 LoRA（低秩适应）正则化，参数配置为 r=8、alpha=16 和一个 0.05 的 dropout 率。训练在 NVIDIA A40 GPU 上进行，平均训练时间约为 8 小时。论文不进行任何模型选择，论文使用经过 3 个 epoch 训练后的最后一个检查点。

2.3.5 验证自适应检索方法

为了评估论文的自适应方法（ADAPT-LLM）与 NR-LLM 和 AR-LLM 配置的有效性，论文在 NQ 和 SQuAD 数据集上对 Llama-2 模型进行了所有三种配置的微调。对于 NR-LLM 和 AR-LLM 配置，论文通过从数据集中提取问答对并结合相应的指令提示来构建训练样本。

然后，在 PopQA 数据集上测试训练好的模型，以评估它们在现实世界问答场景中的性能。在推理过程中，NR-LLM 和 AR-LLM 模型按原样使用，相应的指令提示被提供，并且期望输出是问题的答案。相反，对于 ADAPT-LLM 模型。

表 1 展示了这项实验的结果，说明了 Llama-2 模型在不同配置和数据集上的性能。在 NQ 和 SQuAD 训练数据集上，ADAPT-LLM 配置在 PopQA 测试集上始终优于永不检索（NR-LLM）和始终检索（AR-LLM）配置。如观察到的，NR-LLM 在所有模型中表现最差，与其他配置相比，准确性差异约为 14 个绝对点。

这种差异表明，仅依靠Llama-2的参数化记忆并不足以有效地回答PopQA问题。AR-LLM和ADAPT-LLM之间的差异较小。具体来说，与AR-LLM配置相比，ADAPT-LLM配置在训练于NQ和SQuAD数据集时，在PopQA测试集上分别达到了36.77%和38.15%的准确率，而AR-LLM配置的准确率为35.86%和36.59%。在两个训练数据集上，ADAPT-LLM都优于AR-LLM，其中在训练于SQuAD时观察到最大的差异。

表2提供了论文实验过程中涉及的三个数据集的特征洞察，包括问题的总数和问题与答案的平均字数。虽然NQ在问题和答案长度方面似乎更接近PopQA，但训练ADAPT-LLM于SQuAD取得更好结果的关键因素可能是训练数据集中的问题数量（SQuAD中约87K，NQ中约58K）。需要进一步的分析来阐明使训练数据集更适合给定目标数据集的因素（这超出了论文研究的范围），但这些结果表明，规模可能再次扮演着至关重要的角色。

2.3.6 上下文检索决策分析

在本实验中，论文的目标再次评估ADAPT-LLM模型的有效性，这次专注于其准确确定何时需要额外上下文的能力。为此，论文遵循以下步骤：

1.论文对ADAPT-LLM模型进行推理，使用PopQA测试集对其进行提示，要么直接返回答案，要么通过返回⟨RET⟩来指示需要额外上下文。

2.在从ADAPT-LLM模型接收到⟨RET⟩响应的情况下，论文继续执行以下步骤：
2.1. 论文对ADAPT-LLM模型进行推理，提示它在从IR系统获得的上下文下返回答案。
2.2. 论文还对NR-LLM模型进行推理，指示其直接提供答案而不需要额外上下文。

3.如果ADAPT-LLM模型决定仅依赖其参数化记忆直接回答问题：
3.1. 论文对ADAPT-LLM模型进行推理，提示它在不提供上下文的情况下返回答案。
3.2. 论文对AR-LLM模型进行推理，指示其使用IR系统检索的上下文提供答案。

表3展示了这项实验的结果。首先值得注意的是，ADAPT-LLM模型为PopQA数据集中大约82-83%的问题生成了⟨RET⟩标记，两个训练数据集的观察比例相似。这一观察与表1中展示的NR-LLM配置的低性能相一致。

然而，ADAPT-LLM始终能够准确确定何时需要额外上下文来回答问题。在NQ和SQuAD两个训练数据集上，与没有上下文的NR-LLM模型的准确率相比，ADAPT-LLM在检索上下文时的准确率显著更高（如表3中的⟨RET⟩列所示）。具体来说，对于NQ数据集，ADAPT-LLM模型在请求上下文时的准确率为33.04%，而NR-LLM模型在没有上下文检索时的准确率明显更低，为14.65%。同样，对于SQuAD数据集，ADAPT-LLM在有上下文检索时的准确率为33.40%，而NR-LLM模型在没有上下文时的准确率大幅降低至9.94%。

最后，表3的最后一列（No ⟨RET⟩）显示了ADAPT-LLM在仅基于其参数化记忆回答问题时的性能。可以看出，当不使用上下文时，获得了超过62%的准确率，提供了进一步的证据，表明ADAPT-LLM有效地辨别了检索上下文和直接回答问题之间的区别。此外，论文评估了在输入中添加上下文时这些问题的性能，揭示了准确率下降高达7个绝对点。

然而，值得注意的是，当模型使用检索到的上下文回答问题时，其整体性能相对较低，如表3所示（大约33%）。为了进一步探索这一观察结果，论文进行了一项额外的实验：评估ADAPT-LLM（在NQ和SQuAD上训练的两个版本）在NQ和SQuAD开发分割上的性能，比较使用数据集的黄金段落和论文的IR系统Contriever [11]检索到的上下文时的性能。不幸的是，PopQA没有提供黄金段落，因此无法直接在那里进行评估。

表4展示了这项实验的结果。在使用黄金段落和Contriever检索到的顶部段落之间观察到了显著的性能差异（对于SQuAD大约67个绝对点，对于NQ大约42个点）。这表明Contriever以及一般的当前IR系统并不总是能够检索到回答给定问题最相关的段落。这一观察强调了检索多个文档作为上下文的重要性，正如在大多数成功的开放域QA系统[13]中所见，并突出了它对ADAPT-LLM在PopQA中整体性能的影响。

为了进一步验证ADAPT-LLM在请求额外上下文时的行为，图2说明了论文的模型生成⟨RET⟩标记的问题比例，按流行度得分区间聚合（左侧图像为在NQ上训练的ADAPT-LLM，右侧图像为在SQuAD上训练的）。Mallen, Alex Troy和Asai, Akari和Zhong, Victor和Das, Rajarshi和Khashabi, Daniel和Hajishirzi, Hannaneh [22]提出，高流行度的问题可以使用LLM的参数记忆充分回答，而较低的流行度得分则需要额外的上下文。在图2中，论文观察到这种模式对于ADAPT-LLM的两个版本都存在，表明论文的模型尽管在训练或推理过程中无法访问流行度得分，但已经学会了有效的标准来请求额外上下文。

2.3.7 与SOATA的比较

论文进行了ADAPT-LLM模型与Mallen, Alex Troy和Asai, Akari和Zhong, Victor和Das, Rajarshi和Khashabi, Daniel和Hajishirzi, Hannaneh [22]提出的当前PopQA最先进方法的比较分析。他们的方法依赖于PopQA数据集中注释的流行度得分来确定一个问题是否需要额外上下文。为了确定问题的流行度最佳阈值，Mallen, Alex Troy和Asai, Akari和Zhong, Victor和Das, Rajarshi和Khashabi, Daniel和Hajishirzi, Hannaneh [22]将PopQA数据集分为75%作为开发集用于阈值确定，25%作为测试集。在原始论文中，他们将这种方法应用于当时可用的各种LLM（Llama-2尚未发布）。

为了确保ADAPT-LLM与基于流行度的方法之间的公平比较，论文使用Llama-2 7B模型复制了他们的方法，以确定最佳流行度得分阈值（发现为707,000），使用相同的PopQA开发集。这使论文能够在使用论文的基础LLM的同时获得与他们方法一致的结果。与Mallen, Alex Troy和Asai, Akari和Zhong, Victor和Das, Rajarshi和Khashabi, Daniel和Hajishirzi, Hannaneh 原始结果中使用较小的模型时类似，当使用Llama-2 7B时，流行度得分阈值几乎等同于总是检索上下文信息。如表5所示，IR使用率为99.86%。

这清楚地表明，流行度得分方法在较小的模型上挣扎，GPT-3 Model Configuration是原始论文中使用自适应检索与Contriever时IR使用率低于80%的唯一模型。随后，论文在相同的25%测试集分割上评估了论文的ADAPT-LLM配置，并与Mallen, Alex Troy和Asai, Akari和Zhong, Victor和Das, Rajarshi和Khashabi, Daniel和Hajishirzi, Hannaneh [22]描述的方法获得的结果进行了比较。这种系统的比较使论文能够评估论文的ADAPT-LLM模型相对于当前最先进的关系。

这项实验的结果呈现在表5中。论文观察到，当在NQ和SQuAD数据集上训练并在PopQA的25%子集上测试时，复制的Mallen, Alex Troy和Asai, Akari和Zhong, Victor和Das, Rajarshi和Khashabi, Daniel和Hajishirzi, Hannaneh [22]方法与ADAPT-LLM之间的性能相当。

值得一提的是，ADAPT-LLM不像Mallen, Alex Troy和Asai, Akari和Zhong, Victor和Das, Rajarshi和Khashabi, Daniel和Hajishirzi, Hannaneh [22]那样直接使用PopQA的流行度得分和75%的PopQA数据集来找到流行度得分的最佳值。这种方法不能推广到其他开放域问答任务，因为流行度得分是PopQA的一个独特特征。然而，ADAPT-LLM可以应用于任何类似的数据集。

鉴于这些特点，论文认为ADAPT-LLM获得的结果更加显著，即使在没有使用特定于数据集的信息的情况下，也能提供与使用数据集特定信息的方法相当的性能。这些发现证实了论文的方法的有效性，即使在训练和测试使用的数据集不同的情况下，也展示了其有效性。

论文链接：https://arxiv.org/pdf/2404.19705
论文标题：When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

‍

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业