我要投稿

RAE 是一种检索增强的知识编辑框架，用于解决多跳问答系统中的实时知识更新问题

发布日期：2024-04-03 07:46:08 浏览次数： 2587

作者：大语言模型论文跟踪

微信搜一搜，关注“大语言模型论文跟踪”

RAE：用于多跳问答系统的检索增强的知识编辑框架

发布时间：2024 年 03 月 28 日

LLM应用 问答系统 信息检索

Retrieval-Enhanced Knowledge Editing for Multi-Hop Question Answering in Language Models

摘要

大型语言模型（LLMs）擅长解答问题，但在实时更新知识方面常常力不从心，容易给出陈旧或错误的答案。尤其在面对需要综合多个知识点的多跳问题时，挑战更为严峻。为此，我们提出了检索增强模型编辑（RAE）框架，专门针对多跳问答问题。RAE 通过检索修订过的事实，并利用上下文学习进一步优化语言模型。我们的检索策略利用互信息最大化原理，发挥 LLMs 的推理功能，找出可能被传统相似性搜索忽略的关联事实链。同时，框架采用修剪机制剔除冗余信息，提升编辑精确度，减少误导性答案的出现。该框架得到了事实检索效果的理论上的支持。经过对多种 LLMs 的全面测试，RAE 在提供准确且更新答案方面的能力得到了验证。

背景

null

大型语言模型（LLMs）虽然在问答系统中表现非常出色，但是他也有一个非常致命的缺陷：因为预训练模型的原因，导致静态知识库无法轻易地实时更新，导致生成过时或不正确的回答的风险。

为了克服这一问题，已经提出了针对预训练 LLMs 的模型编辑，以使其输出与最新知识保持一致。以前的编辑方法在更新单跳问题的回答中已被证明是有效的。但是，对于模型编辑来说，处理多跳问题仍然是仍然很难。

回答多跳问题需要整合多个知识点。例如，为了回答问题“《哈利·波特》的作者的国籍是什么？”我们必须连接两个知识点：“（哈利·波特，作者，J.K. 罗琳）”和“（J.K. 罗琳，公民，英国）”，这些共同构成了一个事实链。如果我们对第一个事实进行反事实编辑，即用“斯蒂芬·金”替换“J.K. 罗琳”，那么随后的知识也必须相应地进行调整，从而形成一个完全不同的事实链：“（哈利·波特，作者，斯蒂芬·金），（斯蒂芬·金，公民，美国）”。这篇文章里，作者使用反事实编辑来模拟现实世界的更新。成功的多跳问题模型编辑要求编辑后的 LLMs 识别并采纳更新的知识以得出最终答案。

现有的模型编辑方法在处理多跳问题时仍然有问题。首先，改变模型参数的方法，包括微调（fine-tuning）、定位后编辑（locate-then-edit）和元学习（meta-learning），都会遇到灾难性遗忘问题（catastrophic forgetting issue），即在编辑后可能会丢失之前编码的知识。

其次，依赖于训练辅助模型的方法在这些场景中也表现不足。辅助模型通常是较小的语言模型，它们缺乏推断正确答案所需的推理能力。相比之下，基于检索增强生成（Retrieval-Augmented Generation，RAG）的第三类方法以更有效的方式修改模型输出。这些方法将更新的知识直接整合到模型提示中，通过上下文学习引导 LLMs。基于 RAG 的方法显示出显著优势，因为它们不受灾难性遗忘问题的影响，并且编辑过程可以即时进行。然而，将 RAG 还没在多跳问题的模型编辑这个领域进行应用。

基于检索增强生成（RAG）的多跳编辑应该能够为每一跳问题检索到最相关的事实。

null

首先，提取多跳事实需要检索器理解问题内多重关系之间的复杂联系。检索器的一个简单设计是应用基于相似性的搜索，以获得与问题语义上最相似的顶级事实。但是，仅凭语义相似性并不能保证这些事实包含正确回答问题所需的必要信息。上图中用一个例子说明了这个问题。应该检索的编辑事实是“[2]”：（斯蒂芬·金，公民，加拿大），而不是“[4]”：（哈利·波特，公民，美国）。后一个事实“[4]”之所以被检索到，是因为它包含了与我们的问题“哈利·波特的作者的国籍是什么？”相似的“哈利·波特”和“公民”。尽管其相似性得分更高，但事实“[4]”实际上与问题无关。因此，有效的检索需要深入理解问题，这是现有基于相似性搜索方法所不具备的能力。

其次，检索到的知识可能包含冗余信息，从而降低模型编辑的性能。通常很难确定回答特定问题所需的确切信息量，因此现有的检索方法倾向于返回大量事实，以实现更全面的覆盖。虽然这些方法确实检索到了相关事实，但它们也引入了冗余信息。值得注意的是，将不相关的知识整合到 LLM 的输入中可能会误导模型，导致严重的“幻觉”问题，在这些问题中，LLM 将基于噪声而非相关事实生成事实上不正确的内容。因此，在将检索到的事实应用到提示之前，减少噪声至关重要。

为了弥补这一差距，作者提出了一个新颖的检索增强模型编辑（RAE）框架，我们首先检索编辑过的事实，然后通过上下文学习用这些事实精炼目标模型。

为了应对第一个挑战，提出了互信息（MI, Mutual-information Maximization）最大化来进行编辑事实的检索。在这里，MI 量化了目标问题和编辑事实之间的共享信息。具有更高 MI 的编辑事实更为相关。将 MI 分解为一系列条件概率，并利用预训练 LLM 的下一词预测能力来估计这些概率。在这个过程中，我们利用目标 LLM 的上下文理解和推理能力来识别成功模型编辑所需的必要事实。

为了解决第二个挑战，提出了基于不确定性的冗余事实剪枝策略，利用 LLM 输出的置信度。具体来说，它选择性地保留增加 LLM 回答编辑问题置信度的事实，并丢弃不相关的信息。最后，我们从理论上证明了我们检索目标的公式是合理的。

总体而言，这篇文章主要解决以下两个问题：

• 为模型编辑中的多跳问题引入了一种新颖的事实检索方法。这种方法有效地利用了 LLMs 的推理能力，为每个问题检索到最相关的多跳事实。
• 提出了一种知识剪枝策略，以减少初始检索后的噪声，缓解幻觉问题。此外，还提供了理论分析，以证明对检索目标的设计是合理的。
• 在不同规模的各种语言模型上进行了广泛的实验，以验证提出的编辑方法的有效性。实证结果表明，RAE 框架与最先进的基线相比具有优越性。

什么是 RAE

null

RAE，即检索增强模型编辑（Retrieval-Augmented model Editing）框架，是一种针对大型语言模型（LLMs）在处理多跳问答任务时的编辑方法。该框架旨在解决传统 LLMs 在实时更新知识库方面的局限性，通过整合最新的信息来提供准确和及时的回答。

RAE 框架的核心思想是两个阶段的过程：

1. 编辑事实的检索（Edited Facts Retrieval）：

• 利用互信息（Mutual Information, MI）最大化原则来识别和检索与目标问题最相关的事实。
• 通过分解 MI 为一系列条件概率，并使用预训练 LLM 的下一词预测能力来估计这些概率，从而找到与问题最相关的事实链。

2. 模型输出的编辑（Model Output Editing）：

• 通过上下文学习（in-context learning），将检索到的编辑事实直接整合到模型提示中，引导 LLMs 进行编辑。
• 采用基于不确定性的冗余事实剪枝策略，根据 LLM 输出的置信度选择性地保留增加模型置信度的事实，并丢弃不相关的信息。

其中第一步编辑事实的检索，又包括以下三步：

1. 构建外部知识图谱：

• 这一步涉及将编辑过的事实与一个全面的外部知识库（例如 WikiData）结合起来，形成一个扩展的知识图谱。
这个图谱包含了编辑过的事实和未编辑的事实，并通过实体和关系连接起来，为检索提供丰富的信息基础。

2. 互信息最大化检索目标：

• 在这一步中，定义了一个基于互信息最大化的检索目标，旨在选择与问题最相关的事实子图。
互信息衡量了问题和事实子图之间共享的信息量，通过最大化互信息，可以找到最有可能包含正确答案的知识片段。

3. 概率估计和事实链提取：

• 利用预训练的大型语言模型（LLM）的下一个词预测能力来估计条件概率，这些概率涉及到从知识图谱中选择头实体、关系和尾实体的可能性。
通过迭代地计算这些概率，可以构建出一个与问题紧密相关的事实链，这有助于模型理解和回答多跳问题。

null

什么是互信息？

互信息（Mutual Information，简称 MI）是信息论中的一个概念，用于衡量两个随机变量之间的相互依赖性，或者说一个随机变量包含另一个随机变量信息的程度。互信息可以被理解为一个变量的知识减少另一个变量不确定性的量。

在检索增强编辑（RAE）框架中，互信息被用来量化目标问题和编辑事实之间的相关性。通过最大化互信息，可以找到与问题最相关的事实，从而提高模型编辑的准确性和效率。

性能

null

Arxiv^[1]

通往 AGI 的神秘代码

if like_this_article():
    do_action('点赞')
    do_action('再看')
    add_wx_friend('iamxxn886')

if like_all_arxiv_articles():
    go_to_link('https://github.com/HuggingAGI/HuggingArxiv')    star_github_repo(''https://github.com/HuggingAGI/HuggingArxiv')

引用链接

[1] Arxiv: https://arxiv.org/abs/2403.19631

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业