我要投稿

使用大模型结合知识图谱应用于多文档问答

发布日期：2024-07-31 19:59:46 浏览次数： 2313

作者：大模型的艺术

微信搜一搜，关注“大模型的艺术”

摘要

大型语言模型（LLMs）的“预训练、提示、预测”范式在开放领域问题回答（OD-QA）中取得了显著成功。然而，鲜有研究探索该范式在多文档问题回答（MD-QA）中的应用，这是一个要求彻底理解文档内容和结构之间逻辑关联的任务。为了填补这一关键空缺，我们提出了一种知识图谱提示（KGP）方法，用于在MD-QA中提示LLMs时构建正确的上下文，该方法包括图构建模块和图遍历模块。对于图构建，我们在多个文档上创建一个知识图谱（KG），节点象征着段落或文档结构（例如，页面/表格），边表示段落之间的语义/词汇相似性或文档结构关系。对于图遍历，我们设计了一个基于LLM的图遍历代理，该代理在节点之间导航并收集支持LLMs在MD-QA中的段落。构建的图作为全局规则，调节段落之间的过渡空间并减少检索延迟。同时，图遍历代理作为局部导航器，收集相关上下文以逐步接近问题并保证检索质量。广泛的实验强调了KGP对MD-QA的有效性，标志着在增强提示设计和检索增强生成中利用图的潜力。我们的代码：https://github.com/YuWVandy/KG-LLM-MDQA。

介绍

随着大型语言模型（LLMs）的出现，“预训练、提示和预测”的范式在实际应用中彻底革新了自然语言处理（NLP），如开放域问题回答、事实核查和算术推理。然而，在多文档问题回答（MD-QA）的情景下，这一框架尚未受到显著关注，而MD-QA在学术研究、客户支持和财务/法律查询等领域具有实际应用价值，这些领域需要从多个文档中洞察性地分析。

为了探索LLMs在多文档问题回答（MD-QA）中的能力，我们从2WikiMQA（Ho等人，2020年）和MuSiQue（Trivedi等人，2022b年）的开发集中随机抽取多文档问题，并以四种不同策略提示LLMs以寻求答案。成功回答这些问题需要来自多个维基百科文档的知识。如图1所示，在2WikiMQA和MuSiQue上，不提供任何上下文直接提示LLMs，即None，的表现远不如提供支持事实作为上下文，即Golden，时的表现。这表明仅使用LLMs中编码的知识完成MD-QA的局限性。在传统的开放域问题回答（OD-QA）和单文档问题回答（D-QA）（Xu等人，2020年；Mathew、Karatzas和Jawahar，2021年）中克服这一限制的常见解决方案是检索基础上下文并从中得出可靠答案，即检索-阅读（Zhu等人，2021年；Ju等人，2022年）。然而，与OD-QA和D-QA不同，MD-QA的主要挑战在于其对交替检索和推理不同文档中的知识的需求（Pereira等人，2023年；Caciularu等人，2023年）。例如，图2(a)-(b)中成功回答问题需要对两个不同文档（即维基百科页面）中的不同段落进行推理。此外，每个文档都是多模态结构数据（例如，页面、部分、段落、表格和图形）的汇编，一些问题可能特别询问某些结构中的内容，这就需要对这些复杂文档结构有全面的把握。例如，图2(c)中的问题询问第1页和表格2之间的区别，如果使用启发式方法如BM25或深度学习方法如DPR（Karpukhin等人，2020年），则无法回答。在之前挑战的基础上，LLMs的出现引入了新的复杂性。

对于交替检索和推理不同文档中知识的挑战，虽然之前的工作训练了多跳检索器（Xiong等人，2020年；Yavuz等人，2022年）来模仿这一过程，通过顺序获取基于已检索的信息的下一段落，但没有一个工作探索将LLMs纳入此过程的潜力。更近期的工作设计了不同的提示策略，如链/树/图思维（Trivedi等人，2022a年；Wei等人，2022年；Yao等人，2023年；Yao、Li和Zhao，2023年），以引导LLMs逐步接近答案。然而，来回提示非开源LLMs引起的延迟以及不可承受的消耗是禁止的。此外，如何将不同文档结构融入提示设计中，使LLMs能够理解它们，仍是一个开放的问题。

鉴于上述挑战，我们提出了一种知识图谱提示（KGP）方法来增强LLMs在MD-QA中的性能。具体来说，我们在给定的文档上构建一个KG，节点象征着段落或文档结构，边表示它们之间的词汇/语义相似性或文档内部结构关系。然后，对于交替推理和检索不同文档中知识的第一个挑战，我们设计了一个基于LLM的KG遍历代理，它可以交替生成下一个证据来接近问题，即推理，并根据生成的证据从构建的KG中选择最有希望的邻居进行访问，即检索。此外，我们应用指令微调策略来增强基于LLM的KG遍历代理的推理能力，从而避免重复提示非开源LLMs生成证据。对于多模态挑战，我们在KG中添加了不同类型的节点，以表征不同的文档结构，从而实现在这些特定结构内的内容检索。我们的贡献如下：

通用适用的KG构建。我们提出了三种文档上的KG构建方法，节点为段落或文档结构，边为它们的词汇/语义相似性或结构关系。然后我们通过检查每个问题的邻域与支持事实之间的重叠程度来实证评估构建的KG在MD-QA中的质量（图5）。此外，我们在补充材料的表5中提供了我们提出的和现有KG构建方法的综合总结。
为提示公式化而吸引KG。我们设计了一种知识图谱提示（KGP）方法，利用基于LLM的KG遍历代理通过遍历构建的KG检索与问题相关的上下文。此外，我们对这个代理进行了微调，以便根据访问的节点（检索的段落）适应性地遍历最有希望的邻居来接近问题。
验证MD-QA框架的案例研究。我们比较了在不同文档数量上构建的KGs（图7(c)）上使用不同类型的LLM代理进行图遍历时MD-QA的性能（表2）。我们在补充材料的第8.7节对KGP在MD-QA中的可视化进行了案例研究。

符号说明

根据（Tian等，2023a）的描述，设为从一组文档D中构建的知识图谱，其中节点集代表文档结构（例如，段落/页面/表格等），边集代表不同节点之间的连接（例如，文档结构之间的语义/词汇相似性和归属关系等）。设为节点特征，且对应于节点的特征，其形式可以是段落的文本，表格的Markdown，以及页面的页码。

知识图谱构建

尽管存在许多成熟的知识图谱（KGs）（Hoffart等人，2013年；Tian等人，2023b年），它们将节点/边视为实体/关系，这需要复杂的关系提取技术，因而限制了它们在一般领域的适用性（Huang等人，2021年）。此外，它们主要关注维基百科领域，也限制了它们用于回答非维基百科问题的能力，如法律或财务文档上的问题。为了解决这个问题，我们提出了通用的知识图谱构建方法。

我们首先分析图2(a)-(b)中的两个代表性问题，以激发我们构建知识图谱的动机。回答这两个问题需要推断不同段落之间的逻辑关联。这些关联要么通过1）词汇相似性编码：不同段落之间共享的共同关键词，例如，‘Alf Clausen’连接图2(a)中的段落S1和段落S2；要么通过2）语义相似性编码：传达语义关系的句法元素，例如，图2(b)中的‘国籍’和‘美国导演’。这激发了我们通过将段落作为节点，它们的词汇/语义相似性作为边来构建图。更具体地，在图3中，我们将每个文档分割成单独的段落，对于每个段落，我们在KG中添加一个节点，其特征为该段落的文本。然后，我们通过检查段落节点对之间的词汇/语义相似性来添加边。

TF-IDF 知识图谱构建 为了根据词汇相似性添加边，我们首先应用TF-IDF（Ramos等人，2003）关键词提取和过滤到每个文档上，这降低了词袋（BOW）特征的维度，使构建的图变得稀疏，并提高了图遍历效率。此外，由于一些问题关注标题实体，我们将文档标题加入到提取的关键词集中。我们从所有文档中收集提取的关键词，形成关键词空间，然后如果两个段落在中共享任何公共关键词，我们就连接这两个段落。

KNN-ST/MDR知识图谱构建 为了根据语义相似性添加边，我们可以轻松地使用现有模型，如句子转换器，为每个节点生成段落嵌入，然后计算成对相似性矩阵来构建K最近邻（KNN）图。然而，这些现成的模型，通常训练在与MD-QA不太相关的任务上，可能无法充分封装问题所需的必要逻辑关联在其嵌入相似性中。为了克服这个问题，我们遵循MDR（Xiong等人，2020）的训练策略，通过预测基于之前支持事实的后续支持事实来训练句子编码器，从而赋予编码器推理能力。因此，嵌入相似性和相应构建的KNN图本质上封装了不同段落之间所需的必要逻辑关联。

TAGME 此外，我们使用TAGME（Min等人，2019）从每个段落中提取维基百科实体，并根据两个段落节点是否共享公共维基百科实体来构建图。

除了段落节点，我们通过使用Extract-PDF提取文档结构，进一步将结构节点添加到图中。在本文中，我们只考虑添加页面和表格，但构建的知识图谱可以包括更多不同类型的文档结构。表格节点的特征是Markdown，因为LLMs可以理解这一点，如补充材料中图8所示。页面节点的特征是页码，我们从它到该页面中的句子/表格节点添加有向边。注意，我们的目标不是提出一个万能的知识图谱构建方法。相反，我们寻求比较各种方法的优点和局限性，在表5中提供关于哪些知识图谱最适合特定场景的指导。为了验证构建的知识图谱确实编码了MD-QA所需的必要信息，我们从HotpotQA随机抽样问题，并使用我们提出的方法在每个问题的文档集上构建知识图谱。我们改变超参数来控制构建的知识图谱的稀疏性，并测量TF-IDF最初搜索的播种段落的邻居覆盖支持事实的百分比有多少。关于四种构建方法及其超参数的更多细节包含在补充材料的第8.5节中。如图5所示，随着构建的图变得更密集，邻近节点段落命中支持事实的机会增加（即SF-EM增加），尽管冗余信息也增加（即精度降低）。鉴于一个段落到所有其他段落的共享关键词通常远少于所有文档中的段落总数，TF-IDF构建的图的密度会有上限，导致SF-EM较低（图5中TF-IDF曲线下的SF-EM低于0.7为证）。对于TAGME，我们经验性地发现它识别出单个段落中提及的实体数量更多，这导致图更密集，使TAGME的起始SF-EM已经约为0.95。此外，由于KNN-MDR是在HotpotQA上通过预测下一个支持事实（Xiong等人，2020）进行预训练的，它比KNN-ST实现了更好的折衷，后者的嵌入直接从句子转换器获得，没有数据集特定的预训练。

总结来说，尽管高SF-EM表明大多数问题的支持事实完全被播种段落的邻居覆盖，低精度表示这些邻近段落大多与问题无关。因此，如果我们盲目进行图遍历，不进行任何针对问题的适应性调整，我们检索的上下文将包含冗余段落，并损害LLMs在MD-QA中的能力。为了解决这个问题，我们接下来介绍一个基于LLM的知识图谱遍历代理，以适应性地访问对回答给定问题最有助益的邻近段落。

基于大模型的知识图谱检索Agent

启用自适应知识图谱遍历的一种方法是对候选节点进行排名，即对已访问节点的邻居节点进行排名，以确定接下来访问哪些节点。最简单的方法是应用基于启发式的模糊匹配或基于嵌入的相似度排名，这不能捕捉到已遍历路径与下一个要访问的节点之间的内在逻辑关系。相反，我们引入了一个基于LLM的知识图谱遍历代理，这是一个经过微调的LLM，旨在根据从当前访问的节点收集到的信息，指导知识图谱遍历朝向回答问题的下一个最有前景的通道。

给定一个问题，询问文档内容，基于LLM的图遍历代理会在先前访问的节点/检索到的段落上进行推理，然后按照以下方式生成下一个段落：

其中将之前检索到的段落/访问过的节点的文本信息进行了串联。对于的选择，一种方式是使用仅编码器模型，如 Roberta-base ，相应的将是另一个编码器模型，其中是测量嵌入相似度的内积。另一种方式是使用编解码器模型，如T5，相应的将是恒等函数，其中测量文本相似度。为了减轻幻觉问题并增强推理能力的LLM遍历代理，我们通过基于先前的支持事实预测下一个支持事实来进一步指令微调，从而将原本编码在它们预训练参数中的常识知识与从指令微调继承的增强推理能力整合起来。在根据等式(1)从候选邻居队列中选择了得分最高的节点访问后，通过添加这些新访问节点的邻居来更新候选邻居队列。我们迭代应用此过程，直到达到预设的预算。接下来，我们将用图4中的一个例子来说明上述过程，并在此之后提出算法。

图4展示了一个基于内容的问题：“《辛普森一家》主题曲当前编排的创作者是哪一年出生的？”。我们使用TF-IDF搜索来初始化种子段落节点1，内容为：“Alf Heiberg Clausen（1941年3月28日出生）是一位美国电影作曲家”。随后，我们将当前检索到的上下文（节点1）与问题一起前置，并提示LLM生成接近问题答案一步的下一个证据。因为我们通过指令微调增强了LLM的推理能力，它预期能识别问题与当前检索到的上下文之间的逻辑关联。因此，它可以预测出保持逻辑连贯性的后续段落，尽管可能包含事实错误，即“Alf Clausen（1941年4月16日出生）是一位美国电影和电视作曲家。”为了纠正这一潜在的事实错误，我们从候选邻居中选择与LLM生成的段落最为匹配的节点，在这个案例中，节点4 “Alf Heiberg Clausen（1941年3月28日出生）是一位美国电影作曲家”。因为这段落直接来源于文档，它本质上确保了信息的有效性。然后我们提示LLM连同检索到的上下文节点1和4寻找答案。

此外，对于询问文档结构的问题，我们提取文档结构名称，并在知识图谱中定位它们对应的结构节点。对于表格节点，我们检索其Markdown格式的内容；对于页面节点，我们遍历其一跳邻居并获取属于该页面的段落。

这里我们介绍了我们提出的针对MD-QA的KGP方法的算法。给定一个问题，我们首先应用LLM来分类问题是询问文档结构还是内容。如果问题关注文档结构，我们提取结构关键字如页面或表格，并在KG中检索对应结构节点的内容。如果问题关注文档内容，我们按照算法1的步骤进行。具体来说，我们首先通过TF-IDF搜索初始化种子段落和推理路径队列。然后对于每一个种子段落，我们将其邻近的段落节点添加到候选邻居队列C中（第1-4行）。之后，我们迭代地从中出队最早入队的推理路径/候选邻域，并利用经过微调的基于LLM的图遍历代理来根据公式(1)对中出队的邻居进行排名（第5-7行）。最后，我们根据它们的排名从中选择排名前k的段落节点作为下一个访问的目标，并相应更新候选邻居队列和推理路径队列（第8-13行）。上述过程终止于候选邻居队列变空或检索到的段落达到预设的预算K时。时间和空间复杂度在补充材料的第8.3节中进行了全面分析。

实验

在本节中，我们通过实验来验证所提出的知识图谱提示方法（KGP）对于MD-QA的效果。特别地，我们回答以下问题：

Q1 - 第13节：KGP在MD-QA中与现有基线相比的表现如何？
Q2 - 第13-13节：构建的知识图谱质量和基于LLM的图遍历代理对MD-QA性能的影响如何？由于篇幅限制，我们在补充材料的8.1-8.2节中全面介绍了我们的实验设置，包括数据集收集、基线以及评价标准。

MD-QA上的性能比较

我们在表1中比较了所提出的KGP-T5与其他基线在MD-QA性能上的对比。首先，基线“None/Golden”表现最差/最好，因为它们提供了无/黄金上下文。所有其他基线的性能介于两者之间，因为检索到的上下文只覆盖了部分黄金支持事实。我们的KGP-T5在除了Golden之外的其他情况下排名最高。第二表现最好的基线MDR通过预测基于问题和已检索的上下文的下一个支持事实来微调一个RoBERTa-base编码器（Xiong et al. 2020）。它们的预文本任务为模型装备了跨不同段落的知识推理能力，因此提高了检索上下文的质量。另一个基于深度学习的检索器DPR的性能远不如MDR，因为它只通过最大化查询及其支持事实之间的相似度来微调编码器，而不考虑它们的顺序，这证明了在解决MD-QA时理解不同知识的逻辑顺序的重要性（Xiong et al. 2020）。在跨数据集进行性能比较时，我们发现所有基线在HotpotQA上的表现都比IIRC好。这是因为HotpotQA中的问题通常比IIRC中的简单。现有研究（Jiang and Bansal 2019）已经显示HotpotQA中的一些问题可以通过捷径轻松回答，而IIRC中的一些问题有时需要算术技能，例如，“Wingfield失去财富时，该事件持续了多少年？”，这由于LLM较差的算术能力（Yuan et al. 2023）而带来了独特的困难。

此外，我们提出的方法在PDFTriage上达到了67%的结构化精确匹配（Struct-EM）率，而现有的基线方法都没有设计来处理这类结构性问题，例如，“第1页与第2页有什么不同？”或“在表格3中，哪个站点的平均流量最高？”。

构造图的影响

我们通过调整TF-IDF/KNN-ST/KNN-MDR/TAGME的超参数，构建具有不同密度的知识图谱(KGs)，并研究其对MD-QA性能及其使用KGP-T5进行邻居匹配时间的影响。由于基于LLM的图遍历代理从已访问节点的邻居中选择下一个访问节点，因此随着邻居数量的增加，它碰到支持事实的机会也增加。相反，随着候选池，即方程式(1)中的Nj增加，邻居匹配效率降低。如图6所示，我们观察到类似的趋势，即随着KG密度的增加，F1/EM增加并保持稳定，而选择下一个访问最有希望的邻居的延迟也增加。当两个构建的KGs的密度相同时，KNN-MDR的性能优于KNN-ST。这是因为KNN-ST中的编码器是在宽谱数据集上预训练的，而MDR中的编码器是专门在HotpotQA上通过预测下一个支持事实的预文本任务进行预训练的。因此，嵌入相似性和相应的邻居关系更好地反映了不同段落之间的逻辑关联，这与KNN-MDR构建的KG比KNN-ST在图5中构建的KG更好地对齐。与KNN-MDR/ST相比，TAGME在增加延迟的代价下提供了更优的性能，因为TAGME生成的KG比KNN-ST/MDR的KGs更密集。

图检索代理的影响

在这里，我们研究了使用不同的LLM代理在TAGME构建的知识图谱(KG)上进行遍历对MD-QA的影响。具体来说，我们在表2中比较了通过ChatGPT、LLaMA、T5和MDR的指导，随机或智能选择下一个访问邻居的代理。因为随机代理只是在没有任何LLM指导的情况下盲目遍历KG，它不可避免地收集了不相关的段落，因此在LLMs指导下的性能比其他代理差。这与我们之前在图5中观察到的低精度相符，进一步证明了使用LLMs指导图遍历的必要性。有趣的是，我们发现KGP-T5的表现优于LLaMA，尽管LLaMA-7B的参数比T5-0.7B的要多。我们假设这是因为LLaMA-7B需要比T5-0.7B更多的数据进行微调。

敏感性分析

在这里，我们对分支因子（从候选邻居中选出的下一个要访问的节点数）进行了敏感性分析。在图7(a)-(b)中，随着分支因子的增加，性能首先提高，因为从候选邻居中选出的更多通道节点导致了更多的推理路径以到达最终答案。然而，当我们固定上下文预算以确保公平比较（即，我们允许为每个问题检索的通道总数在所有基线中是相同的）时，随着分支因子的增加，性能下降，因为初始播种节点的数量减少，导致对KG的覆盖率降低。此外，我们比较了构建的KG包含不同数量文档时KGP的效率，在图7(c)中。KGP一致地实现了比其他基线更高的性能和比基于嵌入的DPR更高的效率。TF-IDF比KGP略快，因为它是一种纯粹基于启发式的方法。

结论

回答多文档问题要求从不同文档中跨越各种模态进行知识推理和检索，这对于应用LLMs的‘预训练、提示和预测’范式提出了挑战。识别段落之间的逻辑关联和文档内的结构关系，我们提出了一种知识图谱提示方法（KGP）来帮助LLM在多文档问答（MD-QA）中。KGP从文档构建知识图谱，节点作为句子或文档结构，边作为它们的词汇/语义相似性/结构关系。由于构建的KG可能包含不相关的邻居，我们进一步设计了一个基于LLM的图遍历代理，它选择性地访问在接近问题时最有希望的节点。