我要投稿

大模型+小模型协同处理跨文档理解任务，成本更低，性能更高

发布日期：2024-07-16 11:38:52 浏览次数： 3301

作者：灵度智能

微信搜一搜，关注“灵度智能”

“Synergetic Event Understanding: A Collaborative Approach to Cross-Document Event Coreference Resolution with Large Language Models”

论文地址：https://arxiv.org/pdf/2406.02148

摘要

跨文档事件核指代解析（CDECR）涉及将跨多个文档引用的事件提及聚类到同一实际事件。本文提出了一种协作方法，利用大型语言模型（LLM）和任务特定的小语言模型（SLM）的能力。LLM通过提示准确全面地总结事件，然后SLM在微调过程中根据这些见解优化其对事件表示的学习。实验结果表明，该方法在各种数据集上均取得了最先进的性能，突显了其在不同场景中的有效性。

简介

事件指代消解是信息提取中的一个重要任务，尤其在跨文档事件指代消解方面存在挑战。现有工作尝试通过微调小语言模型来解决跨文档事件指代消解，但仍然面临着复杂多样的语境和学习伪特征的问题。

本文介绍了一种协作式的方法，结合了大规模语言模型和有监督序列标注模型，用于解决复杂文本中的事件关系抽取任务。该方法利用大规模语言模型的通用能力，对文本中的事件提取进行总结，然后将这些信息传递给有监督序列标注模型，以提高其对事件的理解和判断能力。实验结果表明，该方法在三个数据集上均取得了最优结果。

相关工作

CDECR早期研究使用机器学习方法和手动设计的特征，最近的神经方法利用SLM对事件提及进行编码，融合了SRL提取的不完整参数作为提及的表示。LLM在信息抽取任务中表现出色，但与监督式SLM相比仍存在差距。有研究直接使用IE任务的标记数据对LLM进行微调，但与训练SLM相比成本效益较低。

LLM和SLM的整合是一种新兴的方法，已经在一些复杂的信息抽取任务中得到了应用。这种方法的主要挑战在于如何找到合理的演示来处理NULL类型的三元组，同时也存在数据分布的偏移问题。与此不同的是，我们的方法只需要LLM执行通用任务，利用其内在能力来辅助特定任务。同时，其他研究也在利用LLM生成来辅助SLM处理CDECR任务，但这些方法需要处理多个提及对之间的关系，效率不如我们的方法。

方法

任务和基线

CDECR任务的目标是将跨多个文档的共引用事件进行分组并整合。我们将任务形式化如下：

输入：由多个文档组成的语料库，用D表示。设M表示语料库中提及的所有事件，k表示每个文档中提到的事件数，m ij表示文档i中提到的第j个事件。

输出：一组聚类，记作C。对于每一个簇Ck, ek表示簇Ck中包含的所有事件提及，ekj为簇Ck中被提及的第j个事件。

我们的基线包括两个关键的聚类模块：候选检索和成对分类。这两个模块主要使用RoBERTa编码器对上下文进行编码，并获得事件提及的矢量表示。我们将编码过程形式化如下：

对于每一个提到m ij的事件，其向量表示为：

得到的表示hij被输入到后续的神经网络中。

LLM摘要生成

为了处理各种类型的事件并从复杂的上下文中收集特定的细节，我们设计了一个两步工作流来提示LLM。第一步负责为文档上下文中不同类型的事件提取定制的信息。第二步的目的是扩展第一步输出中提到的实体的细节，因为实体细节通常分散在整个文档中。在每个步骤中，我们使用一个直接的提示来完成一个主要任务。我们的提示坚持简单的原则，避免额外的解释，以防止语义转移。与合成的单步工作流相比，我们的两步工作流保证每个步骤都专注于其主要目标，从而防止两个步骤之间的干扰。

在第一步中，我们指示LLM代理“详细说明”事件提及，而不是传统的“总结”指令。术语“阐述”意味着一种基于提及词本身概念的解释行为，强调来自文档上下文的细节支持。这表明LLM可以自动从上下文中选择任何相关的细节来支持这种解释，包括上下文单词、实体提及和事件提及。这提供了一种标准化和可行的方式来理解事件，利用LLM的内在知识和上下文理解能力，而不需要强加给LLM遵守复杂的规则。

在第二步中，我们提示LLM代理使用共同引用解析来聚合关于实体的详细信息，因为与事件相比，实体共同引用是一项更标准化的任务，并且在文档中执行它可以降低复杂性。此外，我们要求LLM根据文献的发布日期进行时间推理，进一步减少共参考证据比较中的歧义。

在这两个步骤中，我们指定了生成格式，以确保摘要中的提及范围与原始文档之间的一致性。这不仅降低了LLM的生成难度，而且有利于SLM在联合表示学习中建立两者之间的联系。

集成到最后的LLM

SLM将原始文档和生成的摘要作为输入。通过直接联合表示学习技术，新的提及向量表示可以无缝地集成到基线中。

对于提及m ij，设S ij表示生成的摘要，m ij (S)表示其中的提及。通过将原始文档d1和摘要s2连接起来，形成一个新的文档d1'。设fenc'表示新的编码器网络。它首先对新文档Di'进行编码，得到h ij和h ij (s)的向量表示，mij和mij。然后将这些向量连接起来，形成融合的提及向量表示h' ij，它可以无缝地替换基线中的h' ij，以进行后续操作。

联合表示学习过程可以表示为：

这种整合方法包括将原始上下文和生成的摘要连接起来进行联合表征学习，使得在相同的注意空间中相互学习彼此的上下文，从而增强对真正的参考相关术语的理解。

实验

实验设置

数据集。我们在三个CDECR数据集上进行了实验：事件参考库Plus (ECB+)、枪支暴力语料库(GVC)、和足球参考语料库(FCC)。

评估指标。我们使用包括MUC、b3、CEAF、CoNLL和LEA在内的指标进行评估。

直接用LLM预测CDECR的结构。我们使用不同的上下文学习方法(包括few-shot和zero-shot学习)，在不同的上下文(如完整上下文和包含提及的句子)下测试GPT-4的性能。

结果

本文的方法并在三个数据集上取得了新的最优结果，比之前的最佳结果和改进后的基线都表现更好，尤其在 FCC 数据集上表现显著。与 GPT-4 相比，该方法利用了 LLM 的潜在通用能力，效果更好。同时，本文还比较了 LLM 在摘要和结构预测中的效率。

LLM摘要的影响

本文研究了LLM摘要在减少错误链接方面的效果。错误链接分为两种类型：误报和漏报。误报分为两个子类型：由参数引起的误报和由类型引起的误报。本文方法在减少由参数引起的误报方面表现最佳，对FCC数据集的减少约为90%。相比之下，本文方法在减少漏报方面表现较差。本文方法的有效性受到表达风格差异和缺乏必要细节的影响。与LLM改写相比，LLM摘要在所有数据集上都表现更好。

消融分析

两步流程

通过剖析执行步骤的效果，发现第二步的全局信息扩展对于提高摘要质量更为重要，特别是在FCC数据集中。将两个步骤合并成一个步骤会导致性能下降，说明将多目标任务分解成多个独立步骤是必要的。文章还提供了错误分析和生成摘要长度的比较。

GPT-4在CDECR上的表现

结果表明，使用少量示例学习和包含提及的句子作为上下文的方法(FewMIS)可以使GPT-4达到最佳性能，但仅能达到与基于词形匹配的方法相当的结果。同时，使用全文本作为上下文会导致性能显著下降。此外，零样本学习表现出更高的召回率但显著较低的精度。研究还发现，GPT-4在区分相似但非指代性事件方面存在局限性，而在基于语义的显著叙述差异的指代性事件方面也存在困难。