我要投稿

RAE：通过检索增强来完成事件提取任务

发布日期：2024-06-24 12:35:50 浏览次数： 2725

作者：大语言模型论文跟踪

微信搜一搜，关注“大语言模型论文跟踪”

RAE：通过检索增强来完成事件提取任务

发布时间：2024 年 06 月 03 日

知识图谱 提示工程

Decompose, Enrich, and Extract! Schema-aware Event Extraction using LLMs
大型语言模型（LLMs）在处理自然语言数据方面能力卓越，能从多样的文本资源中高效提取知识，助力情境洞察与决策支持。但其易产生幻觉的弱点，导致上下文信息失真，引发担忧。本研究聚焦于利用 LLMs 自动提取事件，创新性地将任务拆分为事件检测与事件论元提取，以克服幻觉问题。同时，我们巧妙地将动态模式感知的增强检索示例融入定制提示，进一步拓展了检索增强生成等尖端提示技术的应用。在权威事件提取基准及合成基准的测试中，该方法均展现出超越传统方法的卓越性能。
https://arxiv.org/abs/2406.01045

null

1. 背景

前大语言模型时代，事件提取普遍使用的是基于Seq2Seq的方法，但是这种方法的弊端在于需要使用大量标注数据，这种数据标注一般既费时又费钱。而到了大语言模型时代，基于大语言模型的语境学习方法（In Context Learning，ICL）几不需要特定的标注数据集，也不需要模型Finetune（微调）。这种方法可以利用预训练大语言模型和少量的几个示例就可以使得模型完成复杂的事件提取（Event Extraction，EE）任务。

尽管ICL + LLM可以很好的完成EE任务，但是大语言模型的幻觉问题——即生成与事实不符或包含虚构信息的内容——使得这种方法的应用范围受到了限制。所以作者提出了一种新的思路和方法来完善和设计提示词，以降低模型产生幻觉的风险。

总体来说，作者的思路是：先将事件提取任务分解为事件检测（Event Detection，ED）和事件参数提取（Event Argument Extraction，EAE）两步。然后利用检索增强来获取最适合任务的示例用于Few Shot的构建。

这篇论文的作者来自澳大利亚的 Monash University，在最新的QS 2025排名中，该校排名38。

null

2. 具体步骤

null

上图展示了作者的整体框架，通过FAISS（向量数据库）来构建Few Shot，然后通过两步任务（ED和EAE）来完成事件提取任务。

2.1 任务分解

正如《Lost in the Middle: How Language Models Use Long Contexts》一文所说，当大语言模型的信息位于提示词中间时，大语言模型会出现Lost in the Middle的问题，这会严重影响事件提取的准确性。所以如果事件提取的提示词太长的话，提示词的效果会受到影响。

所以作者将事件提取任务分为两个步骤来执行：分别是事件检测（Event Detection，ED）和事件参数提取（Event Argument Extraction，EAE）。事件检测专注于识别事件触发词和类型；事件参数提取负责定义事件的各个参数。

下图是一个典型的事件检测（ED）的提示词示例：

null

下图是一个典型的事件参数提取（EAE）的提示词示例：

null

2.2 通过检索增强来构建Few Shot（Retrieval Augmented Examples，RAE）

与传统的模型训练（包括微调）相比，语境学习（ICL）最大的好处是可以大大减少对标注数据的依赖。但是传统的ICL使用的示例一般使用固定的，这会导致示例与输入内容之间缺乏变化，从而影响性能。

所以，作者根据每次输入的内容来动态调整输入的few shot示例来解决这个问题。通过检索增强（Retrieval Augumented），从现有的标注数据中检索出于事件提取（EE）相关的示例。

• 将所有的标注数据集（或其他训练数据集）转化为向量表示，这里作者使用了三种模型来测试效果，分别是：text-embedding-ada-002 (ADA-002)、Universal Sentence Encoder (USE) 和 RoBERTa-base。
• 然后使用FAISS（facebook开源的一个向量数据库）来存储全部标注数据的向量表示。
• 将待提取事件的内容也转化为向量表示，然后利用FAISS来根据相似度高低进行检索。
• 将检索到的上下文与Prompt模板进行结合，从而实现事件提取。

3. 效果咋样？

null

上图展示了在三个数据集上的测试结果，其中 Trig-C 代表触发词的识别与分类，而 Arg-C 代表参数的识别与分类。采用 F1 分数作为评价标准。* 表示该模型已在训练集上进行了微调。大型语言模型（LLMs）通过直接的上下文学习进行了测试，并未经过训练或微调。

实验结果表明：结合动态检索的增强示例（RAE）——即与查询文本最为相关的示例——LLMs在EE领域表现出色。

3.1 将任务分解为两步的效果

上表中，Ours without Decomp 表示不参用任务分解的方式进行事件提取。这种方式的弊端是完整的提示词因为要兼具多个任务的内容，所以提示词会非常冗长，需要使用更大的OpenAI模型（比如：GPT-4-32K），并且会出现 lost in the middle 的问题。而利用分步任务来执行时，效果会有所提升，比如：在5次示例的RAE设置中，使用ChatGPT（gpt-3.5-turbo）进行分解式提示可以在ACE05-En数据集上分别提升ED和EAE的F1分数8.3和4.64个百分点。