RAE：通过检索增强来完成事件提取任务

发布日期：2024-06-24 12:35:50 浏览次数： 1542

RAE：通过检索增强来完成事件提取任务

发布时间：2024 年 06 月 03 日

知识图谱 提示工程

Decompose, Enrich, and Extract! Schema-aware Event Extraction using LLMs
大型语言模型（LLMs）在处理自然语言数据方面能力卓越，能从多样的文本资源中高效提取知识，助力情境洞察与决策支持。但其易产生幻觉的弱点，导致上下文信息失真，引发担忧。本研究聚焦于利用 LLMs 自动提取事件，创新性地将任务拆分为事件检测与事件论元提取，以克服幻觉问题。同时，我们巧妙地将动态模式感知的增强检索示例融入定制提示，进一步拓展了检索增强生成等尖端提示技术的应用。在权威事件提取基准及合成基准的测试中，该方法均展现出超越传统方法的卓越性能。
https://arxiv.org/abs/2406.01045

null

1. 背景

前大语言模型时代，事件提取普遍使用的是基于Seq2Seq的方法，但是这种方法的弊端在于需要使用大量标注数据，这种数据标注一般既费时又费钱。而到了大语言模型时代，基于大语言模型的语境学习方法（In Context Learning，ICL）几不需要特定的标注数据集，也不需要模型Finetune（微调）。这种方法可以利用预训练大语言模型和少量的几个示例就可以使得模型完成复杂的事件提取（Event Extraction，EE）任务。

尽管ICL + LLM可以很好的完成EE任务，但是大语言模型的幻觉问题——即生成与事实不符或包含虚构信息的内容——使得这种方法的应用范围受到了限制。所以作者提出了一种新的思路和方法来完善和设计提示词，以降低模型产生幻觉的风险。

总体来说，作者的思路是：先将事件提取任务分解为事件检测（Event Detection，ED）和事件参数提取（Event Argument Extraction，EAE）两步。然后利用检索增强来获取最适合任务的示例用于Few Shot的构建。

这篇论文的作者来自澳大利亚的 Monash University，在最新的QS 2025排名中，该校排名38。

null

2. 具体步骤

null

上图展示了作者的整体框架，通过FAISS（向量数据库）来构建Few Shot，然后通过两步任务（ED和EAE）来完成事件提取任务。

2.1 任务分解

正如《Lost in the Middle: How Language Models Use Long Contexts》一文所说，当大语言模型的信息位于提示词中间时，大语言模型会出现Lost in the Middle的问题，这会严重影响事件提取的准确性。所以如果事件提取的提示词太长的话，提示词的效果会受到影响。

所以作者将事件提取任务分为两个步骤来执行：分别是事件检测（Event Detection，ED）和事件参数提取（Event Argument Extraction，EAE）。事件检测专注于识别事件触发词和类型；事件参数提取负责定义事件的各个参数。

下图是一个典型的事件检测（ED）的提示词示例：

null

下图是一个典型的事件参数提取（EAE）的提示词示例：

null

2.2 通过检索增强来构建Few Shot（Retrieval Augmented Examples，RAE）

与传统的模型训练（包括微调）相比，语境学习（ICL）最大的好处是可以大大减少对标注数据的依赖。但是传统的ICL使用的示例一般使用固定的，这会导致示例与输入内容之间缺乏变化，从而影响性能。

所以，作者根据每次输入的内容来动态调整输入的few shot示例来解决这个问题。通过检索增强（Retrieval Augumented），从现有的标注数据中检索出于事件提取（EE）相关的示例。

• 将所有的标注数据集（或其他训练数据集）转化为向量表示，这里作者使用了三种模型来测试效果，分别是：text-embedding-ada-002 (ADA-002)、Universal Sentence Encoder (USE) 和 RoBERTa-base。
• 然后使用FAISS（facebook开源的一个向量数据库）来存储全部标注数据的向量表示。
• 将待提取事件的内容也转化为向量表示，然后利用FAISS来根据相似度高低进行检索。
• 将检索到的上下文与Prompt模板进行结合，从而实现事件提取。

3. 效果咋样？

null

上图展示了在三个数据集上的测试结果，其中 Trig-C 代表触发词的识别与分类，而 Arg-C 代表参数的识别与分类。采用 F1 分数作为评价标准。* 表示该模型已在训练集上进行了微调。大型语言模型（LLMs）通过直接的上下文学习进行了测试，并未经过训练或微调。

实验结果表明：结合动态检索的增强示例（RAE）——即与查询文本最为相关的示例——LLMs在EE领域表现出色。

3.1 将任务分解为两步的效果

上表中，Ours without Decomp 表示不参用任务分解的方式进行事件提取。这种方式的弊端是完整的提示词因为要兼具多个任务的内容，所以提示词会非常冗长，需要使用更大的OpenAI模型（比如：GPT-4-32K），并且会出现 lost in the middle 的问题。而利用分步任务来执行时，效果会有所提升，比如：在5次示例的RAE设置中，使用ChatGPT（gpt-3.5-turbo）进行分解式提示可以在ACE05-En数据集上分别提升ED和EAE的F1分数8.3和4.64个百分点。

3.2 检索增强示例（RAE）的对比

null

作者对比了三个Embedding模型的效果，结果表明：OpenAI的 text-embedding-ada-002 模型是效果最好的。

• 论文原文: https://arxiv.org/abs/2406.01045
• 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
• 加入社群，+v: iamxxn886

53AI，大模型落地应用首选服务商

定位：开箱即用的大模型落地应用平台

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

年轻人！来一起搞AI吗?

如果你看见AI对商业世界的变革，欢迎来和我们一起探索~

岗位：销售经理

查看详情

岗位：项目经理

查看详情

岗位：产品经理

查看详情

岗位：测试工程师

查看详情

160+中大型企业正在使用53AI

立即咨询申请演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

2024-04-24

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

实测：本地跑llama3:70B需要什么配置

2024-04-24

超简单在本地部署Llama3的方案

2024-04-23

“大数据+”医疗

2024-04-11

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

RAG系列04：使用ReRank进行重排序

2024-03-22

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

2024-03-29

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

2024-04-25

大家都在问

实用指南｜如何提升 RAG Pipeline 效果？

2024-07-03

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

2024-07-02

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

2024-07-02

为什么很多人都放弃LangChain了？

2024-07-01

ChatGPT、Claude的数据分析能力已经到了何种水平？

2024-07-01

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

2024-07-01

AI大模型：开源还是闭源？

2024-06-30

langchain创始人分享：什么是Agent？

2024-06-30

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

RAE：通过检索增强来完成事件提取任务

1. 背景

2. 具体步骤

2.1 任务分解

2.2 通过检索增强来构建Few Shot（Retrieval Augmented Examples，RAE）

3. 效果咋样？

3.1 将任务分解为两步的效果

3.2 检索增强示例（RAE）的对比

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

大家都在问

实用指南 ｜ 如何提升 RAG Pipeline 效果？

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

AI大模型：开源还是闭源？

langchain创始人分享：什么是Agent？

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

实用指南｜如何提升 RAG Pipeline 效果？