微信扫码
与创始人交个朋友
我要投稿
发布时间:2024 年 03 月 25 日
RAG
数据整合
实体匹配
Disambiguate Entity Matching through Relation Discovery with Large Language Models
在数据整合和清洗领域,准确实现实体匹配至关重要,它对于执行模糊连接和去重等任务起着核心作用。传统方法试图通过编辑距离、Jaccard 相似度等技术,以及嵌入技术和深度神经网络,比如 GPT 这样的大型语言模型的进步,来解决术语模糊的问题。但实体匹配的真正难题不仅在于术语的不确定性,更在于如何界定“匹配”的标准,特别是在整合外部数据库时。由于实体的细节程度和粒度不同,这种歧义使得精确匹配变得更加困难。我们提出了一种创新的方法,不再单纯追求实体间的语义相似性,而是转而关注理解和明确实体间“关系”的定义,这对于解决匹配过程中的歧义至关重要。通过预设与当前任务相关的关系集,我们的方法使得分析师能够更加高效地处理从精确匹配到概念关联实体的各种相似性问题。
在数据融合、数据清洗等任务里,实体匹配是一个很关键的步骤。传统的实体匹配一般通过embedding模型来计算实体间的距离;大语言模型出现后,也可以用来解决实体间的模糊匹配问题。作者举了几个例子来阐述传统方法的弊端:
上图是使用ada-002 embedding及其欧几里得距离来对实体的相似性进行排名。但是,表2中的许多实体与表1中的实体之间的关系类型很多,导致这样的匹配比较混乱。
上图是使用GPT-4进行实体匹配会引起对“匹配”一词含义的歧义。如果“匹配”意味着“完全相同”,那么这个定义过于严格,在实际应用中并不实用,因为没有实体能够匹配。
发现源实体和目标实体之间的关系,以消除实体匹配的歧义。即使没有完全相同的实体,也可以选择某种预先设定的关系来进行实体匹配。
按照标准的数据模型,假设两个表格R1和R2。传统的实体匹配(EM)寻找一个函数( f ):
这个函数f通过给出f(R1, R2) = 1 来判断一对实体R1、R2是否“匹配”,表明它们指的是完全相同的实体;否则,它产生f(R1, R2) = 0。
然而,在实践中,在外部数据库中找到完全相同的匹配是罕见的,所以用户也寻求以不同方式相关的实体。因此,作者提出在关系概念域D中,基于关系的EM寻找一个匹配函数f:
对于每个三元组d, R1, R2,其中d in D表示一种关系类型(例如“是”,“包含”),如果R1和R2通过关系d相关,则f(d, R1, R2) = 1,否则 f(d, R1, R2) = 0。基于关系的EM推广了传统EM,因为“完全相同”可以被视为许多可能关系中的一种。
其中:
• 关系不是互斥的。一个实体可以与另一个实体有多种关系。
• 有些关系,如“包含”,是一对多的。
• 当给定的关系d与多个实体R1相关联时,如何选择它们之间最佳的匹配取决于这种关系,并且可能需要一个手动过程。基于关系实体匹配的一个后处理步骤。
整个系统分为两个部分:离线部分和在线部分。
离线时,分析师决定与任务相关的实体之间的关系,并对外部表格进行预处理,以加速在线实体匹配。
分析师在离线头脑风暴会议期间定义了一套与任务密切相关的关系。为了确定这些关系,分析师通常会首先手动执行实体匹配。然后,他们会分析对任务有用的模式和常见关系。关系规范的具体性至关重要,通常通过在少样本学习环境中使用示例来加强。这个过程是迭代的,涉及头脑风暴和验证,关系随着时间的推移可能会得到改进。
• 完全相同:适用于相同的实体,但使用了同义词或缩写。例如,“小型汽车”是“小型轿车”的同义词。
• 一般性无额外细节:适用于作为输入实体的一般性上类,而不包含额外细节的实体。例如,“小型车辆”和“轿车”作为“小型轿车”的一般性分类。
• 类似但带有额外细节:适用于包含额外假设或特性的实体。例如,“电动车”增加了“小型轿车”未暗示的电力特性。
• 类似但带有错误细节:适用于与输入实体细节相矛盾的类似实体。例如,“大型轿车”与“小型轿车”中的“小型”细节相矛盾,但它们都是“轿车”。
• 组成部分:适用于给定实体的部件或成分。例如,“发动机”作为“小型轿车”的一个组成部分。
在线阶段,当提供用户表格时,我们会执行实体匹配,发现关系,并根据分析师的具体任务进行后处理。
检索增强生成。我们为每个元组t in R和每个指定的关系d生成提示。给定t,我们从R2中检索一组在嵌入空间中与t接近的d实体。提示会询问,对于每个t实体,它是否通过关系d与t2相关。为了提高准确性并帮助解释,我们采用标准的思考链过程。这些提示随后由大型语言模型(默认为GPT-4)处理。
上图是用来完成在线部分的提示词模板。
在识别了关系之后,我们将结果呈现给分析师进行后续处理。这个步骤是迭代的,从“完全相同”的匹配开始。如果没有找到合适的匹配,该过程将继续沿着预定义的关系列表寻找下一个最佳的估计。
Arxiv[1]
if like_this_article():
do_action('点赞')
do_action('再看')
add_wx_friend('iamxxn886')
if like_all_arxiv_articles():
go_to_link('https://github.com/HuggingAGI/HuggingArxiv') star_github_repo(''https://github.com/HuggingAGI/HuggingArxiv')
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-08-13
2024-05-10
2024-05-28
2024-04-26
2024-04-12
2024-04-25
2024-05-06
2024-07-25
2024-05-14