微信扫码
与创始人交个朋友
我要投稿
SmartFlowAI
点击上方蓝字关注我们
作者:羰汤羰
全文约 3500 字,预计阅读时间 9 分钟
ZHONG L, WU J, LI Q, et al. A Comprehensive Survey on Automatic Knowledge Graph Construction[M]. arXiv, 2023. http://arxiv.org/abs/2302.05019. DOI:10.48550/arXiv.2302.05019.
上期文章我们已经从基于树结构的大模型推荐系统过渡到了基于图结构的。但是人工构建和维护知识图谱所需耗费的成本也是显而易见的。
也是因为之前有社区同学提到知识图谱在产业界落地难,基于大语言模型的 KG 更难,所以本期我们介绍一篇关于自动构建 KG 的综述。
这篇综述与其他类似工作的主要区别在于它提供了对自动知识图谱构建领域的全面和系统性的回顾。它不仅总结了超过 300 种方法,覆盖了从知识获取、知识精炼到知识演化的整个知识图谱构建过程,而且还根据数据环境、动机和架构对这些方法进行了细致的分类和比较。此外,这篇综述还提供了对可用资源(包括具有代表性的 KG 项目、数据集和构建工具)的简要介绍,帮助读者开发实用的知识图谱系统,并对领域的挑战和未来方向进行了深入讨论。
由于论文中各章节都列出了大量现有 KG 项目或工具,大家可以自己去原文中查看自己感兴趣部分的相关工具,本文不再列举
在正文开始前,我们还需要对知识图谱构建任务进行定义:
其中即数据源,即数据源的“背景知识”。正如数学符号所示,“背景知识”通常并不是类似数据源的文本、表格等,而是在开始获取知识前设计的一系列规则或表征语言模型。
在构建知识图谱之前,需要去除半结构化数据中的噪声并保留知识内容。这一预处理过程包括两个主要任务:内容提取和结构解释。
在针对基于网页内容的提取时,人工提取往往是不现实的。自动内容提取方法主要包括基于包装器(wrapper)(或者说基于规则)的方法(早期办法)和基于统计的方法。
基于包装器的方法通过专家手动编写的匹配规则来捕获信息内容(例如使用正则表达式、xpath等对 HTML 进行解析),但其缺点是显而易见的——费力且对于网页结构变化的适应性较差。
而基于统计的方法则利用网页的统计特征来提取信息内容。这些方法通常会计算网页中各个部分的文本密度、标签数量、链接路径等统计指标,然后根据这些指标来判断哪些部分可能包含有用的信息。例如,一个常见的假设是信息丰富的子序列包含足够多的单词和较少的标签。基于统计的方法不需要预先定义复杂的规则,因此在处理大量网页时更加灵活和高效。然而,这种方法可能会错过一些不遵循常规统计模式的信息内容。
结构解释的任务是过滤掉装饰性的非关系型表格结构,以便获取关系信息。这涉及到将表格分类为信息性表格或非信息性表格(二分类问题),并进一步分析表格结构的语义特征。具体来说,可以使用支持向量机(SVM)和决策树等机器学习模型来分类表格,并结合表格的布局和内容类型特征进行分类。
知识获取是构建知识图谱的关键步骤之一,这一过程包括实体识别、共指解析(Coreference Resolution)和关系提取三个主要任务。
定义:
实体识别的任务是从半结构化或结构化数据中发现实体,并对其进行分类。这包括命名实体识别(NER)、实体类型分类和实体链接。命名实体识别旨在从文本中识别出具有特定意义的实体,如人名、地点、组织等,并对它们进行分类。实体类型分类则是对已识别的实体进行更细致的分类,如科学家、俱乐部、酒店等。实体链接则是将发现的实体与知识图谱中的现有节点相连接,如果不存在相应的节点,则创建一个新的节点来表示该实体。
除了前面在“半结构化数据预处理”中提到的基于规则和基于统计的方法,深度学习方法也在近年来在 NER 任务中取得了显著的进展。这些方法通常将 NER 视为seq2seq(词序列到标签序列)的模型,使用循环神经网络(RNN)、长短期记忆网络(LSTM)或门控循环单元(GRU)来处理文本序列,并使用条件随机场(CRF)层来输出实体标签。此外,还有使用卷积神经网络(CNN)、图卷积(GCN)和注意力机制(attention mechanism)的方法,它们能够更好地捕捉局部和全局的上下文信息。
另外,如 BERT(Bidirectional Encoder Representations from Transformers)等预训练语言模型在 NER 任务中也表现出色。这些模型通过在大规模语料库上预训练,学习到丰富的语言表示,然后在特定的 NER 任务上进行微调,以适应特定领域的实体识别需求。
ET 面临着两个主要挑战:
罕见的细粒度类型(infrequent fine-grained types,下面简称为 IFT),即某些特定类型的实体可能在数据集中很少出现,这使得模型难以学习到这些类型的特征。
过于具体的类型标注(overly-specific typing,下面简称为 OST),即实体可能被赋予了过于详细的类型标签(即“数据噪声”),这些标签尽管本身没错,但可能并不适合当前的数据语境。
针对 IFT 问题,Shimaoka 等人[1] 提出了一种基于 LSTM 的注意神经网络,该模型利用层次化的标签编码与提及(mention)和上下文表征相结合来提取细粒度的上下文特征。
针对 OST 问题,Xu 等人[2] 将一个 out-of-context loss 函数应用于具有多个标签的实体(比如“唐纳德·川普是一个政治家和商人”)来过滤掉过度具体的数据噪声,并假定获得最高概率的标签是被正确标记的。
为了进一步探索上下文场景,Zhang等人[3]引入了文档级表征,为发现实体提供了全局上下文。然后使用 sentence-level 的上下文表征模型来对齐出现在不同句子中的相同实体表征。最后由自适应概率阈值生成不同上下文中实体类型的标签。
另外,文中还提到采用基于嵌入的模型利用全局图的结构特征和背景知识,通过表征来预测实体的潜在类型。
EL 的一个重要作用是消除实体歧义。比如当实体“Tesla”单独出现而没有语境时,我们不知道它指代的是汽车公司,还是具体某个人,亦或是别的事物;而将其与其对应的上下文信息节点连接起来,歧义就可以得到极大减轻或消除。
对于半结构化数据,实体链接使用来自表头、类别标签、单元格文本和超链接的语义提示来识别实体。对于非结构化文本,EL 模型专注于提及实体的上下文表征。
基于统计的方法(尤其是基于概率图和 SVM 模型)是一种处理半结构化和非结构化数据的通用解决方案。基于概率图的方法构建一个表格中被提及内容的概率图,然后通过计算节点的语义因子来链接实体。例如,Limaye等人[5] 提出的基于TF-IDF算法的因子图,用于计算实体标签与“单元格-文本”对和类型标签与“列-头”对的术语频率。
SVM 模型将实体链接视为一个分类任务。例如,Mulwad等人[6] 开发了一个基于SVMRanker的模型,该模型可以确定哪些潜在的节点可以链接到目标实体。类似地,Guo等人[7] 提出了一个非结构化数据的概率模型,该模型在执行与非结构化数据连接任务时利用实体、上下文和名称的先验概率。
基于嵌入的模型也是实体链接的关键解决方案。例如,早期的研究人员[8] 使用词袋模型(BoW)来获取实体对应的提及内容的上下文嵌入,然后通过聚类来收集链接的实体对。后来,Lasek等人[9] 扩展了BoW模型,为实体链接任务增加了语言嵌入。EDKate [10]共同学习了实体和单词在知识库和文本数据中的低维嵌入,捕获了在BoW模型之外的内在实体提及特征。此外,Le和Titov [11]对嵌入上下文中提及之间的潜在关系进行建模,利用提及和关系归一化对成对一致性评分函数进行评分。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-04-12
2024-05-14
2024-05-10
2024-05-28
2024-07-18
2024-04-25
2024-05-22
2024-04-26
2024-11-29
2024-11-27
2024-11-26
2024-11-26
2024-11-25
2024-11-25
2024-11-25
2024-11-25