我要投稿

知识图谱构建的第一步|知识抽取

发布日期：2024-05-27 22:01:34 浏览次数： 3580

作者：AI数智汇

微信搜一搜，关注“AI数智汇”

今天我们来聊聊知识图谱构建的第一步—知识抽取。

知识图谱构建的流程，参照下图可简单可以概述为：获取结构化、半结构化、非结构化数据，经过实体、关系、属性、事件及知识抽取，完成知识表示，并进一步完成实体对齐和推理，最终形成完整的知识图谱并应用到具体的业务场景中。

本文主要将讲述知识抽取的相关内容。知识抽取的定义是：从不同来源，不同结构的信息源中进行知识提取，形成结构化的知识并存储到知识图谱中。

虽然我们经常说知识抽取是知识图谱构建的第一步，但严格意义上，知识抽取是建立在获取到的各种类型数据的基础之上的。获取方法多种多样，通常有众包法、爬虫法、机器学习法和专家法 4种，标准化白皮书中具体介绍了这4过程，其过程、原理等内容不是知识图种方法。数据获取更像是数据采集的重点，因此不做过多讲解。

知识抽取通过一系列自动化，半自动化的技术手段，从结构化、半结构化、非结构化的数据中提取实体、关系及属性等知识要素，并以此为基础，形成一系列高质量的事实表达，为模型层的构建奠定基础。

在日常的生产生活中，绝大多数情况下获取的都是非结构化的数据，尤以文本数据居多。为了更透彻地学习知识抽取的内容，接下来以文本数据为例，介绍知识抽取的任务。

实体抽取

实体抽取也称为实体识别，是指从文本语料库中自动识别出专有名词(如机构名、地名、人名、客户、卡号等)，以及有意义的时间或名词性短语。经过实体抽取之后得到的命名实体、普通名词短语以及代词等称为实体，实体抽取的准确性将直接影响知识抽取的质量和效率，因此实体抽取也是知识图谱构建和知识抽取的基础与关键。

早期实体抽取方法主要面向单一领域，关注如何识别出文本中的机构名、人名、地名等专有名词的实体信息。这一期间产生了基于规则的方法但这类方法具有明显的缺点和局限性，可扩展性差以至于难以适应数据的变化，还需要耗费大量人力手工处理。

为了解决这些问题，相继提出了基于规则和监督学习相结合的方法、半监督方法、远程监督方法以及海量数据自学习方法等。随着命名实体识别技术不断取得进展，学术界不再限定特定的知识领域，而是面向开放的互联网，研究和解决全网知识抽取问题。为了研究开放域知识抽取的问题，需要先建立一个可以指导算法研究的完整的科学命名实体分类体系，同时该分类体系要便于对抽取得到实体指数据进行管理。

关系抽取

与实体抽取相比，关系抽取更加复杂，大多数关系都有一定的隐含性关系表示不明显)和关系自身的复杂性(不同实体之间有多对关系或者同-实体的不同关系)。

统计机器学习方法通过对实体间关系的模式进行建模，替代预定义的语法和语义规则。而大量基于特征向量或核函数的有监督学习方法，也使得关系抽取的准确性不断提高。由于在相似度计算过程中对匹配约束比较严格基于该函数方法的召回率普遍较低，因此后续主要围绕改进召回率展开研究。

随着语料的增多，以及深度学习在图像和语音领域获得成功，知识抽取也逐渐转向了基于神经模型的研究。有人提出联合抽取模型，利用神经网络模型不需要加入太多特征(词向量、位置等)的特点，可以同时抽取实体之间的关系。联合抽取模型的优点是可以避免流水线模型存在的错误累积。但无论是流水线方法还是联合抽取方法，都属于有监督学习，因此需要大量的训练语料，尤其是采用神经网络的方法，需要大量的语料进行模型训练，但这些方法都不适用于构建大规模的知识图谱。近年来关系抽取的研究重点逐渐转向半监督和无监督的学习方式，并已经有一系列的成果。

属性抽取

属性主要是针对实体而言的，以实现对实体的完整描述。由于可以把实体的属性看作实体与属性值之间的一种名词性关系，因此属性抽取任务就可以转化为关系抽取任务。

对属性抽取的任务来说，尽管可以从百科类网站获取大量实体属性数据，但大量的实体属性数据隐藏在非结构化的公开数据中。如何从海量的非结构化数据中抽取实体属性是值得关注的问题。一种方案是基于百科类网站的半结构化数据，通过自动抽取生成训练语料，以此训练实体属性标注型，然后将其应用于对非结构化数据的实体属性抽取上。另一种方案是直接挖掘文本中实体属性与属性值之间的关系，据此实现对属性名和属性值在文本中的定位。这种方法的基本假设是属性名和属性值之间有位置上的关联关系。事实上，在真实语言环境中，许多实体属性值附近都存在一些限制和界定该属性值含义的关键词(属性名)，在自然语言处理技术中将这类属性称为有名属性，因此可以利用这些关键词来定位有名属性的属性值。

事件抽取

事件是指发生在某个特定时间点或时间段以及某个特定地域范围内，由一个或者多个角色参与的动作组成的事情/状态的改变。目前已存在的知识资源(如维基百科等)所描述的实体及实体间的关联关系大多是静态的，而一个事件可能会分布在多个句子中，并且要同时考虑多个元素，但事件能够描述粒度更大的、动态的、结构化的知识，它是现有知识资源的重要补充。

通俗地说，事件抽取技术就是从种类众多的非结构化信息中，抽取出实体之间有价值的事件，并以结构化的形式辅助实体的知识图谱构建。事件抽取任务可以进一步分解为 4 个子任务--触发词识别、事件类型分类、论元(语言学概念，用来表示动作或事件的参与者)识别和角色分类，触发词识别和事件类型分类又可以合并称为事件识别任务，而事件识别是判断句子中的每个单词归属的事件类型，是一个基于单词的多分类任务。论元识别和角色分类可以合并称为论元角色分类任务，论元角色分类任务是一个基于词对的多分类任务，判断句子中任意一对触发词和实体之间的角色关系

另外，事件抽取任务又可以分为两个大类:元事件抽取及主题事件抽取。其中，元事件表示一个动作的发生或状态的变化，往往由动词驱动，也可以由能表示动作的名词等其他词性的词来触发，它包括参与该动作行为的主要成分，如时间、地点、人物等。而主题事件包括事件或活动，它可以由多个元事件片段组成。当前研究主要是面向元事件抽取，而对主题事件抽取的研究较少。