我要投稿

知识图谱技术——知识图谱构建

发布日期：2024-08-12 07:45:21 浏览次数： 3066

作者：关于设计的

微信搜一搜，关注“关于设计的”

知识图谱按照逻辑结构可以划分为数据层和模式层两部分。数据层包含的是大量由基本事实组成的信息，这些事实通常以三元组的形式存在，例如"实体-关系-实体"或"实体-属性-属性值"，这样的数据结构一般以图数据库的形式存储。模式层则进一步抽象，它代表着数据组织的模式，是在数据层之上对知识进行提炼和概括的层面，通常通过本体库来管理和组织这些数据。

知识图谱的构建通常采用自动化技术，从结构化、半结构化到非结构化数据中提取知识，并将这些知识分别存储在模式层和数据层。构建过程主要分为两种方法：自顶向下和自底向上。

自顶向下方法首先构建模式层，然后基于此模式层构建数据层。模式层的创建通常依赖于从人工整理的高质量数据中提取本体和模式信息。随后，利用这些已建立的模式，从更广泛的数据源中抽取信息，以形成数据层。历史上，许多早期的知识库和知识图谱都是采用这种自顶向下的方式构建的。

自底向上方法则是先构建数据层，随后再构建模式层。这种方法通常首先通过自动化或半自动化技术，在海量数据中识别实体、关系和属性，以此构建知识图谱的数据层。之后，再根据数据层的内容来组织和构建模式层。自底向上的方法更适合处理超大规模的数据集，并且由于其能够处理更大的数据量并采用更自动化的方法，当前大多数知识图谱的构建都倾向于使用这种方法。

知识图谱的构建流程以自底向上的构建方式为例，系统接收各种类型的输入数据，并经过信息抽取、知识融合和知识加工三个关键步骤，最终输出一个完整的知识图谱。

1.信息提取

信息抽取是一个多维度的过程，它根据任务需求的不同而有所区别。例如，在情感和舆论分析任务中，重点在于抽取事件和情感信息，而在知识图谱的应用中，则更侧重于实体、关系和属性等信息的抽取。在知识图谱中，实体的属性，比如城市的人口数量和地理位置，是其固有属性的一部分。无论是实体、关系的抽取还是属性的抽取，都可以采用监督、半监督或无监督的方法进行。信息抽取主要处理的是半结构化和非结构化数据，通过这一过程，原本非结构化的数据可以转化为结构化数据，为知识图谱系统所用。

2.知识融合

知识融合是一个关键过程，它涉及将不同来源的数据进行整合和提炼，以构建知识图谱。在这一过程中，系统会处理多种类型的输入数据，包括：

直接可用的结构化数据：这些数据已经符合系统的标准，可以被程序直接读取和分析。

需要转换的半结构化和非结构化数据：通过信息抽取技术，这些数据将被转化为结构化形式，以便进一步处理。

第三方知识库提供的数据：这些数据来源于外部知识库，为系统提供额外的信息资源。

在处理这些数据时，会遇到信息冗余的问题。知识融合的目的是识别并整理这些冗余信息，消除重复和不一致，最终形成一个统一、连贯的知识体系。实现这一目标的核心技术包括实体消歧，即区分具有相同名称但代表不同实体的情况，以及指代消解，即确定文本中代词或短语所指的具体实体。"

3.知识加工

在知识抽取的过程中，我们生成了三元组数据，这些数据是构建知识图谱的基础。然而，尽管通过知识融合的步骤可以解决一些歧义问题，这些数据仍然没有形成深层的逻辑结构。因此，目前构建的知识图谱在质量上还需要进一步地验证。为了提高知识图谱的质量，我们需要在知识融合的基础上进行知识加工。这一步骤包括本体构建和质量评估，目的是完善知识图谱的逻辑结构，从而提升其整体质量。通过这样的加工过程，知识图谱将更加精确和有用。

本体构建：是知识图谱模式层构建的关键技术，主要任务是创建本体库。本体库通过公理、规则和约束来定义实体、关系、属性之间的联系。本体的构成要素主要包括以下几点：

（1）类或概念：这些是本体中的基本单元，可以是对象、任务、功能或行为等。它们包含定义和描述，以明确其内涵和外延。

（2）关系：关系描述了不同概念之间的联系。这些联系是多样的，例如：