我要投稿

Docs2KG：使用大模型自动构建知识图谱，降低企业知识图谱构建门槛

发布日期：2024-06-13 20:49:19 浏览次数： 3205 作者：灵度智能

对于企业来说，信息资产已经成为了核心资产，如何整理企业信息成为了亟待解决的问题。知识图谱是一个有效整理企业数据的手段，但是传统的知识图谱构建费时费力，需要大量人力整理数据，定义实体和关系，然后使用多个不同的模型提取信息。

Docs2KG提出了一种自动构建企业知识图谱的方案，基于大模型的智能化能力，协助企业高效率低成本的构建知识图谱。

项目主页：https://docs2kg.ai4wa.com/

论文地址：https://arxiv.org/pdf/2406.02962

摘要

80%的企业数据存储在非结构化文件中，这些文件以异构格式存储在数据湖中。传统搜索引擎已经无法满足信息检索需求，因此知识图谱成为了异构数据集成和知识表示的最佳选择。

Docs2KG可以从各种非结构化文档中提取多模态信息，并动态生成统一的知识图谱，从而实现对文档数据湖的高效查询和探索。与现有方法不同，Docs2KG提供了一种灵活可扩展的解决方案，可以适应各种文档结构和内容类型。该框架支持多种下游任务的数据处理，具有更好的领域可解释性。

简介

企业知识的价值大部分存在于非结构化文档中，占据了至少80%的企业数据湖。需要整合这些数据并提取有意义的信息，同时保留来源信息以减少错误。在医疗行业中，患者记录通常以手写的临床笔记、出院信、医生之间的电子邮件和医学图像等多种格式存在。需要解决三个关键挑战：从不同格式中提取多模态数据、将模态特定的信息提取模型整合到一个统一的框架中、以有意义的方式表示数据语义并引用来源。

本研究提出使用知识图谱作为统一表示，动态整合从每个模态提取的实体，包括布局实体以维护对源的引用。Docs2KG系统可以处理电子邮件、网页、PDF文件和Excel文件等多种数据格式。生成的知识图谱允许基于文档结构和内容进行动态和自动更新，并可扩展以允许人机交互。Docs2KG通过深度学习计算机视觉和标记结构化文档解析相结合的双路径策略，实现了统一的文档处理。生成的知识图谱可用于许多实际应用，如减少过时知识的风险和实现基于知识的检索增强生成。

相关工作

大部分构建知识图谱（KG）的方法都是从文本中提取信息。例如Connected Papers，可以帮助研究人员和学者找到和探索相关的学术论文。而Docs2KG则专注于处理异构的非结构化文档，其架构是动态生成的，可以根据文档结构自动调整。此外，Docs2KG还可以根据需要进行修改和扩展，更适用于各种类型的非结构化数据。

DOCS2KG

Docs2KG是一个用于处理异构和非结构化文档的工具，包括电子邮件、网页、PDF文件和Excel文件。它包括两个主要阶段：双路径数据处理和多模态统一知识图谱构建。处理后的信息与结构和语义关系相结合，存储在Neo4j图数据库中，以便进行高效的查询和直观的可视化。代码和文档都可以在线获得。

双路径数据处理

本文提出了一种双路径文档处理策略，用于处理不同类型的文档。其中，图像转换路径使用深度学习模型进行文档布局分析，而Markdown转换路径则将文档转换为Markdown格式，并使用XPath等查询语言。所有四种类型的文档都可以转换为图像，并利用文档布局分析将其分割为文本、图像和表格。同时，该文还介绍了四种独立的解析器，用于处理不同类型的Markdown文档。

Doc2KG可以解析PDF、网页、Excel和邮件等不同类型的文档，将不同类型的文档解析成统一的知识图谱：

解析PDF文件时，可以根据元信息判断是否需要使用Markdown Converter或Image Converter，对于扫描的PDF文件需要使用训练好的文档布局分析模型。
解析网页时，使用Python库BeautifulSoup进行HTML解析，提取文本和图片信息，并保留原始文档树结构作为布局知识图。
解析Excel文件时，使用Python库pandas提取数据，并将其转换为图片，然后通过Image Converter处理。
解析邮件时，使用Python库email将邮件分割成纯文本、HTML和附件，对文本和HTML部分进行类似于网页的处理，对附件根据格式使用相应的工具进行处理。

Doc2KG采用模块化的方法，可以灵活配置和组合处理模块，以优化计算资源的使用。

多模态统一知识图谱构建

完成数据处理后，Docs2KG将解析的信息统一为一个包含结构(层次和空间)和语义信息的多模态KG。多模态知识图谱的关系分为两种主要类型：模态内关系和模态间关系。

模态内关系构建：模态内关系包括标题层次和段落层次的结构关系，以及句子层次的语义关系。模态内关系可以表示为：

其中?表示多模态KG中的最小单位子图。?和?代表来自文本源的不同模态，包括文本(?)、段落(?)和句子(?)。符号(ℎ?，?，??)表示两个节点之间的构造方法，其中ℎ?(头实体)指向??(尾实体)。?表示关系，用结构或语义信息表示：

结构关系:` has-child `、` before `和` after `。
语义关系:' same time '， ' focus '， ' supported by '， ' explain '。

模态间关系构建：使用语义关系来表达不同模态之间的关系。这是因为模态内的层次关系和空间关系已经提供了明确的关系方向。模态间的关系可以表示为：

其中?表示最小单位子图。?表示句子，如表格标题。?表示表和图形。?是它们之间的语义关系:“explain”和“same-time”。

示例

本文展示了如何通过图查询和RAG应用来进行数据驱动分析。在RAG应用中，节点和关系被嵌入并进行相似性搜索，以识别锚点节点，并通过多跳查询扩展节点以检索相关信息，从而增强响应查询的提示。

知识图谱查询

演示案例包括一个PDF文件和一个Excel文件。PDF文件包含了2011年至2021年香港人口规模和结构的信息，而Excel文件包含了2021年至2023年人口普查的记录，包括按年龄组和性别分类的中期人口数据。

通过使用Docs2KG工具，将PDF文件和Excel文件解析并整合成一个知识图谱。通过查询这个知识图谱，可以提取相关信息。通过可视化图表，可以观察到PDF文件的引言部分提到了2011年和2021年发生的几个事件。

基于语义和结构接近度的信息检索

RAG方法提出了将更相关的信息直接整合到提示中以增强大型语言模型性能的思路。在多模态知识图中，相关性指的是节点的接近程度，可以是语义或结构上的。通过语义相似性搜索，使用嵌入模型检索相关文本块、图表等，选择前k个语义相关节点作为锚点节点，检索n跳语义和结构相关节点，从而增强提示。

总结

本文介绍了一个名为Docs2KG的开源框架，用于构建多模态知识图谱。与现有方法不同，该框架考虑了更加现实的场景，并能处理各种不同格式的非结构化数据，如网页、电子邮件、PDF文件和Excel文件。通过将这些多样化的数据源整合到一个统一的知识图谱中，并结合语义和结构信息，Docs2KG能够更全面、准确地表示知识，从而提高知识图谱在各个领域中的实用性和鲁棒性。