我要投稿

Docs2KG：基于大模型的非结构化异构文档统一知识图谱自动构建

发布日期：2024-06-21 18:05:31 浏览次数： 2352 作者：PaperAgent

目前市场上的一些工具专注于检索增强生成 (RAG) 流程或如何让大型语言模型 (LLM) 在本地运行。更广泛的社区包括个人用户、小型企业，甚至大型企业。其中一些人可能已经开发了知识库，这些数据都是非结构化的，并且分布在不同的地方。

通过结合PDF文件和Excel文件，演示查询“显示所有与2011年和2021年发生的事件相关的文档及其组成部分。” PDF文件包含2011年至2021年香港的人口规模和结构信息。Excel文件包含2021年至2023年的人口普查记录。（青色表示PDF文档；绿色用于Excel文件；红色为PDF页面；卡其色为标题；海洋蓝为段落）

鉴于非结构化和异构数据的性质，信息提取和知识表示带来了重大挑战。因此提出了Docs2KG，这是一个新颖的框架，旨在从多种异构非结构化数据源（包括电子邮件、网页、PDF文件和Excel文件）中提取多模态信息。Docs2KG 动态生成表示提取信息的统一知识图谱，从而实现高效的数据查询和探索。与专注于特定数据源或预先设计的模式的现有方法不同，Docs2KG提供了一种灵活且可扩展的解决方案，可以适应各种文档结构和内容类型。所提出的框架不仅简化了数据处理，而且还提高了跨不同领域的模型的可解释性。

Docs2KG总体架构

双路数据处理会处理来自多个来源的数据。有些数据，例如导出的PDF文件、Excel文件等，可以通过编程解析器进行处理。所以一般会先转换成markdown，然后再转换成统一知识图谱。对于扫描的PDF、图片等数据，需要借助文档布局分析和OCR来提取信息，然后将提取的信息转换成markdown，然后根据输出生成统一的多模态知识图谱。

布局知识图谱

文档的布局有助于我们理解文档的结构。
因此，在统一的多模态知识图谱中体现它也是必要且重要的。

语义知识图谱

当阅读文献时，大脑会对语义联系感兴趣的部分。
在LLM的帮助下，可以尝试从文档中提取语义联系。
这可以帮助人类从语义角度更好地理解文档。

Docs2KG实施的系统架构

总体步骤包括：

数据处理

双路径数据处理
将来自不同来源、不同格式的文档转换为 Markdown、CSV、JSON 等。

统一的多模态知识图谱构建
GraphDB加载器

将统一的多模态知识图谱加载到GraphDB 中
使用Neo4j作为GraphDB

下游应用基于向量的RAG：

首先获取每个节点的嵌入，然后使用查询的嵌入进行相似性搜索以提取图内的锚节点。使用这些节点作为锚节点，进行多跳信息提取来增强查询。使用LLM根据增强查询进行最终生成。

https://arxiv.org/pdf/2406.02962Docs2KG: Unified Knowledge Graph Construction from Heterogeneous Documents Assisted by Large Language Modelspip install Docs2KGhttps://docs2kg.ai4wa.com/