AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Docs2KG:基于大模型的非结构化异构文档统一知识图谱自动构建
发布日期:2024-06-21 18:05:31 浏览次数: 2045 来源:PaperAgent


目前市场上的一些工具专注于检索增强生成 (RAG) 流程或如何让大型语言模型 (LLM) 在本地运行。更广泛的社区包括个人用户、小型企业,甚至大型企业。其中一些人可能已经开发了知识库,这些数据都是非结构化的,并且分布在不同的地方。

通过结合PDF文件和Excel文件,演示查询“显示所有与2011年和2021年发生的事件相关的文档及其组成部分。” PDF文件包含2011年至2021年香港的人口规模和结构信息。Excel文件包含2021年至2023年的人口普查记录。(青色表示PDF文档;绿色用于Excel文件红色为PDF页面;卡其色为标题;海洋蓝为段落

鉴于非结构化和异构数据的性质,信息提取和知识表示带来了重大挑战。因此提出了Docs2KG,这是一个新颖的框架,旨在从多种异构非结构化数据源(包括电子邮件、网页、PDF文件和Excel文件)中提取多模态信息。Docs2KG 动态生成表示提取信息的统一知识图谱,从而实现高效的数据查询和探索。与专注于特定数据源或预先设计的模式的现有方法不同,Docs2KG提供了一种灵活且可扩展的解决方案,可以适应各种文档结构和内容类型。所提出的框架不仅简化了数据处理,而且还提高了跨不同领域的模型的可解释性。
Docs2KG总体架构
双路数据处理会处理来自多个来源的数据。有些数据,例如导出的PDF文件、Excel文件等,可以通过编程解析器进行处理。所以一般会先转换成markdown,然后再转换成统一知识图谱。对于扫描的PDF、图片等数据,需要借助文档布局分析和OCR来提取信息,然后将提取的信息转换成markdown,然后根据输出生成统一的多模态知识图谱
  • 布局知识图谱
    • 文档的布局有助于我们理解文档的结构。
    • 因此,在统一的多模态知识图谱中体现它也是必要且重要的。
  • 语义知识图谱
    • 当阅读文献时,大脑会对语义联系感兴趣的部分。
    • 在LLM的帮助下,可以尝试从文档中提取语义联系。
    • 这可以帮助人类从语义角度更好地理解文档。
Docs2KG实施的系统架构

总体步骤包括:

  • 数据处理
    • 双路径数据处理
    • 将来自不同来源、不同格式的文档转换为 Markdown、CSV、JSON 等。
  • 一的多模态知识图谱构建
  • GraphDB加载器
    • 将统一的多模态知识图谱加载到GraphDB 中

    • 使用Neo4j作为GraphDB

  • 下游应用基于向量的RAG:

    • 首先获取每个节点的嵌入,然后使用查询的嵌入进行相似性搜索以提取图内的锚节点。使用这些节点作为锚节点,进行多跳信息提取来增强查询。使用LLM根据增强查询进行最终生成。

https://arxiv.org/pdf/2406.02962Docs2KG: Unified Knowledge Graph Construction from Heterogeneous Documents Assisted by Large Language Modelspip install Docs2KGhttps://docs2kg.ai4wa.com/


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询