我要投稿

用 iText2KG 增量构建《西游记》知识图谱

发布日期：2024-09-29 18:39:00 浏览次数： 2956

作者：数翼

微信搜一搜，关注“数翼”

iText2KG 是一个 Python 包，旨在通过利用大型语言模型从文本文档中提取实体和关系，逐步构建具有已解析实体和关系的一致知识图谱。它具有零样本能力，无需专门的训练即可跨各个领域提取知识。该包包括用于文档提炼、实体提取和关系提取的模块，确保已解析且唯一的实体和关系。它不断用新文档更新知识图谱，并将其集成到 Neo4j 等框架中进行可视化表示。

总体架构

iText2KG软件包由四个主要模块组成，它们协同工作，从非结构化文本构建和可视化知识图谱。整体架构概述：

1. 文档提取器：该模块处理原始文档，并根据用户定义的模式将其重新组织成语义块。它通过关注相关信息并以预定义的格式对其进行结构化来提高信噪比。
2. 增量实体提取器：此模块从语义块中提取唯一实体并解决歧义以确保每个实体都有明确定义。它使用余弦相似度度量将局部实体与全局实体进行匹配。
3. 增量关系提取器：此模块识别提取的实体之间的关系。它可以以两种模式运行：使用全局实体丰富图形中的潜在信息，或使用局部实体建立更精确的关系。
4. 图形集成器和可视化：此模块将提取的实体和关系集成到 Neo4j 数据库中，提供知识图谱的可视化表示。它允许对结构化数据进行交互式探索和分析。

LLM 被提示提取代表一个唯一概念的实体，以避免语义混合的实体。下图显示了使用 Langchain JSON 解析器的实体和关系提取提示。它们分类如下：

• 蓝色 - 由 Langchain 自动格式化的提示；
• 常规 - 我们设计的提示；
• 斜体 - 专门为实体和关系提取设计的提示。

• （a）关系提取提示和
• （b）实体提取提示。

安装

要安装 iText2KG，请确保已安装 Python，然后使用 pip 安装

pip install itext2kg

或者使用 poetry 安装：

poetry add itext2kg

准备文档

我这里使用《西游记》的白话文版本来进行演示。

准备好文本（百度搜索有很多），放到 datasets 目录：

加载大模型

iText2KG 进行知识图谱的抽取使用到了聊天和嵌入两个模型，可以使用本地 Ollama 的模型：

from langchain_ollama import ChatOllama, OllamaEmbeddings

llm = ChatOllama(
    model="glm4",
    temperature=0,
)
embeddings = OllamaEmbeddings(
    model="glm4",
)

记得安装依赖：

pip install langchain-community langchain-ollama

定义指令

iText2KG 可以很方便的定义指令，比如我下面的：

IE_query = '''
# 指令：
- 像经验丰富的信息提取者一样行动。
- 提取的信息包含人物、地点、事件、物品、任务以及技能。
- 您有大量的故事阅读。
- 如果找不到正确的信息，请将其保留为空白。
'''

你可以根据你要抽取的数据类型进行简单定制。

文件处理

类似 RAG 一样，我们也需要对文件进行预处理，我直接给出函数代码，大家需要的话可以直接拿来用：

def build_sections(file_path):
    loader = PythonLoader(file_path)
    pages = loader.load_and_split()

    # we have replaced the curly braces with square brackets to avoid the error in the query
    distilled_cv = document_distiller.distill(
        documents=[page.page_content.replace("{", '[').replace("}", "]") for page in pages],
        IE_query=IE_query,
        output_data_structure=CV
    )

    sections = [f"{key} - {value}".replace("{", "[").replace("}", "]") for key, value in distilled_cv.items()
                if value != [] and value != "" and value != None]
    return sections

如果要处理 xiyou01.txt 文件，那么可以如下写：

sections = build_sections('./datasets/xiyou01.txt')

sections 的内容大概是这样：

构建图谱

加下来就是构建图谱了，我也把写好的函数贴到下面，需要的大家可以直接用：

def build_graph(sections, existing_global_entities=None, existing_global_relationships=None,ent_threshold=0.6, rel_threshold=0.6):
    global_ent, global_rel = itext2kg.build_graph(
        sections=sections, ent_threshold=ent_threshold, rel_threshold=rel_threshold,
        existing_global_relationships=existing_global_relationships,
        existing_global_entities=existing_global_entities
    )
    print(global_rel)
    print(global_ent)
    return global_ent, global_rel

传入刚才的 sections 就可以得到节点和关系数据：

global_ent, global_rel = build_graph(sections)

我们可以看到节点数据大约如下：

关系数据大约如下：

从控制台的调试信息我们可以看出，iText2KG 会进行关系梳理、节点去重等动作：

显示

我们使用 pyvis 这个工具来显示图谱。

首先是安装：

pip install pyvis

程序比较简单：

from pyvis.network import Network

net = Network(height="100vh", width="100%")
for x in global_ent:
    net.add_node(x['name'])
for x in global_rel:
    net.add_edge(x['startNode'], x['endNode'], weight=1)
net.show('mygraph.html', notebook=False)

然后点击生成的 mygraph.html 文件，就可以看到关系数据如下：

调整下参数，你可能得到更多的节点和关系：

增量构建

iText2KG 在构建图谱的一个亮点功能就是增量构建。

比如刚才了构建了《西游记》的第一章的图谱，我们可以在第一章的基础之上进行构建，而不是第一章和第二章一起构建。

sections2 = build_sections(text02)
global_ent2, global_rel2 = build_graph(sections2, existing_global_entities=global_ent1, existing_global_relationships=global_rel1)

再次画图看一下结构吧：

这次效果不是很好，产生了一些孤立节点。

指定结构

iText2KG 还有一个很棒的特性就是你可以指定节点的属性结构。

先声明一个节点类，比如官方示例中的简历：


class JobOffer(BaseModel):
    job_offer_title: str = Field(..., description="The job title")
    company: str = Field(..., description="The name of the company offering the job")
    location: str = Field(..., description="The job location (can specify if remote/hybrid)")
    job_type: str = Field(..., description="Type of job (e.g., full-time, part-time, contract)")
    responsibilities: List[JobResponsibility] = Field(..., description="List of key responsibilities")
    qualifications: List[JobQualification] = Field(..., description="List of required or preferred qualifications")
    certifications: Optional[List[JobCertification]] = Field(None, description="Required or preferred certifications")
    benefits: Optional[List[str]] = Field(None, description="List of job benefits")
    experience_required: str = Field(..., description="Required years of experience")
    salary_range: Optional[str] = Field(None, description="Salary range for the position")
    apply_url: Optional[str] = Field(None, description="URL to apply for the job")

然后我们再蒸馏的时候就可以指定 output_data_structure 参数：

distilled_Job_Offer = document_distiller.distill(
    documents=[job_offer], IE_query=IE_query,
    output_data_structure=JobOffer
)

写在最后

AI应用特别是 LLM 应用的性能，很大程度依赖大模型本身。

iText2KG 也不例外，小参数的大模型很可能解析不出期望的结果。

个人感觉，这个框架虽然能用，但是速度、准确度都比较慢，成本（TOKEN）也比较高。但是好在，项目本身是在积极开发中。

项目代码：https://github.com/AuvaLab/itext2kg^[1]

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-01-05

AI+知识图谱，复杂接口自动化场景编排企业级落地

2026-01-04

Mapis：首个基于知识图谱与大模型的多囊卵巢综合征国际指南多智能体框架，重塑PCOS循证诊断

2025-12-31

Manus决定出售前最后的访谈，全是干货

2025-12-31

如何在生产环境基于本体Ontology的记忆系统

2025-12-27

从智能体中抽取“业务知识图谱”：将其在大量对话中识别出的实体、关系与规则，反向沉淀为企业的结构化知识资产

2025-12-24

零噪声知识图谱提取革命：构建自适应本体驱动GraphRAG系统

2025-12-24

如何将任何文本语料库转化为知识图谱

2025-12-23

补充聊一下AI驱动的知识图谱生成器

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一篇文章讲清楚：Ontology为什么是企业落地Agent的关键

2025-10-30

文档级知识图谱: RAKG(95.91%) VS GraphRAG(89.71%)

2025-10-19

大模型落地最后一公里：为什么企业必须重构对“本体（Ontology）”的认知？

2025-12-01

Manus决定出售前最后的访谈，全是干货

2025-12-31

DeepSeek V3.2 AI辅助-构建可视化多维知识立方体展示知识体系

2025-10-21

用 AI 重塑阅读体验，将任何书籍转化为可交互的知识图谱

2025-10-13

让企业级大模型落地：每个企业 AI项目都需要的知识图谱KG基础

2025-11-24

用 Cognee 构建端到端知识图谱，实现当前效果最好的AI Agent记忆层

2025-11-13

构建本体驱动的下一代智能数字生态系统

2025-12-05

本地知识库搭建（Mia VS cheer studio VS AnythingLLM）

2025-11-14

大家都在问

什么是本体（Ontology）？

2025-12-23

大模型落地最后一公里：为什么企业必须重构对“本体（Ontology）”的认知？

2025-12-01

文档知识图谱构建：AI代理如何简化复杂流程？

2025-07-29

如何搭建Agent的知识库底座？

2025-07-14

如何为客户数据构建语义视图？

2025-06-14

Agent Infra 图谱：哪些组件值得为 Agent 重做一遍？

2025-05-23

Graph-RAG全面综述：如何用知识图谱+大模型解决信息检索难题？

2025-05-23

无需代码！MCP + Neo4j 如何颠覆知识图谱构建？

2025-05-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean