我要投稿

用RAG的思路构建文档级别知识图谱框架-RAKG

发布日期：2025-04-18 06:59:23 浏览次数： 1563 作者：大模型自然语言处理

GraphRAG经过一些场景验证KG+LLM的范式能够有效的增强RAG系统性能，对于如何联合文档建立多模态的GraphRAG，笔者之前也有过相关分享，如：《多模态GraphRAG初探：文档智能+知识图谱+大模型结合范式，https://mp.weixin.qq.com/s/coMc5jNPJldPk9X74tDAbA》。

下面我们来看一个用RAG的思路构建文档级别知识图谱构建框架思路，这个思路要解决的问题是如何自动构建文档级别的知识图谱。传统的知识图谱构建方法面临长文本处理中的长距离遗忘问题、复杂实体消歧、跨文档知识整合不足的问题。整体思路可以参考下。

方法

上图的流程：RAKG框架通过句子分割和向量化处理文档，提取初步实体，并执行实体消歧和向量化。处理后的实体经过语料库回顾检索以获取相关文本和图结构检索以获取相关知识图谱。随后，使用LLM整合检索到的信息以构建关系网络，这些网络针对每个实体进行合并。最后，新构建的知识图谱与原始知识图谱相结合。

A. 理想知识图谱的假设

RAKG假设存在一个理论上完美的知识图谱构建过程，该过程可以将文档转换为一个理想的完备知识图谱。这个理想知识图谱可以表示为：

其中，是从文档构建出来的理想知识图谱，包含所有的语义关系。

B. 知识库向量化

RAKG将文档和知识图谱进行向量化处理，便于后续的检索和生成操作。

文档分块和向量化： 文档被分割成多个文本块（chunks），通常以句子为单位进行分割。每个文本块被向量化，以便于后续的处理和分析。类似RAG，这种方法能够减少LLM每次处理的信息量，同时确保每个片段的语义完整性，从而提高了命名实体识别的准确性。
知识图谱向量化： 初始知识图谱中的每个节点（如实体）通过提取其名称和类型来进行向量化。使用 BGE-M3 模型进行向量化，便于在检索过程中使用。

C. 预实体构建

RAKG通过命名实体识别（NER）来识别文本中的实体，并将这些实体作为预实体进行处理。

实体识别和向量化： NER的整个过程由LLM(Qwen2.5-72B)完成。先对每个文本块进行命名实体识别，识别出其中的实体。接着为每个预实体分配类型和属性描述，区分具有相似名称的不同实体。最后将实体的名称和类型组合后进行向量化。
实体消歧： 在完成整个文档的实体识别和向量化后，进行相似性检查。对于相似度超过阈值的实体，进行进一步的消歧处理，以确保每个实体只有一个唯一表示。

D. 关系网络构建

RAKG通过RAG的方法来构建关系网络。

文档文本块检索： 对于指定的实体，通过文本块的标识符（chunk-id）检索相关的文本块。使用向量检索获取与选定实体相似的文本块。
图结构检索： 在初始知识图谱中进行向量检索，获取与选定实体相似的其他实体及其关系网络。
关系网络生成和评估： 将检索到的文本和关系网络信息整合，并输入到LLM中，以生成中心实体的属性和关系。使用LLM作为评判者来评估生成的三元组，确保其真实性和准确性。