我要投稿

知识图谱提升RAG问答性能的两个现实问题：基本实现逻辑是什么？知识图谱又如何自动实现

发布日期：2024-05-01 21:50:52 浏览次数： 3690

作者：老刘说NLP

微信搜一搜，关注“老刘说NLP”

今天是2024年5月1日，星期三，北京，天气晴，假期第一天，大家五一假期愉快。

我们今天围绕两个问题来谈，一个是基于知识图谱来进行RAG都有哪些工作，其思想是什么，难点在于什么？一个是既然知识图谱难构建，那么相关的方案又有哪些。

这两个问题都很现实，感兴趣的可以看看。

问题1：基于知识图谱来进行RAG都有哪些工作？

GraphRAG这个问题，大家已经谈了很多次了，例如：

《基于知识图谱的大模型检索增强实现策略：Graph RAG实现基本原理及优化思路》(https://mp.weixin.qq.com/s/ulhu7qj93d3PRWoUpNcCug)

《知识图谱遇上RAG行业问答:回顾知识检索增强范式、挑战及与知识图谱的结合》(https://mp.weixin.qq.com/s/MdpLJVQ1ypjvZTy06MurHA) ，可以使用知识图谱增强大模型的问答效果，在意图识别阶段、Prompt组装阶段以及结果封装阶段都可以做。图片

《基于知识图谱的大模型检索增强实现策略：Graph RAG实现基本原理及优化思路》(https://mp.weixin.qq.com/s/ulhu7qj93d3PRWoUpNcCug) 对用户输入的query提取实体，然后构造子图形成上下文，最后送入大模型完成生成。图片

《再看知识图谱融合大模型RAG问答：用于多文档QA的知识图谱构图及prompt应用思路》(https://mp.weixin.qq.com/s/WAeewL6pLg1PaMJa_jHdXg) 中有介绍《Knowledge Graph Prompting for Multi-Document Question Answering》(地址：https://arxiv.org/pdf/2308.11730.pdf)，提出了一种知识图谱提示（KGP）方法，用于在多文档问题解答（MD-QA）中制定正确的LLM提示上下文，其中利用知识图谱来组织、选择上下文。

《再看知识图谱增强大模型问答范式：LLM⊗KG范式下的知识图谱问答实现框架思想阅读》（https://mp.weixin.qq.com/s/b5Tssaesm2mDKxwHy23n2w）所谈到的大模型和知识图谱融合的有趣工作《 Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph》(https://arxiv.org/pdf/2307.07697.pdf、https://github.com/IDEA-FinAI/ToG.) ，该工作提出了一种新的LLM-KG集成范式"LLM⊗KG"，将LLM视为一个代理，通过交互式地探索KG上的相关实体和关系，并根据检索到的知识执行推理，取得了一定的效果。

《再看有趣的大模型RAG问答优化策略:Wikichat七步走及KG-RAG实现范式》(https://mp.weixin.qq.com/s/UsZy6TdnUaqQ3PtSq6F4yA)中所谈到的KG与RAG进行结合的工作《Biomedical knowledge graph-enhanced prompt generation for large language models》(https://arxiv.org/pdf/2311.17330.pdf)，提到了一个KG-RAG(Knowledge Graph based Retrieval Augmented Generation)的框架，其实现思路很简单，如下图所示，给定问题，进行实体识别，实体链接，找到召回子图，将子图转化为自然语句同问题做向量化相似度计算，最后作为上下文送入LLM完成问答。

《大模型、RAG与知识图谱三者如何融合？兼看20240225大模型进展早报及大模型信息抽取微调数据集IEPile》 (https://mp.weixin.qq.com/s/2pXPn9UfS4Nyx5txlHmaKA)谈到，一个文章结构化为知识图谱地方案，以及如何作为检索来增强生物医疗领域的效果，《Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge，https://arxiv.org/abs/2402.12352》给出了一个方案。

Linkedin推出：RAG结合知识图谱（KG）的客服问答系统，召回成功率相比普通RAG方案翻倍，达到86～94%。

普通RAG方案中，把工单text的纯文本做Embedding会有2个缺点，一个是忽略工单原有的结构化数据，带来召回准确性的下降，对工单长文本切片(Segmentation)再Embedding，带来问答质量的下降。

系统包括两个阶段：

首先，在KG构建阶段，从历史客户服务问题单中构建了一个知识图谱。它集成了每个问题的树状结构表示，并根据关系上下文进行链接。它还为每个节点生成嵌入，以便后期进行语义搜索。

其次，在回答问题的阶段，解析消费者查询以识别命名实体和意图。然后，在KG中检索以识别相关的子图，用于生成答案。

其中，用GPT4做用户query的实体检测和意图识别，实体用于过滤图谱，意图使用embedding检索。

但是，这个工作中最难的点，结构化确实特别重要，但用图谱实有点发毛，代价扛不住，对于有现成知识图谱的场景，这个是很自然的，比如Linkedin的方案。

例如，Linkedin的这个图谱构建分为两个阶段：票内解析Intra-Ticket Parsing和票间连接Inter-Ticket Connection。

其中：

1)票内解析Intra-Ticket Parsing将每张基于文本的机票??转换为树形表示T?。采用混合方法，首先对预定义字段（如通过关键字识别的代码段）进行基于规则的提取。随后，对于不适合基于规则解析的文本，采用LLM进行解析。LLM由YAML模板Ttemplate指导，以图形表示客户支持部门经常使用的票单部分。

2)票据间连接票间连接Inter-Ticket Connection阶段：单个树T?被合并成一个综合图G。显式连接Eexp在票单中指定，如Jira中的指定字段。隐式连接Eimp是通过票单标题的文本-语义相似性推断出来的，采用嵌入技术和阈值机制来辨别与每个问题票单最相关的票单。

地址：https://arxiv.org/pdf/2404.17723，《Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering》

问题2:既然知识图谱难以构造，那么现存的自动化方案有哪些

顺着第一个问题，我们可以继续看第二个问题，就是有知识图谱自动化的构建方案，这也就是通过llm+信息抽取的方案。

相关的方案有；

《统一信息抽取UIE+多任务指令微调：InstrcutUIE论文工作基本内容介绍》(https://mp.weixin.qq.com/s/udk78muPKZN7MRaw97I96w)介绍了一个通用信息提取的端到端框架InstructUIE，它利用自然语言指令来指导IE任务的大型语言模型。

《也看面向知识图谱构建的垂直微调大模型：KnowLM、TechGPT看指令数据生成方式及开放信息抽取数据集》(https://mp.weixin.qq.com/s/Ub22ksWgOUia1dGVzDw1tg)介绍了DeepKE-LLM、TechGPT两个代表工作，尤其对其数据构造的方法，大家可以再顺便看看远程监督以及schema约束等方案的细节此外，如何用好来开源的学术数据集也十分必要，在文章中也列举了几十个数据集，可以收藏，并做一些有趣的数据构造的实验。

此外，(OpenSPG)[https://spg.openkg.cn] 框架研发的知识图谱引擎以及对应的单独训练了一个OneKE大模型和这个配套，可自定义抽取schema完成实体，事件，关系抽取：Oneke.openkg.cn。

而这类工具的一个重点，其实是指令格式的确立，例如OneKE中指令的格式采用了类JSON字符串的结构，本质上是一种字典类型的字符串，由以下三个字段构成：

(1)'instruction'，即任务描述，以自然语言指定模型扮演的角色以及需要完成的任务；

(2)'schema'，一份需提取的标签列表，明确指出了待抽取信息的关键字段，反应用户的需求，这是动态可变的；

(3)'input'，指的是用于信息抽取的源文本。

目前可通过DeepKE-LLM或OpenSPG来直接使用OneKE，高级用户可自行转换和构造指令使用OneKE。

但是，我们需要注意的是，在实际的工业应用中，业务对知识要素的覆盖率、准确率要求非常高，统一Schema指令结构难以覆盖所有的知识表示形式，因此任何现在的开源知识图谱构建工具，都依然存在抽不全、抽不准以及难以处理较长文本的问题。

由于模型的规模有限，模型输出极大地依赖于输入的提示词（Prompt）。

因此，不同的尝试可能会产生不一致的结果，且可能存在幻觉输出。

但是，话说回来，知识图谱，在很多时候，也不一定需要深入到其中的实体及实体关系，也可以直接将其表示成具体的知识图谱形式即可，比如文档图谱，关键词图谱等等，chunk图谱等，思路要打开。