我要投稿

知识图谱增强RAG: 用外部知识提升LLM

发布日期：2024-04-11 23:16:31 浏览次数： 2956 作者：知识图谱科技

当我们在2022年初写关于知识图谱智能的文章时，我们的目标是突出展示使用知识图谱分析和机器学习从结构化数据中推导出关系和连接的技术。我们主要关注商业智能和机器学习应用，展示了技术公司如何在推荐和欺诈检测等领域应用图神经网络（GNN）。

然而，GNN在实际应用中仍然是复杂且稀缺的。研究论文中关于GNN的发表数量与实际部署的数量之间存在差距。弥合这个差距需要为实践者降低摩擦，简化实现，确保稳健的性能，并清晰地展示商业价值。广泛部署GNN还需要将其强大能力封装到可扩展的企业解决方案中，以提供具有吸引力的回报。

与此同时，大型语言模型的崛起为知识图谱带来了新的可能性 - 不是用于分析或GNN，而是用于改善大语言人工智能本身。大型语言模型（LLM）在生成类似人类文本方面表现出色。但它们缺乏实际世界的事实知识，这限制了它们的推理能力和适用性于许多实际应用。这就是知识图谱发挥作用的地方。

知识图谱（KGs）是关于世界的结构化的事实知识存储库，以相互连接的概念和实体表示。KGs有效地捕捉了现实世界事实和概念之间的复杂上下文关系。例如，KG可以包含像“巴黎是法国的首都”和“萨提亚·纳德拉是微软的首席执行官”这样的事实。这种图形结构使得KGs成为生成更准确和信息丰富的搜索结果、创建更有吸引力和信息丰富的聊天机器人以及开发供应链和物流管理等新的创新应用的多功能工具。

相比之下，LLM在大量文本数据上训练以学习普遍的语言技能。然而，它们缺乏关于世界的事实知识。通过知识图谱（KGs）增强预训练可以为LLM提供关于概念、实体及其关系的结构化、明确的事实知识表达方式。

使用知识图谱预训练LLMs

预训练是创建像GPT-4和Llama这样功能强大的大型语言模型的关键。这个阶段让模型接触大规模的文本语料库来学习语言模式。然而，通常它缺乏真实世界中的事实知识。

研究人员最近描述了如何通过结构化知识图谱数据来增强LLM的预训练。这种方法将基于事实的概念和关系注入到模型中。注入知识图谱的特定技术包括：

并入训练目标。新的知识感知训练目标可以帮助语言模型在预训练期间学习更多的实体和关系。这可以通过基于连通性更频繁地隐藏知识图谱实体、在文本和实体之间平衡损失并预测文本与图谱之间的对齐来实现。目标是将结构化知识纳入模型，并提高其利用真实世界事实和关系的能力。
融入模型输入。知识注入技术直接将相关的知识图谱信息嵌入语言模型输入。例如，将知识三元组与文本连接，仅允许实体访问知识，并将文本标记与知识实体连接到统一图形中。这些技术旨在将知识和文本表示相结合，使模型学习利用信息的两个来源。
添加融合模块。通过引入额外的编码器或层来融合知识图谱与语言模型，之后再将知识表示与语言模型的文本编码融合。这种模块化方法允许定制知识的选择、编码和整合方式，同时保持基础语言模型参数冻结不变。

增强预训练可以培养出同时擅长语言生成和事实知识的模型——这是知识丰富的人工智能的强大组合。总体目标是使语言模型具备结构化事实知识，提高它们的语境理解和推理能力。不同的技术在知识注入和模型复杂度之间达到不同的平衡。

检索增强生成与知识图谱

检索增强生成（RAG）通过整合外部数据以提高准确性和相关性来增强大型语言模型。基本的RAG应用程序检索补充性文本以对模型进行上下文化。元数据，如时间戳、地理位置、引用和产品ID，可以帮助从文本生成的信息进行精炼和定位。源数据中的元数据存在可以增强RAG的作用，因为它可以为模型提供有关内容的额外上下文，从而帮助模型生成更相关和有信息量的响应。

知识图谱显著增强了RAG模型，提供了比仅有元数据更多的上下文和结构。知识图谱允许您融合基于向量和基于图的语义搜索，这可能会带来更准确和有信息性的结果。

在利用知识图谱的 RAG 系统中，用户的提示首先经过嵌入模型，创建一个能捕捉其语义含义的向量表示。然后使用这个向量来识别知识图谱中最相关的节点。
获取与这些顶部语义相似的节点，同时也会获取它们作为原始文件或段落的本地上下文。此外，还会遍历更广泛的知识图谱结构，以收集可能相关的实体和关系，这些实体和关系在获取的节点周围仅几次跳转内。
所有这些相关的外部信息 - 识别出的相关节点、它们的局部文档上下文以及周围的知识图谱连接 - 将被浓缩并与原始用户问题结合成一个提示。

总的来说，用户的问题被转化为一个向量，这个向量检索相关的图节点，收集周围的图上下文，所有这些外部知识增强生成器，从而使之能够做出明智、情境感知的回答。

通过使用知识图谱来增强RAG模型，可以带来一些关键好处：通过关系获取有用的上下文信息，超越孤立事实；与仅仅向量匹配相比，进行更复杂的语义搜索；提供显式结构化的知识表示，从而提高准确性；通过扩展图的方式实现高效的知识扩展，而不是只考虑模型本身；通过追溯事实到图中的起源，具有内在的可解释性。

将企业数据转化为知识图谱

许多企业很可能已经拥有大部分需要的数据，可以开始利用知识图谱来增强他们的LLM应用。正如我们在《图智能》的文章中提到的那样，有一些工具可以自动将半结构化数据，如表格、日志和文档，转化为知识图谱。

最近我与Neo4j的Emil Eifrem进行了一次讨论，他指出公司为LLM RAG应用所使用的大部分数据具有足够的内在结构，可以便于创建知识图谱。常见的半结构化数据源包括客户支持记录、报告、电子邮件和其他对话性数据源。这些企业数据中经常存在的元数据可以用于识别实体和关系，从而构建一个基本的知识图谱。即使是不完整的知识图谱也可以为语言模型提供有用的上下文。而图的结构使得随着时间的推移可以轻松地不断扩展知识。

将关系型数据转成图数据

然而，非结构化数据带来了更大的挑战。尽管如此，从特定文件集中自动生成知识图谱的过程已成为人工智能领域中充满活力的研究领域。如今，语言模型本身被应用于从文本语料库中提取实体和关系，用于知识图谱的构建。早期实验表明，语言模型能够迅速学习从指令中提取新知识，展现出强大的泛化能力。

最近的研究(LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities)引入了使用多个语言模型协同工作的技术，以自动化从非结构化数据中构建和利用知识图谱。因此，在自动化知识提取方面的创新迅速进行，以处理多样化的企业数据来源。

您可以从已有的半结构化数据开始使用知识图谱来增强 RAG 系统。随着自动化知识提取的进一步发展，直接从非结构化内容中导出图谱将使得利用更广泛的语言模型数据成为可能。知识图谱为向几乎任何语言模型应用注入结构和背景提供了强大的方式。

人工智能的未来是图形化的。

LLM的出现拓展了图智能的范围，使其能够触及对话数据。例如，知识图谱是一种灵活的方法，可以为LLM提供扩展的结构化知识，提高其准确性、相关性和可解释性。

大多数数据企业用于基于LLM的应用程序的数据具有足够的结构化，可以转化为知识图谱。在使用LLM进行自动图谱构建方面，快速创新也将解锁非结构化数据。即使是不完整的图谱也可以提供有用的上下文增强。

随着Neo4j等公司优先考虑可用性，LLM查询变得更加容易。它的Cypher图查询语言与SQL类似，同时优化了图遍历。借助易于访问的数据转换、存储和查询工具，即可轻松开始使用知识图谱提升企业LLM和人工智能应用。

通过加强预训练和推理，结合相互连接的灵活知识，图增强的LLM可以达到新的实用水平。将它们的语言熟练度与结构化的事实知识相结合，使人工智能应用能够理解更广泛的背景。

知识图谱可以通过连接概念并揭示见解来丰富RAG应用。我不想过分兜售，这项技术仍在发展中。但值得从小处着手-探索数据、添加元数据、映射关键实体和关系。尽力编码你所能获取的高价值知识。尝试一下，看看即使简单的图表如何增强你的模型。随着技术的发展逐步构建。从今天开始绘制知识图，将你的RAG应用推向新的水平。随着知识图谱与大型语言模型的融合，未来的可能性令人兴奋。