我要投稿

【微软大模型】GraphRAG检索增强生成技术

发布日期：2024-07-18 04:30:44 浏览次数： 2314

GraphRAG是在RAG（Retrieval Argumented Generation）技术的基础上发展而来。RAG是一种自然语言查询方法，通过从外部知识源检索附加信息来增强LLM的生成能力。然而，传统的RAG系统在处理全局性问题时存在局限，无法全面理解大规模数据集的全貌。GraphRAG通过引入图模型，构建知识图谱，解决了这一问题。

核心技术

数据预处理：将原始文本数据清洗、分词，并转化为模型可理解的格式。

实体识别与链接：使用自然语言处理技术从文本中识别出关键实体，并在知识图谱中进行链接或创建新节点。

关系抽取：确定文本中实体间的关系，并将这些关系作为边添加到图中。

知识图谱构建：将提取的实体和关系整合，形成一个互联的图结构，作为GraphRAG进行后续操作的基础。

社区检测与信息摘要：在知识图谱中识别高度相关的节点群体，形成社区结构，并为每个社区生成摘要，以便于集中分析和处理。

功能特点

多维度问答能力：能够理解并回答涉及复杂关系和多步骤推理的问题。

自动知识图谱更新：随着新数据的输入，GraphRAG能够自动更新知识图谱，保持信息的时效性。

跨领域信息整合：能够处理跨领域的数据集，整合不同来源和类型的信息。

高效的信息检索：通过社区检测算法，GraphRAG能够快速定位到相关信息，提高检索效率。

定制化摘要生成：根据不同的查询需求，GraphRAG能够生成定制化的信息摘要。

《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》

方法描述

本文提出了一种基于图的语义表示（Graph-based Semantic Representation）方法，用于全球性问题的理解与回答。该方法主要包含以下五个步骤：

文本切分：将输入文本切割成不同的文本块，每个文本块通过一个或多个 LLM 提取任务相关的信息。
元素实例提取：使用多轮 LLM 提取元素实例，包括实体、关系等，并输出为列表形式。
元素摘要：利用 LLM 对元素实例进行抽象化总结，生成独立且有意义的描述。
图社区划分：根据元素之间的关系，构建图结构并使用社区检测算法将其划分为若干个子图。
社区摘要：对每个社区进行概括性总结，以供后续理解和查询。

方法改进

相比于传统的基于文档的语言模型（Document-based Language Model），本文提出的基于图的语言模型在以下几个方面进行了改进：

利用了图结构中的局部信息，使得模型能够更好地理解上下文。
使用了多轮 LLM 提取元素实例，提高了提取准确率。
引入了社区检测算法，将图结构划分为若干个子图，从而实现更细粒度的理解和查询。

解决的问题

本文所提出的方法主要用于解决全球性问题的理解与回答，如：

理解不同国家的历史事件及其关联；
探究国际政治经济关系的发展趋势；
分析全球环境变化及其影响因素；
研究跨国企业的战略决策和发展历程等。

论文实验

本文主要介绍了对基于预训练语言模型的图谱引导阅读理解（Graph RAG）方法进行的多个对比实验，并对其结果进行了分析和总结。

首先，本文选取了两个代表性的数据集——Podcast transcripts和News articles，并针对这些数据集设计了一些全局性质的问题，用于测试不同条件下的效果。其次，本文比较了四种不同的条件，包括使用不同层次的社区摘要来回答用户查询的CO、C1、C2和C3条件，以及直接应用文本摘要的方法TS和简单的语义搜索方法SS。最后，本文采用了四个评估指标——全面性、多样性、能力提升和直接性，并通过多次随机对比的方式计算出每个条件在各个指标上的得分情况。

结果显示，在所有条件下，全球方法都比简单的语义搜索方法表现更好，特别是在全面性和多样性这两个指标上。此外，社区摘要相对于源文也能够提供更好的答案质量和更少的上下文信息量。对于能力提升这个指标，结果则不太一致，需要进一步研究。总的来说，本文的研究表明，基于预训练语言模型的图谱引导阅读理解方法具有很好的潜力，可以在多种场景下提高答案的质量和效率。

文章优点

该论文提出了一种基于知识图谱的全局信息检索与生成（Graph RAG）方法，用于支持人类在大规模文本数据集上的智能推断和理解。该方法利用了知识图谱的结构化特征和社区检测算法的模块化特性，通过社区级别的摘要和信息抽取技术实现了对整个文本集合的有效查询和回答。此外，该方法还使用了嵌入式匹配技术和地图-减少机制来实现更加灵活和高效的全球信息检索和生成。

方法创新点

该论文的主要贡献在于提出了一个全新的信息检索和生成框架，将知识图谱、社区检测和自然语言处理等技术有机地结合起来，为大规模文本数据集上的智能推断和理解提供了一个新的解决方案。具体来说，该方法具有以下几个创新点：

利用了知识图谱的结构化特征和社区检测算法的模块化特性，实现了对整个文本集合的有效查询和回答。
使用了嵌入式匹配技术和地图-减少机制来实现更加灵活和高效的全球信息检索和生成。
采用了多级社区摘要策略，以适应不同层次的信息需求，并提高了答案的全面性和多样性。

未来展望

该论文的方法虽然已经在实验中取得了很好的效果，但仍有一些限制和挑战需要进一步研究和解决。例如，该方法仅针对特定类型的问答问题进行了评估，还需要更广泛的数据集和问题类型的支持；同时，该方法依赖于知识图谱的质量和完整性，如何构建高质量的知识图谱也是一个重要的研究方向。因此，在未来的研究中，可以考虑以下方面的工作：