我要投稿

微软研究;CTO办公室-从本地到全局：一种基于图谱RAG 方法实现用于聚焦查询摘要

发布日期：2024-07-23 08:07:24 浏览次数： 2196

摘要

检索增强生成（RAG）用于从外部知识源中检索相关信息，使得大型语言模型（LLMs）能够回答关于私人和/或以前未见过的文档集合的问题。然而，RAG 在针对整个文本语料库的全局问题，例如“数据集中的主题是什么？”方面失败，因为这本质上是一个针对查询的总结（QFS：query focused summarization (QFS)）任务，而非显式的检索任务。与此同时，先前的 QFS 方法无法扩展到典型 RAG 系统索引的文本数量。为了结合这些对比方法的优势，我们提出了一种图谱RAG 方法，用于对私有文本语料库进行问答，该方法能够根据用户问题的普遍性和要索引的源文本的数量来扩展。我们的方法使用一个LLM在两个阶段构建基于图形的文本索引：首先从源文件中生成一个实体知识图谱，然后为所有密切相关实体的组群预生成社区摘要。给定一个问题，每个社区摘要用于生成部分回答，然后所有部分回答再次总结为最终用户的回答。对于在100万个标记范围内数据集上的一类全局问题解析问题，我们展示了图谱RAG 相对于一个简单的 RAG 基准的生成答案的综合性和多样性方面带来了巨大改进。即将发布的开源、基于Python的全局和局部图谱RAG方法的实现可在 https://aka.ms/graphrag 上找到。

1简介

2图谱RAG方法和流程

2.1源文档 → 文本块

2.2文本块 → 元素实例

2.3元素实例 → 元素摘要

2.4元素总结 → 图谱社区

2.5图谱社区 → 社区总结

2.6社区总结 → 社区答案 → 全局答案

3评估

3.1数据集

3.2查询

3.3条件

3.4指标

3.5配置

3.6结果

4相关工作

4.1RAG方法和系统

4.2图谱和LLMs

5讨论

6结论

7致谢

1 简介

人类在各个领域的努力都依赖于我们阅读和推理大数据的能力。

文档集合，通常得出结论，超出了源文件中陈述的内容。

文本本身。随着大型语言模型（LLMs）的出现，我们已经目睹到尝试自动化人类般的意义构建，应用于诸如科学发现等复杂领域（Microsoft，2023)和情报分析 (Ranade 和 Joshi，2023)，在那里 sensemaking 被定义为

图1：使用LLM导出的源文档文本图谱索引的RAG流水线。

该索引涵盖了LLM提示针对数据集领域定制检测、提取和总结的节点（例如，实体）、边（例如，关系）和协变量（例如，声明）。社区检测（例如，Leiden, Traag等，2019年）用于将图索引分成元素（节点、边、协变量）组，LLM可以在索引时间和查询时间同时对这些组进行并行总结。对于给定查询的“全局答案”，使用最终一轮的面向查询的总结来生成报告与该查询相关性的所有社区总结。

“一个有动力、持续努力去理解连接（可以是人、地点和事件之间的连接），以便预测它们的轨迹并有效行动”（Klein等，2006a）。然而，支持人类主导的整个文本语料库的感知需要一种让人们能够应用和完善其数据的心智模型的方式（Klein等，2006b），即提出具有全球性质的问题。

检索增强生成（RAG，Lewis等，2020）是回答用户关于整个数据集的问题的成熟方法，但它是为这些答案被包含在本地文本区域内的情况而设计的，这些文本区域的检索为生成任务提供了足够的基础。相反，更合适的任务框架是聚焦查询摘要（QFS，Dang，2006），特别是查询聚焦的概括性摘要，生成自然语言摘要而不仅仅是串联的摘录（Baumel等，2018；Laskar等，2020；Yao等，2017）。然而，近年来，这种抽象与抽取、通用与聚焦查询、单文档与多文档之间的区别变得不那么重要。尽管变压器架构的早期应用对所有这些摘要任务的最新技术产生了显着改进（Goodwin等，2020；Laskar等，2022；Liu和Lapata，2019），但现代LLM，包括GPT（Achiam等，2023；Brown等，2020）、Llama（Touvron等，2023）和Gemini（Anil等，2023）系列，都能利用上下文学习来总结其上下文窗口中提供的任何内容。

然而，对整个语料库进行针对查询的抽象总结仍然是一个挑战。这种大量文本可能远远超出LLM上下文窗口的限制，扩大这些窗口可能还不够，因为在更长的上下文中信息可能会“丢失在中间”（Kuratov等，2024年；刘等，2023年）。此外，虽然有时RAG天真的直接检索文本片段可能不足以用于QFS任务，但可能通过一种替代的预索引形式支持专门针对全局总结的新RAG方法。

本文提出了一种基于LLM推导的知识图谱全局摘要的Graph RAG方法(见图1)。与利用图索引的结构化检索和遍历功能的相关工作不同(第4.2小节)，我们关注了在这一背景下图的一个先前未被探索的特性：它们固有的模块化(Newman, 2006)，以及将图划分为紧密相关节点的模块化社区的社区检测算法的能力(例如，Louvain，Blondel等，2008; Leiden，Traag等，2019)。LLM生成的这些摘要。

图2: 在HotPotQA数据集中检测到的实体引用如何随着块大小和我们使用gpt-4-turbo进行的通用实体提取提示而变化（Yang等人，2018年）。

社区描述提供了对底层图索引和它代表的输入文档的完整覆盖。然后通过使用map-reduce方法实现对整个语料库的查询集中总结：首先使用每个社区摘要独立且并行地回答查询，然后将所有相关的部分答案总结为最终的全局答案。

为了评估这种方法，我们使用LLM从两个代表性的现实世界数据集的简短描述中生成了一组多样的以活动为中心的理解问题，这些数据集分别包含播客转录和新闻文章。对于广泛议题和主题的理解，我们探讨了通过改变用于回答查询的社区摘要的层次级别以及与天真的RAG和全局映射-减少源文本摘要相比的影响。我们表明，所有全局方法在全面性和多样性方面都优于天真的RAG，并且具有中间和低级社区摘要的图形RAG在这些相同指标下表现优于源文本摘要，而且Token成本更低。

2 图谱RAG方法和流程

我们现在解析图拉格方法的高级数据流程（图1）和管道，描述每个步骤的关键设计参数、技术和实施细节。

2.1 源文档 → 文本块

从源文档中提取的输入文本应该如何分割成文本块为处理做出了一个基本的设计决策。在下一步中，将把这些文本块传递给一组设计用于提取图索引各个元素的LLM提示。更长的文本块需要更少的LLM调用来进行提取，但会受到更长的LLM上下文窗口带来的召回率下降的影响。这种行为可以在单次提取轮次（即零次收获）的情况下观察到，如图2所示：在一个样本数据集（HotPotQA, Yang等人，2018）上，使用600个标记的文本块提取几乎比使用2400个标记的文本块提取的实体引用多一倍。尽管更多的引用通常更好，但任何提取过程都需要在召回率和精度之间取得平衡以进行目标活动。

2.2 文本块 → 元素实例

这一步的基本要求是从每个源文本块中识别和提取图节点和边的实例。我们使用一个多部分的LLM提示来首先识别文本中的所有实体，包括它们的名称、类型和描述，然后识别所有明显相关实体之间的所有关系，包括源实体和目标实体以及它们之间关系的描述。这两种元素实例都输出为一个包含分隔元组的列表。

将这个提示定制为文档语料库领域的主要机会，在选择提供给LLM以进行上下文学习的少量示例上（Brown等人，2020年）。

例如，虽然我们默认的提示提取“命名实体”这一广泛类别，如人、地点和组织，通常是适用的，但具有专业知识的领域（例如科学、医学、法律）将受益于为这些领域专门定制的少量样本。我们还支持用于提取与提取的节点实例相关联的任何额外协变量的次要提取提示。我们默认的协变量提示旨在提取与检测到的实体相关联的声明，包括主语、宾语、类型、描述、源文本跨度和开始和结束日期。

为了平衡效率和质量的需求，我们使用多轮“取精”（gleanings）的方法，最多达到指定的最大值，以鼓励LLM检测出先前提取轮可能遗漏的任何额外实体。这是一个多阶段的过程，首先要求LLM评估所有实体是否已提取出来，使用logit偏差值为100来强制做出是/否的决定。如果LLM回应说有实体遗漏了，那么接下来的持续性信息表明“在上次提取中遗漏了许多实体”，会鼓励LLM提取这些漏掉的实体。这种方法使我们能够使用更大的块尺寸而不降低质量（见图2），也不会强制引入噪音。

2.3 元素实例 → 元素摘要

利用LLM来“提取”源文本中表示的实体，关系和声明的描述已经是一种抽象总结，依赖于LLM来独立地创建有意义的概念摘要，这些概念可能由文本本身隐含但未明示（例如，隐含关系的存在）。将所有这样的实例级摘要转换为每个图元素（即实体节点，关系边缘和声明协变量）的单个块的描述文本，需要通过匹配实例组进行更进一步的LLM总结。

在这个阶段潜在的担忧是，LLM可能无法始终以相同的文本格式提取对同一实体的引用，导致实体元素重复，从而在实体图中产生重复节点。然而，由于在接下来的步骤中将检测和总结所有密切相关的实体“社区”，并且考虑到LLM能够理解多个名称变体背后的共同实体，我们的整体方法对于这种变化是有弹性的，只要所有变体都与一组密切相关的实体有足够的连接性。

总体而言，我们使用富有描述性的文本来描述潜在嘈杂的图结构中的同质节点，与LLMs的能力和全球、以查询为重点的摘要需求是一致的。这些特点也使我们的图索引与典型的知识图有所区别，后者依赖于简洁一致的知识三元组（主语、谓语、宾语）来进行下游推理任务。

2.4 元素总结 → 图谱社区

在前一步创建的索引可以被建模为一个同质无向加权图，实体节点通过关系边相连，边的权重代表检测到的关系实例的标准化计数。在这样的图中，可以使用各种社区检测算法将图分割为节点之间连接更强的社区，而不是与图中其他节点连接更弱的社区（例如，参见Fortunato, 2010和Jin等人, 2021的调查报告）。在我们的流程中，由于其有效恢复大规模图的分层社区结构的能力，我们使用Leiden（Traag等人, 2019）（见图3）。这种层次结构的每个层次提供了一个覆盖图中节点的社区划分方式，以相互排斥、集体穷尽的方式，实现了分而治之的全局总结。

2.5 图谱社区 → 社区总结

下一步是利用一种设计用于处理非常大数据集的方法，为莱顿层次结构中的每个社区创建类似报告的摘要。这些摘要本身具有独立的实用价值，可作为一种理解数据集全局结构和语义的方式，并且在没有问题的情况下，可以用来理解语料库。例如，用户可以在一个级别浏览社区摘要，寻找感兴趣的一般主题，然后跟随链接到提供每个子主题更多细节的下一级别的报告。然而，在这里，我们专注于它们作为用于回答全局查询的基于图的索引的效用。

社区摘要是按照以下方式生成的：

(a)0级根社区 (b) 1级子社区

图3: 使用Leiden算法(Traag等人，2019)在MultiHop-RAG(Tang和Yang，2024)数据集上检测到的图中的社区。圆圈代表实体节点，其大小与它们的度成比例。节点布局是通过OpenORD(Martin等人，2011)和Force Atlas 2(Jacomy等人，2014)进行的。节点颜色代表实体社区，显示在两个层次的层次聚类中：(a) Level 0，对应于具有最大模块性的层次分区，(b) Level 1，揭示了这些根级社区内部结构。

1.叶级水平社区。叶级水平社区的元素概要（节点、边、协变量）按优先顺序排列，然后迭代地添加到LLM上下文窗口，直到达到令牌限制。优先顺序如下：按照每个社区边的组合源节点和目标节点度数（即总体重要性）递减的顺序，添加源节点、目标节点、关联协变量和边本身的描述。

2.更高级别的社区。如果所有元素摘要都符合上下文窗口的令牌限制，那么就像对叶子级别的社区一样继续，并总结社区内的所有元素摘要。否则，按元素摘要令牌递减的顺序对子社区进行排名，并迭代地用子社区摘要（较短）替换其关联的元素摘要（较长），直到符合上下文窗口的条件。

2.6 社区总结 → 社区答案 → 全局答案

给定用户查询，前一步生成的社区摘要可以在多阶段过程中用来生成最终答案。社区结构的层次性意味着问题可以利用来自不同层次的社区摘要进行回答，这引出了一个问题，即在分层社区结构中是否某个特定的层次提供了最佳的摘要详细程度和一般意义上问题的范围（在第3节中进行评估）。

对于给定的社区水平，对任何用户查询的全局答案如下生成：

1.准备社区摘要。社区摘要被随机打乱并分成预先指定的标记大小的块。这确保相关信息分布在各块中，而不是集中在单个上下文窗口中（潜在地丢失）。

2.映射社区答案。并行生成中间答案，每个块生成一个。还要求LLM生成一个在0-100之间的分数，表示生成的答案在回答目标问题时的帮助程度。得分为0的答案将被过滤掉。

3.将全局答案减少。中间社区答案按照帮助分数降序排列，并迭代地添加到新的上下文窗口中，直到达到标记限制。这个最终上下文用于生成返回给用户的全局答案。

Table 1：基于目标数据集简要描述生成的潜在用户、任务和问题示例。问题的重点是全局理解而非具体细节。

3 评估

3.1 数据集

我们选择了两个数据集，每个数据集包含大约100万个单词数量，相当于约10本小说的文本，并代表了用户在现实世界活动中可能遇到的语料库类型。

1.Podcast转录。Kevin Scott，微软首席技术官，与其他技术领袖的播客对话的转录内容（Behind the Tech，Scott，2024）。大小：1669 × 600个标记文本块，每个块之间有100个标记的重叠（∼1百万个标记）。

2.新闻文章。基准数据集包括从2013年9月到2023年12月发布的新闻文章，涵盖娱乐、商业、体育、技术、健康和科学等多个类别（MultiHop-RAG; Tang and Yang, 2024）。大小：3197 × 600个词块的文本，每个词块之间有100个词的重叠（约1.7百万个词）。

3.2 查询

许多开放领域问答的基准数据集存在，包括HotPotQA（Yang等，2018年），MultiHop-RAG（唐和杨，2024年）和MT-Bench（郑等，2024年）。然而，相关的问题集针对明确的事实检索而不是为了数据理解的目的而进行总结，即，人们在真实世界活动的更广泛范围内检查、参与和将数据置于上下文中的过程（Koesten等，2021年）。同样，也存在从源文本中提取潜在总结查询的方法（Xu和Lapata，2021年），但这些提取出的问题可能针对暴露出对文本的先验知识的细节。

为了评估RAG系统在更全球性的意义构建任务中的有效性，我们需要提出只传达数据集内容高层理解的问题，而不是特定文本的细节。我们采用了一种基于活动的方法来自动生成这样的问题：给定一个数据集的简短描述，我们要求LLM识别N个潜在用户和每个用户的N个任务，然后针对每个（用户，任务）组合，我们要求LLM生成需要理解整个语料库的N个问题。在我们的评估中，N = 5导致每个数据集有125个测试问题。表1显示了两个评估数据集每个示例问题。

3.3 条件

我们在分析中比较了六种不同的条件，包括使用四个图社区等级（C0、C1、C2、C3）的图 RAG，将我们的Map-Reduce 方法直接应用于源文本的文本摘要方法（TS），以及一个简单的“语义搜索”RAG方法（SS）：

公司使用根级社区摘要（数量最少）来回答用户查询。

使用高层次社区摘要来回答查询。

•这些是 C0 的子社区，如果存在的话，否则是 C0 社区投影。

•使用中级社区总结来回答查询。如果存在的话，这些是C1的子社区，否则是C1社区的下投影。

•C3. 使用低级别社区摘要（数量最多）来回答查询。这些是C2的子社区，如果存在的话，否则向下投影C2社区。

•TS. 和第2.6节中的方法相同，只是在map-reduce摘要阶段中，源文本（而不是社区摘要）被洗牌和分块。

•SS. 在一个实现了朴素的RAG的系统中，文本块被检索并添加到可用的上下文窗口中，直到达到指定的标记限制为止。

上述各种条件下，上下文窗口的大小和用于生成答案的提示是相同的（除了对参考样式进行微小修改以匹配使用的上下文信息类型）。条件只在上下文窗口内容的创建方式上有所不同。

支持条件C0-C3的图索引是仅使用我们通用的提示来进行实体和关系提取创建的，实体类型和少量示例针对数据领域进行了定制。图索引过程中，在Podcast数据集中使用了600个令牌的上下文窗口大小，对News数据集使用了1个抽取。

3.4 指标

LLMs已被证明是自然语言生成的良好评估者，与人类判断相比取得了最先进或有竞争力的结果（Wang等，2023a；Zheng等，2024）。虽然这种方法可以在已知黄金标准答案时生成基于参考的度量，但它也能以无参考方式测量生成文本的质量（例如流畅度）（Wang等，2023a），并且可以在竞争输出的头对头比较中衡量的输出（LLMas-a-judge，Zheng等，2024）。LLMs还显示出在评估传统RAG系统性能方面具有潜力，自动评估文本的上下文相关性、忠实性和答案相关性（RAGAS，Es等，2023）。

考虑到我们Graph RAG机制的多阶段特性，我们想要比较的多个条件，以及针对基于活动的意义构建问题缺乏标准答案，我们决定采用LLM评估器进行头对头比较方法。我们选择了三个捕捉对于意义构建活动希望品质的目标度量标准，以及一个控制度量标准（直接性）作为有效性的指标。由于直接性实际上与全面性和多样性相互对立，我们不会期望任何方法在这四个度量标准中全部胜出。

我们使用LLM评估器计算的对比措施如下：

1)全面性。回答提供了多少细节来涵盖问题的所有方面和细节？

2)多样性。回答如何提供不同的观点和见解以解答这个问题，答案是多样且丰富的。

3)赋权。答案如何帮助读者理解并做出关于主题的明智判断？

4)直接性。答案对问题的具体和清晰程度如何？

对于我们的评估，LLM会提供问题、目标指标和一对答案，并要求评估哪个答案根据指标更好，以及为什么。如果存在一个优胜者，LLM会返回该答案，否则如果它们在基本上相似且差异可忽略，则会返回平局。为考虑LLM的随机性，我们会将每个比较运行五次并使用平均分数。表2显示了LLM生成评估的一个示例。

表2：新闻文章数据集的示例问题，其中包括来自Graph RAG（C2）和Naïve RAG的生成答案，以及由LLM生成的评估结果。

Podcast转录

图 4：在两个数据集、四个度量标准和每个比较的125个问题中，（行条件）在（列条件）上的胜率百分比对比，每个比较重复五次并取平均值。每个数据集和度量标准的总胜者都以粗体显示。未计算自身胜率，但显示为期望的50%以供参考。所有的图形RAG条件在全面性和多样性上均优于朴素RAG。条件C1-C3还表现出在回答全面性和多样性方面比TS（没有图索引的全局文本摘要）略有改进。

3.5 配置

上下文窗口大小对于任何特定任务的影响尚不清楚，特别是对于具有128k标记大上下文大小的模型如gpt-4-turbo。鉴于在更长的上下文中信息可能会“在中间丢失”（Kuratov等，2024年；Liu等，2023年），我们希望探讨不同上下文窗口大小对我们的数据集、问题和指标组合的影响。特别是，我们的目标是确定我们基准条件（SS）的最佳上下文大小，然后将其统一用于所有查询时的LLM使用。为此，我们测试了四种上下文窗口大小：8k、16k、32k和64k。令人惊讶的是，测试的最小上下文窗口大小（8k）在全面性方面对所有比较都更好（58.1%的平均获胜率），同时在多样性方面表现与较大上下文大小相当（平均获胜率=52.4%），以及授权（平均获胜率=51.3%）。鉴于我们更倾向于更全面和多样化的答案，因此我们在最终评估中使用了固定的8k标记上下文窗口大小。

3.6 结果

索引过程导致 Podcast 数据集生成了一个由 8564 个节点和 20691 条边组成的图，News 数据集生成了一个更大的图，包括 15754 个节点和 19520 条边。表3显示了每个图社区层次结构不同层级上的社区摘要数量。

表3：上下文单元数量（用于C0-C3的社区总结和用于TS的文本块）、对应的标记数以及最大标记数的百分比。对源文本进行map-reduce总结是最消耗资源的方法，需要最多的上下文标记。根级社区总结（C0）每个查询需要的标记数大幅减少（9倍-43倍）。

赋权。赋权比较显示，针对全局方法与朴素RAG（SS）以及图形RAG方法与源文本摘要（TS）之间存在参差不齐的结果。针对此度量的临时LLM使用分析LLM推理，表明提供具体示例、引述和引文的能力被认为是帮助用户达到理解的关键。调整元素提取提示可能有助于保留图形RAG索引中更多的细节。

4 相关工作

4.1 RAG方法和系统

使用LLM时，RAG首先涉及从外部数据源检索相关信息，然后将此信息添加到LLM的上下文窗口中，同时包括原始查询（Ram等，2023年）。天真的RAG方法（Gao等，2023年）通过将文档转换为文本，将文本分成块，并将这些块嵌入到一个向量空间中，其中相似位置代表相似语义。然后将查询嵌入到相同的向量空间中，使用最接近的k个向量的文本块作为上下文。更高级的变体存在，但所有这些变体都解决了外部数据集超过LLM上下文窗口时该如何处理的问题。

高级RAG系统包括预检索、检索、后检索策略，旨在克服朴素 RAG的缺点，而模块化RAG系统包括用于交替检索和生成的迭代动态循环模式（Gao等，2023年）。我们的图形RAG实现结合了与其他系统相关的多个概念。例如，我们的社区摘要是一种自我记忆（Selfmem，Cheng等，2024年）用于增强生成检索（GAR，Mao等，2020年），促进未来生成循环的一种策略，而我们从这些摘要中并行生成社区答案是一种迭代（Iter-RetGen，Shao等，2023年）或联合（FeB4RAG，Wang等，2024年）检索-生成策略。其他系统还将这些概念结合起来用于多文档摘要（CAiRE-COVID，Su等，2020年）和多跳问题回答（ITRG，Feng等，2023年；IR-CoT，Trivedi等，2022年；DSP，Khattab等，2022年）。我们对层次化索引和摘要的使用也类似于进一步的方法，比如通过对文本嵌入向量进行聚类生成文本块的层次化索引（RAPTOR，Sarthi等，2024年）或生成“澄清树”来回答模糊问题的多种解释（Kim等，2023年）。然而，这些迭代或层次化方法均未使用能够实现图形RAG的自动生成图形索引。

4.2 图谱和LLMs

LLM和RAG与图表的使用是一个不断发展的研究领域，已经建立了多个方向。这些包括使用LLM进行知识图创建（Trajanoska等，2023年）和完成（Yao等，2023年），以及用于从源文本中提取因果关系图（Ban等，2023年；Zhang等，2024年）。它们还包括高级RAG形式（Gao等，2023年），其中索引是知识图（KAPING，Baek等，2023年），其中图结构的子集（G-Retriever，He等，2024年）或派生的图指标（GraphToolFormer，Zhang，2023年）是研究对象，叙事输出严格基于检索到的子图的事实（SURGE，Kang等，2023年），检索到的事件序列子图使用叙事模板进行序列化（FABULA，Ranade和Joshi，2023年），系统支持文本关系图的创建和遍历以进行多跳问题回答（Wang等，2023b年）。在开源软件方面，LangChain（LangChain，2024年）和LlamaIndex（LlamaIndex，2024年）库都支持各种图数据库，同时也出现了更一般类别的基于图的RAG应用，包括可以在Neo4J（NaLLM，Neo4J，2024年）和NebulaGraph（GraphRAG，NebulaGraph，2024年）格式中创建和推理知识图的系统。然而，与我们的图RAG方法不同的是，这些系统中没有一个使用图的自然模块性来对数据进行全局总结。

5 讨论

评估方法的局限性。到目前为止，我们的评估仅针对两个语料库中约100万标记左右的某一类推理问题进行了考察。还需要进一步研究不同类型问题、数据类型和数据集大小的性能变化，并验证我们的推理问题和目标指标是否符合最终用户的需求。比较制造率，例如使用SelfCheckGPT（Manakul等，2023年）等方法，也将改进当前的分析。

构建图谱索引的权衡。我们一直观察到Graph RAG在与其他方法进行比较时取得了最好的结果，但在很多情况下，无图方法在源文本的全局总结方面表现竞争性。关于是否投资于构建图索引的现实决策取决于多个因素，包括计算预算、数据集的预期查询次数以及从图索引的其他方面获得的价值（包括通用社区摘要和使用其他与图有关的RAG方法）。

未来的工作。支持当前图形RAG方法的图形索引、丰富的文本注释和层次化社区结构提供了许多细化和适应的可能性。这包括以更加局部的方式运行的RAG方法，通过基于嵌入的用户查询和图形注释的匹配，以及在采用我们的映射-减少汇总机制之前，结合基于嵌入的匹配对社区报告进行操作的混合RAG方案的可能性。这种“汇总”操作也可以在社区层次结构的更多级别之间扩展，并且可以作为一个更为探索性的“展开”机制来实施，该机制遵循高级社区摘要中包含的信息线索。

6 结论

我们提出了一种全局方法来处理图谱RAG，结合了知识图谱生成、检索增强生成（RAG）和面向查询的总结（QFS），以支持人类对整个文本语料库的理解。初步评估显示，在答案的全面性和多样性方面，与朴素的RAG基准相比有显着的改进，并且与使用map-reduce源文本总结的全局但无图形方法相比也表现出有利的比较。对于需要在相同数据集上进行许多全局查询的情况，基于实体的图形索引的根级社区摘要提供了一个数据索引，既优于天真的RAG，又在节省成本的同等令牌下达到了其他全局方法的竞争性表现。

一个基于Python的开源实现即将推出，支持全局和局部图 RAG 方法

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业