我要投稿

微软graphRag调研

发布日期：2024-10-14 22:11:22 浏览次数： 2349

作者：极豆视界

微信搜一搜，关注“极豆视界”

GraphRAG 是一种结构化的、分层的检索增强生成（RAG）方法，与使用纯文本片段的朴素语义搜索方法相反。GraphRAG 过程涉及从原始文本中提取知识图谱、构建社区层次结构、为这些社区生成摘要，然后在执行基于 RAG 的任务时利用这些结构。

至于安装和快速入门，这里就不介绍了，详情可以查看下面链接。

GraphRag快速开始：https://microsoft.github.io/graphrag/posts/get_started/

现在直接进入原理。

主要分为两大块：

Index 构建（图谱索引构建）
Query查询（查询引擎）

Index构建

阶段 1：组装 TextUnits

将输入文档转换为 TextUnits

大约1200 token一个分片。

第 2 阶段：图形提取

提取：Entities、Relationships 和 Claims

方法：

entity_extract ->实体&关系
claim_extract -> 声明

Entity & Relationship Extraction 实体和关系提取

使用LLM提取每一个TextUnit

产出：subgraph-per-TextUnit 包含了

entities （name, type, description）
relationships （source, target, description）

Entity & Relationship Summarization 实体和关系摘要

使用LLM提取摘要

产出：把一个图中的实体和关系简述为一个简单的描述。

Entity Resolution (Not Enabled by Default) 实体解析

处理相似实体

产出：协变量

Claim Extraction & Emission 声明提取和产出

从源 TextUnits 中提取声明

第 3 阶段：图形增强

现在我们有了一个可用的实体和关系图，我们想了解他们的社区结构，并用其他信息来增强图。这分两步完成：社区检测和图形嵌入。这些为我们提供了显式（社区）和隐式（嵌入）方法来理解我们图的拓扑结构。

Community Detection 社区检测

在此步骤中，我们使用分层莱顿算法生成实体社区的层次结构。这种方法将递归社区聚类应用于我们的图，直到我们达到社区规模阈值。这将使我们能够理解图的社区结构，并提供一种在不同粒度级别上导航和汇总图的方法。

Graph Embedding 图形嵌入

Node2Vec 算法生成图形的向量表示。这将使我们能够理解图的隐式结构，并提供一个额外的向量空间，用于在查询阶段搜索相关概念。

Graph Tables Emission 图表产出

最终的 Entities 和 Relationships 表

在这一点上，我们有一个实体和关系的功能图，一个实体的社区层次结构，以及node2vec嵌入。

第 4 阶段：社区总结

现在，我们希望以社区数据为基础，并为每个社区生成报告。这使我们在图形粒度的几个点上对图形有了高层次的理解。例如，如果社区 A 是顶级社区，我们将获得有关整个图表的报告。如果社区级别较低，我们将收到有关本地集群的报告。

Generate Community Reports 生成社区报告

LLM生成每个社区的摘要

Summarize Community Reports 汇总社区报告

用LLM摘要，供速记使用。

Community Embedding 社区嵌入

生成社区报告的文本嵌入、社区报告摘要和社区报告的标题来生成社区的矢量表示。

社区报告的embeding
社区报告摘要的embeding
社区报告标题的embeding

查询引擎

Local Search 本地搜索

Entity-based Reasoning 基于实体的推理

本地搜索方法将知识图谱中的结构化数据与输入文档中的非结构化数据相结合，以在查询时使用相关实体信息增强LLM上下文。它非常适合回答需要理解输入文档中提到的特定实体的问题

例如，“洋甘菊的治疗特性是什么？

示例代码：https://microsoft.github.io/graphrag/posts/query/notebooks/local_search_nb/

Global Search 全域搜索

Whole Dataset Reasoning 全数据集推理

基线 RAG 难以处理需要聚合数据集中信息以组成答案的查询。诸如“数据中排名前 5 位的主题是什么？”之类的查询执行得很糟糕，因为基线 RAG 依赖于对数据集中语义相似的文本内容的向量搜索。查询中没有任何内容可以将其定向到正确的信息。

但是，使用 GraphRAG，我们可以回答此类问题，因为生成的知识图谱的LLM结构告诉我们整个数据集的结构（以及主题）。这使得私有数据集可以被组织成有意义的语义集群，这些语义集群是预先汇总的。使用我们的全局搜索方法，在LLM响应用户查询时，使用这些聚类来总结这些主题。

示例代码：https://microsoft.github.io/graphrag/posts/query/notebooks/global_search_nb/

Question Generation 问题生成

Entity-based Question Generation基于实体的问题生成

将知识图谱中的结构化数据与输入文档中的非结构化数据相结合，生成与特定实体相关的候选问题。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-18

从RAG到GraphRAG：货拉拉元数据检索应用实践

2026-03-17

企业AI落地三重门，用友如何破局？

2026-03-16

Java 开发者的轻量级 RAG 方案：MeiliSearch 混合搜索实战

2026-03-11

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

上下文腐烂：拖垮企业AI与LLM表现的隐患与对策

2026-03-10

从向量里逆向出原始文本和模型来源

2026-02-27

如何用 AI 做业务级 Code Review

2026-02-22

不用向量数据库的 RAG，居然跑得更准了？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2026 年你需要了解的 RAG 全解析

2026-01-15

如何用NotebookLM，把枯燥的财报解读成精美的PPT？

2026-01-02

为什么Claude Code不用RAG？

2025-12-23

深度解析 PageIndex：无向量 RAG 框架的技术实现与原理剖析

2026-02-13

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

企业RAG知识库系统中关于向量数据库的对比选型指南

2025-12-31

当 Claude Code 连接 NotebookLM，个人 AI 终于有了“长期记忆”

2026-01-06

告别向量数据库！PageIndex：让AI像人类专家一样阅读长文档

2026-02-03

Claude Code 外挂最强大脑 NotebookLM Skill

2025-12-29

终于，NotebookLM 和 Gemini 合体了。这是什么神之更新？

2025-12-21

大家都在问

企业AI落地三重门，用友如何破局？

2026-03-17

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

不用向量数据库的 RAG，居然跑得更准了？

2026-02-22

当RAG遇上Agent记忆：为什么相似度检索会"塌方"？

2026-02-15

Claude Cowork 真能替换 RAG ？

2026-02-04

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

为什么 RAG 越用越慢？如何反向调优？

2026-01-19

NotebookLM如何在48小时内分析2万份论文？

2026-01-12

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw