微信扫码
与创始人交个朋友
我要投稿
GraphRAG 是一种结构化的、分层的检索增强生成 (RAG) 方法,与使用纯文本片段的朴素语义搜索方法相反。GraphRAG 过程涉及从原始文本中提取知识图谱、构建社区层次结构、为这些社区生成摘要,然后在执行基于 RAG 的任务时利用这些结构。
至于安装和快速入门,这里就不介绍了,详情可以查看下面链接。
GraphRag快速开始:https://microsoft.github.io/graphrag/posts/get_started/
现在直接进入原理。
主要分为两大块:
Index 构建(图谱索引构建)
Query查询 (查询引擎)
将输入文档转换为 TextUnits
大约1200 token一个分片。
提取:Entities、Relationships 和 Claims
方法:
entity_extract ->实体&关系
claim_extract -> 声明
使用LLM提取每一个TextUnit
产出:subgraph-per-TextUnit 包含了
entities (name, type, description)
relationships (source, target, description)
使用LLM提取摘要
产出:把一个图中的实体和关系简述为一个简单的描述。
处理相似实体
产出:协变量
从源 TextUnits 中提取声明
现在我们有了一个可用的实体和关系图,我们想了解他们的社区结构,并用其他信息来增强图。这分两步完成:社区检测和图形嵌入。这些为我们提供了显式(社区)和隐式(嵌入)方法来理解我们图的拓扑结构。
在此步骤中,我们使用分层莱顿算法生成实体社区的层次结构。这种方法将递归社区聚类应用于我们的图,直到我们达到社区规模阈值。这将使我们能够理解图的社区结构,并提供一种在不同粒度级别上导航和汇总图的方法。
Node2Vec 算法生成图形的向量表示。这将使我们能够理解图的隐式结构,并提供一个额外的向量空间,用于在查询阶段搜索相关概念。
最终的 Entities 和 Relationships 表
在这一点上,我们有一个实体和关系的功能图,一个实体的社区层次结构,以及node2vec嵌入。
现在,我们希望以社区数据为基础,并为每个社区生成报告。这使我们在图形粒度的几个点上对图形有了高层次的理解。例如,如果社区 A 是顶级社区,我们将获得有关整个图表的报告。如果社区级别较低,我们将收到有关本地集群的报告。
LLM生成每个社区的摘要
用LLM摘要,供速记使用。
生成社区报告的文本嵌入、社区报告摘要和社区报告的标题来生成社区的矢量表示。
社区报告的embeding
社区报告摘要的embeding
社区报告标题的embeding
Entity-based Reasoning 基于实体的推理
本地搜索方法将知识图谱中的结构化数据与输入文档中的非结构化数据相结合,以在查询时使用相关实体信息增强LLM上下文。它非常适合回答需要理解输入文档中提到的特定实体的问题
例如,“洋甘菊的治疗特性是什么?
示例代码:https://microsoft.github.io/graphrag/posts/query/notebooks/local_search_nb/
Whole Dataset Reasoning 全数据集推理
基线 RAG 难以处理需要聚合数据集中信息以组成答案的查询。诸如“数据中排名前 5 位的主题是什么?”之类的查询执行得很糟糕,因为基线 RAG 依赖于对数据集中语义相似的文本内容的向量搜索。查询中没有任何内容可以将其定向到正确的信息。
但是,使用 GraphRAG,我们可以回答此类问题,因为生成的知识图谱的LLM结构告诉我们整个数据集的结构(以及主题)。这使得私有数据集可以被组织成有意义的语义集群,这些语义集群是预先汇总的。使用我们的全局搜索方法,在LLM响应用户查询时,使用这些聚类来总结这些主题。
示例代码:https://microsoft.github.io/graphrag/posts/query/notebooks/global_search_nb/
Entity-based Question Generation基于实体的问题生成
将知识图谱中的结构化数据与输入文档中的非结构化数据相结合,生成与特定实体相关的候选问题。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-22
RAG技术在实际应用中的挑战与解决方案
2024-11-22
从普通RAG到RAPTOR,10个最新的RAG框架
2024-11-22
如何使用 RAG 提高 LLM 成绩
2024-11-21
提升RAG性能的全攻略:优化检索增强生成系统的策略大揭秘 | 深度好文
2024-11-20
FastGraphRAG 如何做到高达 20%优化检索增强生成(RAG)性能优化
2024-11-20
为裸奔的大模型穿上"防护服":企业AI安全护栏设计指南
2024-11-20
RAG-Fusion技术在产品咨询中的实践与分析
2024-11-19
构建高性能RAG:文本分割核心技术详解
2024-07-18
2024-05-05
2024-07-09
2024-07-09
2024-05-19
2024-06-20
2024-07-07
2024-07-07
2024-07-08
2024-07-09
2024-11-06
2024-11-06
2024-11-05
2024-11-04
2024-10-27
2024-10-25
2024-10-21
2024-10-21