我要投稿

GPT-4+GraphRAG：知识图谱如何让RAG系统更智能？

发布日期：2024-11-30 09:44:37 浏览次数： 2114

作者：活水智能

微信搜一搜，关注“活水智能”

我经常在网上看到关于GraphRAG的帖子，但直到大约一个月前，我才决定尝试一下。在花了一些时间进行实验后，我可以说它的表现令人印象深刻，但如果你使用的是OpenAI API，成本也相当高。在文档中运行他们提供的示例书籍测试花费了我大约7美元，所以虽然它的性能和组织能力非常出色，但它并不算经济实惠。

如果你是RAG系统的新手，

无论如何，这里是传统RAG系统的工作原理概述：对于已经熟悉RAG的人来说，你可能遇到过和我一样的头疼问题：

• 文本块之间的上下文容易丢失
• 随着文档集合的增长，性能急剧下降
• 集成外部知识就像蒙着眼睛解魔方一样困难（比喻意指操作复杂且缺乏清晰方向）

GraphRAG的工作原理

GraphRAG是传统RAG的增强版本，主要分为两个阶段：

索引阶段

• 从源文档开始，将其拆分为更小的子文档（与传统RAG类似）
• 执行两个并行的提取过程：

1. 实体提取：识别出诸如人物、地点、公司等实体
2. 关系提取：发现跨不同文本块的实体之间的联系

• 创建一个知识图谱，其中节点代表实体，边代表它们之间的关系
• 通过识别紧密相关的实体来建立社区
• 在不同的社区层级生成分层摘要（共三级）
• 使用归约-映射方法，通过逐步合并文本块生成整体摘要

查询阶段

• 接收用户的查询
• 根据所需的细节选择适当的社区层级
• 在社区层级（而不是传统RAG的文本块层级）上执行检索
• 检查社区摘要以生成局部响应
• 将多个相关社区的局部响应组合成最终的综合答案

GraphRAG的核心创新在于它将信息结构化为图形格式，并利用社区检测来生成更具上下文意识的响应。然而，传统RAG系统仍然有其用武之地，特别是在考虑运行GraphRAG的计算成本时。

设置GraphRAG

⚠️ 提醒：这个实验运行在GPT-4 API上，成本较高。我的一次测试成本约为7美元（基于GPT-4模型）。

如果你更喜欢在本地LLM上使用ollama进行测试，请查看这个视频：

接下来让我们一步步完成设置过程：

环境设置

首先，创建一个虚拟环境：

conda create -n GraphRAG
conda activate GraphRAG

安装GraphRAG包：

pip install graphrag

目录结构

GraphRAG需要特定的目录结构以实现最佳运行效果：
- 创建一个工作目录
- 在其中创建_ragtest/input_文件夹结构
- 将源文档放入input文件夹中

在本文中，我们将使用提供的书籍作为示例。通过以下命令下载到input文件夹中：

curl https://www.gutenberg.org/cache/epub/24022/pg24022.txt > ./ragtest/input/book.txt

配置

使用以下命令初始化工作区：

python -m graphrag.index --init --root ./target

此操作会创建必要的配置文件，包括settings.yml，你需要在其中：
- 设置你的OpenAI API密钥
- 配置模型设置（默认使用GPT-4进行处理和OpenAI嵌入）
- 根据需要调整文本块大小（默认：300个token）和重叠部分（默认：100个token）

构建知识图谱

运行索引过程：

python -m graphrag.index --init --root ./target

查询你的图谱

GraphRAG提供了两种主要的查询方式：

全局查询

python -m graphrag.query --root ./target --method global "what are the top themes in this story"

适用于关于主题和整体内容理解的广泛问题。

局部查询

python -m graphrag.query --root ./target --method local "what are the top themes in this story"

适用于关于文档内实体或关系的具体问题。

成本因素：值得吗？

让我们谈谈数字。在我用示例书籍进行测试时，GraphRAG调用了：

• ~570次GPT-4 API请求
• 大约25次嵌入请求
• 处理了超过100万个token

总成本：每本书大约7美元。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-14

如何搭建Agent的知识库底座？

2025-07-08

Neo4j图数据建模MCP服务器：让你的数据模型更智能

2025-07-07

一文说清楚什么是倒排索引（Inverted Index）

2025-07-06

从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑

2025-07-05

基于聊天记录的问答——数据分块篇

2025-07-04

大模型构建知识图谱：VCPedia与Fractal KG的实战经验

2025-07-04

知识库vsRAG：傻傻分不清楚！

2025-06-24

上一代知识问答的回顾

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

千万级向量数据库实战对比：Milvus，Qdrant，Chroma，Weaviate

2025-05-06

智谱共融：大模型驱动的知识图谱范式重构与演进路径

2025-04-21

Graph-RAG全面综述：如何用知识图谱+大模型解决信息检索难题？

2025-05-23

向量数据库对比：优缺点、适用场景与案例分析

2025-05-15

知识图谱激活 DeepSeek 智能体，图模互补重构企业专业知识管理

2025-05-28

无需代码！MCP + Neo4j 如何颠覆知识图谱构建？

2025-05-22

AI搜索与向量数据-模型是如何将信息和数据编码成知识的？

2025-05-20

又一开源项目：用 LLM 将非结构化文本转为知识图谱

2025-05-07

法律大模型 X 知识图谱激活法律服务行业新范式

2025-04-26

LLM如何将杂乱文本变为可视化知识图谱？

2025-04-20

大家都在问

如何搭建Agent的知识库底座？

2025-07-14

如何为客户数据构建语义视图？

2025-06-14

Agent Infra 图谱：哪些组件值得为 Agent 重做一遍？

2025-05-23

Graph-RAG全面综述：如何用知识图谱+大模型解决信息检索难题？

2025-05-23

无需代码！MCP + Neo4j 如何颠覆知识图谱构建？

2025-05-22

AI搜索与向量数据-模型是如何将信息和数据编码成知识的？

2025-05-20

LLM如何将杂乱文本变为可视化知识图谱？

2025-04-20

微软Phi-4-mini：小模型如何在GraphRAG中大放异彩？

2025-04-15

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB