我要投稿

GraphRAG成本打一折，KET-RAG多粒度索引新框架开源

发布日期：2025-03-16 11:50:53 浏览次数： 1651 作者：PaperIdea

摘要速览

研究痛点：现有的基于图的检索增强生成（Graph-RAG）系统在处理大规模文档时面临两难困境。

一方面，基于文本块相似性的KNN图方法虽然成本低，但无法捕捉文本内部的实体关系，导致检索和生成质量欠佳；
另一方面，基于知识图谱（KG-RAG）的方法虽然能通过提取实体和关系提升检索质量，但其高昂的索引成本使其难以大规模应用。例如，处理5GB法律文档的索引成本可能高达3.3万美元。

创新突破：

提出了KET-RAG（Knowledge-Entity-Text Retrieval-Augmented Generation），一种多粒度索引框架。KET-RAG通过以下创新实现高效低成本的知识检索：

知识图谱骨架：仅从核心文本块中构建知识图谱，大幅减少索引成本。
文本-关键词二分图：作为知识图谱的轻量级替代，通过关键词与文本块的关联实现高效检索。
双通道检索策略：结合知识图谱骨架和文本-关键词二分图的优势，平衡检索质量和成本。

应用价值：在两个真实世界的数据集上评估了八种解决方案，结果表明，KET-RAG 在索引成本、检索效果和生成质量方面均优于所有竞争对手(Text-RAG、KNNG-RAG、KG-RAG、Hybrid-RAG、Skeleton-RAG)。

值得注意的是，KET-RAG 的检索质量与微软的 Graph-RAG 相当甚至更优，同时索引成本降低了超过一个数量级。

? 方案详情

KET-RAG框架的核心在于结合多粒度索引结构，具体包括以下部分：

知识图谱骨架（Skeleton-RAG）：通过PageRank算法从KNN图中选择重要文本块，并仅对这些核心文本块构建知识图谱，减少索引成本。
文本-关键词二分图（Keyword-RAG）：将所有文本块分割为子块，并构建关键词与子块的关联图。关键词及其邻近文本块作为候选实体和关系，用于轻量级检索。
双通道检索：在检索阶段，KET-RAG结合知识图谱骨架和文本-关键词二分图的优势，通过调整检索比例参数（??）平衡两者贡献，提升检索质量。
参数优化：通过调整输入文本块大小（ℓ）、分割层数（??）等参数，进一步优化检索和生成性能。

KET-RAG通过这种多粒度索引和双通道检索策略，在保证检索质量的同时，大幅降低了索引成本，为大规模知识检索和生成任务提供了高效、低成本的解决方案。

https://arxiv.org/pdf/2502.09304KET-RAG: A Cost-Efficient Multi-Granular Indexing Framework for Graph-RAG

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-23

只需6G显存，就能本地跑的AI视频算法，开源了！

2025-04-23

OpenAI Codex 使用OpenRouter上的免费模型

2025-04-23

又一个牛皮的开源的通用型智能体界面和Manus有99分相似

2025-04-23

从零到多智能体：Google Agent开发套件（ADK）入门指南

2025-04-23

超强辅助，Bolt.diy 一步搞定创意建站

2025-04-22

AI新手村：Hugging Face

2025-04-22

6.4K star！轻松搞定专业领域大模型推理，这个知识增强框架绝了！

2025-04-22

mcp-sse-webui可视化实战项目：基于MCP的webui服务，支持连接多个sse服务端（附完整源码）

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

2025-04-21

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB