我要投稿

基于23ai新特性和开源框架实现GraphRAG

发布日期：2025-01-21 19:52:40 浏览次数： 1766 作者：甲骨文云技术

前言

大语言模型的兴起极大提升了机器对自然语言的理解能力，相关AI应用也随之蓬勃发展。对于企业而言，构建企业级知识库尤为重要。企业在日常运营中积累了大量的内部文档，如何有效地利用这些文档，将其转化为可用知识，是一个长期存在的挑战。

RAG（检索增强生成）技术的出现为这一问题提供了新的解决思路，使对海量文本的自动处理与理解成为可能，进而将文档活化为企业的私有知识库。然而，传统RAG技术在处理复杂知识关系方面仍存在不足。GraphRAG通过引入图谱结构，更高效地组织和关联知识，显著提高了RAG回答的质量。

尽管GraphRAG在理论上具备优势，但在数据质量、时效性保障，以及降低开发门槛方面仍有较大的提升空间。本文将介绍一种基于Oracle融合数据库的GraphRAG实现方案，结合Oracle 23ai的新特性与开源框架LightRAG，旨在简化开发与部署成本，同时在数据治理、数据质量和实时性方面提供显著优势。

RAG vs. GraphRAG

传统RAG系统依赖向量相似性检索，从知识库中找到与用户查询相关的文档，并基于这些文档生成答案。与传统的关键词搜索或基于规则的方法相比，RAG更适合处理自然语言查询，能够提供更准确和全面的答案。

然而，在面对包含复杂关系的文档数据时，传统RAG常常显得力不从心。例如，当某个概念在不同段落中多次提及时，传统RAG难以捕捉这些段落之间的关系，导致语义丢失。

GraphRAG的出现正是为了解决这些不足。

GraphRAG利用图数据结构表示知识，将知识之间的关系通过节点和边的形式直观地展现出来。这种图结构更擅长捕捉知识间的复杂关系，如因果关系、共现关系等。此外，图结构还支持多跳推理——即根据多个事实进行逻辑推导，以得出最终答案。这是传统RAG系统难以有效处理的问题。

GraphRAG在复杂关系处理、多类型数据整合方面表现出显著优势。例如，在医疗领域，GraphRAG可以分析疾病、症状和药物之间的复杂关系，提供精准的诊断和治疗建议；在金融领域，它可以揭示企业、个人实体之间的关联，帮助识别潜在风险。

构建GraphRAG面临的挑战

基于知识图谱的GraphRAG为知识检索提供了强有力的方法支撑，但是要从概念落地到实际应用，需要克服诸多挑战，尤其是在高质量知识图谱的构建和维护方面。

1. 多模数据整合

GraphRAG系统需要整合多种数据类型：

文本数据：用于向大语言模型传递原文。
关系数据：用于存储文本、段落等文档元素之间的引用关系。
向量数据：存储文本转换的向量数据，用于自然语言的相似检索。
图数据：用于存储知识图谱的节点与边关系。

如何高效整合这些不同格式的数据，是GraphRAG构建的核心挑战。

2. 知识图谱的动态更新与维护

知识图谱的构建涉及节点、边、关系类型的定义，以及实体之间关系的确定。此外，图谱的维护需要确保实时性和准确性，动态更新机制的设计同样至关重要。

3. 跨领域技术整合

GraphRAG涉及数据库、图计算、自然语言处理和机器学习等多个技术领域，这对开发团队提出了较高的技术要求。此外，系统的架构设计、容错性、可扩展性和安全性也是成功落地的关键因素。

基于Oracle 23ai和开源框架的解决方案

LightRAG是一个开源的检索增强生成框架，涵盖从文档处理、知识图谱构建到RAG问答的完整流程。结合Oracle 23ai的能力，可以为GraphRAG系统的构建提供更加简便和高效的实现。该方案旨在解决多模态数据整合、知识图谱构建与维护、图计算性能、检索策略以及答案生成等方面的难题，最终实现一个高效、易用且强大的GraphRAG系统。

1. 数据整合

我们的方案核心在于充分利用Oracle 23ai作为融合数据库的强大的多模数据处理能力。

Oracle融合数据库统一了关系型数据、向量数据、图数据、JSON数据，能够在一条SQL查询中实现跨模式的数据整合。这极大简化了数据存储和查询的复杂性，提升了开发效率。在下图所示的架构中，以往需要多个数据库完成的存储、查询任务，使用Oracle 23ai可以一步到位，在一条SQL中实现关系、向量、图的关联查询。