我要投稿

SuperRAG：超越RAG的布局感知图建模

发布日期：2025-03-30 19:10:49 浏览次数： 1682 作者：Paper易论

本文介绍了用于多模态RAG的布局感知图建模。与传统RAG方法主要处理平面文本块不同，所提出的方法通过使用图结构考虑多模态之间的关系。为此，基于文档布局解析定义了一个图建模结构。输入文档的结构通过文本块、表格和图表的连接得以保留。这种表示方法允许该方法处理需要来自多模态信息的复杂问题。为了确认图建模的效率，开发了一种灵活的RAG流水线，使用强大的组件。在四个基准测试集上的实验结果证实了布局感知建模对RAG流水线性能提升的贡献。

检索增强生成（RAG）是一种新兴范式，通过为大型语言模型（LLM）提供额外上下文来减少其幻觉现象，从而提升LLM的推理能力。由于其在增强LLM能力方面的显著效果，这种方法近年来受到了广泛关注。在此领域中，基于图的RAG方法应运而生，通过引入结构化知识进一步提升了系统性能和可解释性。

与传统RAG方法直接将原始数据作为独立文本块进行处理不同，基于图的RAG方法创新性地将输入数据表示为考虑文本块间关系的图结构。尽管现有RAG流水线在文本模态内表现优异，但在处理多模态输入时仍面临重大挑战，这主要源于两个关键因素：首先，输入文档通常包含多样化的布局、结构和多模态信息，这些要素需要在RAG流水线中得到有效捕获，其中布局信息对LLM理解文档具有重要作用；其次，输入问题往往需要整合不同模态的信息，例如在回答"请列出创建互联网导航软件教学材料的标准步骤"这类问题时，可能需要同时参考流程图和文本内容。

本文提出了一种新型基于图的RAG方案，有效解决了多模态问答中的上述挑战。该方案包含四个核心步骤：文档解析、数据建模、高级信息检索和推理。在文档解析阶段，系统能够处理多种输入类型，并整合内部和第三方阅读器。数据建模阶段创新性地引入了保留文档布局和结构的知识图谱（KG），这种布局感知的表示方法显著提升了信息检索（IR）步骤的性能。通过将KG形式的数据建模与全文搜索和向量搜索相结合，系统构建了一个先进的IR模块。

本研究的创新性主要体现在三个方面：首先，提出了一种新的布局感知图建模（LAGM）结构，用于表示RAG的输入文档，有效保留了文档布局信息；其次，整合了最先进的强大技术，构建了统一的RAG流水线；最后，在公共基准数据集上的实验结果表明，所提出的SuperRAG方法相较于其他强RAG基线取得了显著提升。此外，研究还提供了一个可供用户体验的RAG流水线系统。

RAG（检索增强生成）是一种创新方法，旨在支持大型语言模型（LLM）填补知识空白并减少幻觉现象。通过从外部知识源检索相关信息，RAG能够帮助LLM生成更加准确和可靠的回答。这种方法已经在多个任务中展现出显著效果，包括代码生成、特定领域的问答以及开放领域的问答等。

基于图的RAG方法进一步扩展了这一范式，利用图结构来捕捉概念之间的关系。图结构已被广泛应用于多种场景，例如构建知识图谱、处理长上下文信息以及整合多模态数据。图结构还被用于以不同方式提升RAG的质量，例如通过超关系知识图谱、基于图的代理处理长上下文、知识图谱摘要以及图神经网络等。然而，现有研究大多集中在文本模态上，对多模态数据的关注相对较少。

本研究遵循构建多模态知识图谱的方向，提出了一种新的布局感知图建模（LAGM）方法。与先前的工作相比，SuperRAG特别强调结构粒度和文档布局分析，引入了一种现代通用的数据模型，结合目录（ToC）和主节信息来改进大型文档的检索效果。这些创新不仅保留了文档的结构，还显著提高了检索的准确性和效率。此外，我们的方法通过内部阅读器增强了对多样化文档类型的处理能力，而不仅限于PDF文件的文本结构。

布局感知图建模（LAGM）

布局感知图建模旨在有效表示输入文档，同时保留其原始布局和结构。这一方法的提出源于对增强属性图可理解性和管理性的需求，特别是在涉及多模态和复杂数据的应用中。例如，当查询需要从表格或图表中提取信息时，RAG流水线需要明确这些内容所属的部分或子部分。

文档布局解析

构建LAGM的第一步是使用专门的阅读器解析不同模态的输入文档，包括文本、表格、图表和图像。这一步骤输出一种结构化格式，为图的创建奠定了基础。我们结合了内部文档解析器和Azure Document Intelligence（DI）的增强功能，确保对多样化布局的稳健处理。

内部文档解析器
我们的内部解析器设计为一个模块化管道，能够独立处理每一页文档。它从格式转换和预处理的加载层开始，随后通过人工智能模型提取布局、表格结构、OCR文本和图表内容。处理后的数据经过后处理步骤，例如阅读顺序排序和关系提取，最终以JSON或Markdown格式输出。

内部解析器的关键组件包括文档布局分析（DLA）、阅读顺序检测、表格结构识别和图表分类。DLA模块在DocLayNet数据集上进行了预训练，并使用大量内部标注的PDF页面进一步微调，使模型能够识别标题、表格和图表等9种不同的布局标签。这种设计确保了系统在处理复杂文档时的高效性和准确性。

图1：内部解析器的管道。对于阅读顺序检测，解析器采用了Wang等人（2021）提出的方法，利用5010个注释的文档图像提取自然阅读序列。表格结构识别使用内部库实现，准确识别各种表格格式。最后，图表和表格分类依赖于策划的数据集，将表格分为子类型（例如全线条、无边框）并将图表分为特定类型（例如图表、示意图），确保视觉元素的精确提取。表1报告

内部阅读器与其他强阅读方法的比较。NID代表布局和顺序阅读的标准化插入删除距离。TEDS是基于树编辑距离相似性的文本和表格结构识别。TEDS-S是仅用于表格结构识别的基于树编辑距离相似性结构。我们可以观察到，内部阅读器取得了具有竞争力的结果，这对于实施实际的RAG管道是很好的。

使用Azure DI增强PDF解析

Azure DI通过在章节标题和段落检测方面表现出色，增强了解析器的功能。它支持可搜索和不可搜索的PDF，并有助于创建目录（ToC）。为了生成ToC，我们使用Azure DI输出的表格、章节和图表执行以下操作：(1) 匹配物理页码和印刷页码。(2) 根据关键词检测ToC。(3) 将印刷页码替换为物理页码。这种集成确保了优越的布局感知图建模，并改善了用于结构化导航的ToC生成。

数据建模

解析后，每个文档页面可以分解为标题、页眉、章节、文本块、表格和图表等。数据建模步骤旨在为属性图创建粒度级别的设计。图2显示了LAGM的定义。

图2：用于数据建模的知识图。公司节点作为根节点，表示总体实体或语料库，例如一家公司，并捕获公司的名称等元数据。每个文档节点链接到公司，代表单个文档，具有文档名称、类型和路径等属性。

文档连接到页面节点，页面节点代表各个页面，并包括页面索引、页眉、页脚和文本内容等属性。目录节点也链接到文档，提供文档的结构概述，并连接到主章节节点。主章节按层次组织内容，并链接到章节、表格和图表节点。

章节节点代表文档中的逻辑划分，并包括章节标题和内容等属性。章节通过“has_next”关系依次连接，确保内容的流动。它们还可以链接到更细粒度的SectionChunk节点，捕获章节下的文本。表格节点表示表格数据，图表节点表示视觉元素，提供额外的结构。表格可能进一步连接TableChunk节点，用于存储表格内的文本内容。这些明确的“is_under”和“has_next”关系反映了文档的自然层次和流动。这种设计支持布局感知图建模和高效的信息检索，通过启用精确的导航和知识提取来增强像RAG管道这样的应用。

SuperRAG框架

基于布局感知图建模（LAGM），我们提出了一种先进的检索增强框架，结合了大型语言模型（LLM）和启发式驱动的方法，实现了灵活且高效的检索。该框架通过提升应用的适应性和可扩展性，显著增强了基于RAG的管道的性能。

基于LLM的图遍历

该方法利用大型语言模型（LLM）进行上下文感知的图遍历。通过将图模式（如图2所示）作为输入，LLM动态生成Cypher查询，从而实现智能化和关系驱动的检索。这种方法特别适用于处理复杂的多模态数据以及图中编码的复杂文档结构。关于LLM提示的详细信息可在附录中找到。

基于启发式的检索

为了补充基于LLM的方法，该框架将目录、表格和图表作为启发式方法用于信息检索（IR）增强。在目录处理方面，框架结合了LLM的结构化输出和提示工程（如图4所示），并利用启发式方法提取目录进行索引。这是因为目录在索引过程中包含了重要的结构化信息。在检索过程中，系统计算章节标题与查询之间的语义相似度得分，以实现有针对性的内容检索。此外，通过少量示例提示，LLM能够根据给定查询直接提取相关页面。

在表格处理方面，框架使用DETR模型进行表格检测和识别，随后通过OCR引擎重建表格结构，以确保在SuperRAG管道中准确捕获和检索表格内容。对于图表处理，系统使用OCR模型从图表中提取文本，并将图像和文本信息输入多模态LLM（如GPT-4）以更好地解释图表内容。这种方法实现了对视觉元素的上下文感知理解，确保图表在检索和推理过程中得到更好的整合。这些启发式方法在处理结构化内容时表现出高效性、鲁棒性和显著的效果。

比较与优势

SuperRAG框架的双重设计平衡了灵活性与效率。基于LLM的遍历在非结构化和探索性任务中表现出色，而启发式方法则为高吞吐量系统提供了可预测的性能。两者相辅相成，共同构建了一个可扩展且自适应的RAG管道，充分利用图结构实现最优检索。这种结合不仅提升了系统的整体性能，还为处理复杂多模态数据提供了强大的支持。

图增强

为了进一步丰富LAGM（Language-Augmented Graph Model），我们引入了K近邻算法（K-Nearest Neighbors, KNN）（Cover & Hart, 1967）作为一种图增强技术，旨在图结构中的节点间建立新的"is_similar"关系。KNN算法通过计算节点属性的相似度来实现这一目的，其中相似度度量方法的选择（如余弦相似度、Jaccard相似系数或欧几里得距离等）取决于具体的数据类型。此外，我们还通过同义词扩展和词干提取技术生成"has_stem"关系，从而在表示相关概念的术语节点之间建立连接。

应用

图3展示了LAGM的整体处理流程，该流程整合了多种检索器和重排序器，结合启发式图遍历、相似性搜索以及基于语言模型的技术，实现了高效的检索和排序功能。该流程具有以下几个显著特点：首先，它利用图表示法来整合跨页面的上下文信息；其次，针对包含结构化信息的文档，系统配备了专门的目录（TOC）检索器，以提升特定查询的上下文质量；此外，该流程还通过图表扩展机制来处理需要从表格和图表中提取信息的查询，并通过自反思层来优化检索结果。

图3：所提出的SuperRAG框架。评估查询意图是否需要表格或图表信息。它选择性地仅在有助于更准确答案时集成这些元素，减少无关内容的检索。值得注意的是，LAGM是流水线无关的，可以集成到任何RAG流水线中。

对于SPIQA，SuperRAG在所有三个测试集中表现出色，尤其在基于图表和表格的问答任务中表现出色。在Test-A中，它实现了最高的平均准确率（59.9%），在基于表格的问题上达到了显著的63.5%，比最佳基线高出7%。对于Test-B，SuperRAG再次领先，平均准确率达到63.2%，超过了最强的基线Claude3.5 Sonet（49.5%）。它在基于图表的任务中达到66.2%，在基于表格的任务中达到58.9%，展示了在不同模态间的均衡优势。在Test-C中，SuperRAG总体准确率达到57.2%，在图表（58.2%）和表格（56.7%）方面表现出色。相比之下，亚军Claude-3.5 Sonnet仅为46.0%，差距达12.2%。这些结果突显了SuperRAG即使与企业系统竞争时也能有效处理多模态输入的能力。

本文介绍了用于RAG的多模态数据构造的布局感知图建模。该建模考虑了输入文档的结构，以构建包含文本块、表格和图表之间关系的图。还开发了一个RAG流水线以确认建模的有效性。在四个公共测试集上的实验结果表明了两个重要点。首先，布局感知建模对于提高RAG的性能有益，相较于非布局感知和其他强RAG流水线。其次，设计的RAG流水线具有灵活性，添加更多复杂的RAG相关组件可以提高系统的性能。该建模和RAG流水线在商业场景中是实用的。 ## 局限性

首先，我们的方法高度依赖于准确的文档布局解析和高质量的数据建模。如果这些组件未对齐或文档结构提取工具有限，流水线的有效性可能会降低。特别是，不同领域中的嘈杂布局或文档结构变化可能会影响信息检索（IR）的质量，进而影响流水线的推理性能。此外，将表格、图表和非文本元素整合到连贯的图结构中可能会增加计算开销，使流水线资源密集。这可能会影响可扩展性，特别是在需要高吞吐量或计算资源有限的实际应用中。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业