我要投稿

为什么说Agentic RAG是RAG领域的王者？

发布日期：2025-03-27 07:46:29 浏览次数： 1847 作者：24KTech

前言

我们了解RAG的核心思想是将检索机制与大模型相结合，通过动态检索外部知识库来增强模型的生成能力，并生成上下文相关且准确的响应。RAG突破了目前大模型的静态知识限制，拓展了大模型开启了“生成+检索”协同工作的新范式。

传统RAG-文本检索的利器

首先回顾一下传统RAG的核心链路。

传统RAG的三个核心链路：

• 索引（向量嵌入）：通过Embedding模型服务实现文档的向量编码，写入向量数据库。
• 检索（相似查询）：通过Embedding模型服务实现查询的向量编码，使用相似性查询（ANN）实现TopK结果搜索。
• 生成（文档上下文）：Retriver检索的结果文档作为上下文和问题一起提交给大模型处理。

之前的文章中《为什么RAG系统"一看就会，一做就废"》提到传统RAG系统存在12个问题：

对12个问题归纳总结来看：

1. 缺失内容（Missing Content）、错过超出排名范围的文档（Missed Top Ranked）、不在上下文中（Not In Context）、数据摄取的可扩展性问题（Data Ingestion Scalability）、结构化数据的问答（Structured Data QA）、从复杂PDF文档提取数据（Data Extraction from Complex PDFs）：属于知识库工程层面的问题，可以通过完善知识库、增强知识确定性、优化上下文整合策略解决。
2. 未提取（Not Extracted）、错误的格式（Wrong Format）
、不正确的具体性（Incorrect Specificity）：属于大模型自身能力的问题，依赖大模型的训练和迭代。
3. 答案的不完整（Incomplete Answers）：属于RAG架构问题，更有前景的思路是使用Agent引入规划能力。

虽然传统RAG系统在知识检索和生成方面表现出色，但是在实际应用场景中我们已经不满足于只是生成对应的简单回答，而是期待大模型能够在处理动态、多步推理任务、适应性和复杂工作流的编排方面更好地应用于企业级场景。例如：

1. 传统RAG系统在面对需要从多源信息中抽取并综合分析的情况时，存在明显局限性。当回答一个复杂问题涉及到通过识别和利用不同信息片段之间的共享属性，来构建新的、综合性答案时，传统RAG无法有效连接这些关键点，导致在信息整合与关联方面表现不足，无法充分满足用户对于准确、全面且深入信息处理的需求。
2. 传统RAG对大规模的数据集合或是单篇幅巨大的文档进行全面而深入的理解时，它的表现会显得较为逊色。这主要是因为传统RAG在处理大量数据时，难以有效地捕捉和理解那些被浓缩于其中的关键语义概念，从而影响了整体的理解质量。

比如在医疗场景中：医疗诊断的复杂问题，需要综合分析患者的病历记录、多项检查报告以及不同的医学研究文献等多源信息。传统RAG系统可能会分别从这些信息源中抽取相关内容，但如果要构建一个新的综合性答案，比如确定一种罕见病的诊断依据，就需要识别和利用不同信息片段之间的共享属性，如特定症状、检查指标等。

传统RAG系统可能无法有效连接这些关键点，它可能知道患者有头痛、发烧等症状，也知道某项检查指标异常，但难以将这些分散的信息片段与医学文献中关于某种罕见病的特征描述进行关联，从而无法为医生提供一个完整、准确的诊断建议。

为了解决这些问题，2024年4月微软研究团队发表了一篇论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》论文中微软的研究人员提出了一种从文本构建并增强知识图的方法，即GraphRAG（Graph-based Retrieval-Augmented Generation）。

GraphRAG-图结构的智慧

Graph RAG 中的 Graph 指的是知识图谱 —— Knowledge Graph, KGs。一个用来表示实体及其相互关系的结构化图形数据模型。在 Graph 中，节点（Nodes）代表实体如人、地点、事件等；边（Edges）则代表这些实体之间的关系，（如人物关系、地理位置等）。
GraphRAG是一种结合了知识图谱的检索增强生成框架，是对传统RAG实现的一种改进，专注于从图结构数据中检索信息。

GraphRAG工作流程

GraphRAG将文本构建为知识图谱，将信息表示为实体和关系的互联网络。通过图遍历算法遍历图中的节点和边即KG中的结构化信息，能够捕捉和利用信息片段之间的复杂关系，以及在检索和生成阶段利用这些结构化信息。为用户提供更准确、相关和多样化的检索结果。

GraphRAG的工作流程主要包括三个阶段：基于图的索引（Graph-Based Indexing）、图引导检索（Graph-Guided Retrieval）和图增强生成（Graph-Enhanced Generation）。

• 索引阶段，利用LLM来自动化构建知识图谱，提取出对应的节点（如实体）、边（如关系）和协变量（如主张），然后利用社区发现技术（如Leiden算法）对整个知识图谱进行子图划分，然后自底而上对子图利用LLM进行摘要、总结；
• 检索阶段，根据用户查询提取最相关的图元素；
• 生成阶段，利用检索到的图数据汇总生成答案。

GraphRAG 有两种主要方法：

• 基于知识图谱的 GraphRAG
从文本中提取三元组（主体、关系、客体），并通过多跳邻居检索信息。
例如，如果你询问“爱因斯坦的导师是谁？”，GraphRAG 会从知识图谱中找到“爱因斯坦”这个节点，然后通过“导师”关系找到“赫尔曼·闵可夫斯基”这个实体。
• 基于社区的 GraphRAG
在知识图谱的基础上构建层次化社区，并从社区中检索信息。这种方法特别适合处理多跳问题和需要全局视角的任务。
例如，在处理“爱因斯坦的导师的导师是谁？”这样的多跳问题时，基于社区的 GraphRAG 能够通过社区的层次结构，逐步检索出“爱因斯坦”的导师的导师：“卡尔·弗里德里希·高斯”。

Jeong Yitae撰文《From RAG to GraphRAG , What is the GraphRAG and why i use it?》，总结了Graph RAG的不足：GraphRAG 和 RAG 一样，具有明显的局限性，包括如何形成图形、生成查询这些图形的查询，以及最终根据这些查询决定要检索多少信息。

1. 信息抽取：如何构建高质量的知识图谱？
信息抽取是构建图索引的关键步骤，需从原始文本中提取结构化信息（如实体、关系、属性等），并将其转化为知识图谱（KG）中的节点和边。若信息抽取不准确或不完整，后续的图构建、检索和查询结果的不准确。例如：

• 实体识别复杂性
未能正确识别文本中的关键实体（如“收入增长”与“市场策略”），导致图中节点缺失或错误关联。
• 关系提取准确性
无法捕捉隐含的因果关系或逻辑关系（如“产品销量下降”与“供应链问题”之间的联系），影响图的语义完整性。

2. 查询生成：如何在知识图谱上的生成全面性和准确性的回答？
查询生成是指模型根据用户原始查询生成子查询，以驱动对图中相关节点和边的检索。然而，原始查询生成子查询存在以下挑战：

• 子查询覆盖不全
模型可能无法生成足够多或足够精准的子查询，导致关键信息未被检索到。例如，用户询问“数据中的前5个主题”，但生成的子查询未能覆盖所有潜在主题的关键词。
• 语义理解偏差
若原始查询的意图复杂（如需要多条件组合或跨领域关联），生成的子查询可能无法准确捕捉深层语义。

3. 推理边界：如何平衡“信息充分性”与“计算效率”？
推理边界指在信息检索过程中如何平衡“信息充分性”与“计算效率”。具体挑战包括：

• 信息筛选困难：如何确定哪些信息是“关键”且“相关”的，需要复杂的策略（如基于置信度或权重排序），但现有方法可能无法有效实现。
• 信息过载风险 ：若检索范围过大（如包含过多相关节点和边），会增加计算负担，导致系统推理速度下降和响应速度。例如，处理大规模文档时，若未合理限制检索规模，模型可能因处理海量数据而失效。

KAG-知识增强生成

虽然RAG技术实现了特定域应用程序的高效构建。但是也有局限性，包括向量相似性与知识推理相关性之间的差距，以及对知识逻辑的不敏感如数值、时间关系、专家规则等，都阻碍了尤其是在法律、医学和科学等需要分析推理的专业领域服务的有效性。

为了解决以上问题，蚂蚁集团知识图谱团队和浙江大学的撰写的论文《KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation》，提出了知识增强生成（Knowledge Augmented Generation，KAG）框架，该框架旨在充分利用知识图谱和向量检索的优势，提升大语言模型在专业领域的表现。KAG框架充分利用知识图谱和RAG技术的互补优势。不仅将图结构整合到知识库，还将知识图谱的语义类型、关系以及知识图谱问答（KGQA）中常用的逻辑形式整合到检索和生成过程中。

论文对KAG的定位是专业领域知识增强服务框架，同时提到一个非常重要的观点：一个专业的知识服务框架须具备3个重要特点：

• 具备知识的准确性：包括知识边界、知识结构的完整性和语义的清晰性
• 具备逻辑严谨性、时间敏感性和数字敏感性
• 完备的上下文信息，以方便在知识决策时获取完备的支持信息

KAG框架通过对当前大语言模型与知识图谱结合，对以下五个方面进行了增强：

• 对LLM友好的知识表示增强
• 知识图谱与原文片段之间的互索引结构
• 逻辑符号引导的混合推理引擎
• 基于语义推理的知识对齐机制
• KAG模型

KAG框架

KAG框架由三个部分组成：KAG-Builder、KAG-Solver 和 KAG-Model。

• KAG-Builder
专为构建离线索引而设计，提出了一个 LLM友好知识表示框架以及知识结构和文本块之间的相互索引。
• KAG-Solver
引入了一个逻辑形式引导的混合推理求解器，它集成了LLM推理、知识推理和数理逻辑推理。
此外，通过语义推理进行知识对齐用于提高KAG-Builder 和KAG-Solver中知识表示和检索的准确性。
• KAG-Model
基于通用语言模型，针对每个模块所需的特定能力进行优化，从而全面提升所有模块性能。

KAG框架设计思路是必须从受约束的知识库出发，去构建图谱或做逻辑推理。在一定程度上缓解大模型领域知识缺失以及幻觉的问题。
目前框架处于早期快速迭代阶段，在功能具体实现方面应该还是存在一定的优化提升空间，需要团队在实际业务场景中检验和迭代。
据蚂蚁集团知识图谱团队分享，KAG已在电子政务、电子医疗进行的应用，表现的还不错。

Agentic RAG 破局

智能体检索增强生成（Agentic RAG）通过将自主人工智能智能体嵌入RAG流程，克服了这些局限性。Agentic RAG利用智能体设计模式（反思、规划、工具使用和多智能体协作）来动态管理检索策略，迭代完善上下文理解，并通过从顺序步骤到自适应协作等明确定义的操作结构来调整工作流程，在复杂任务中实现闭环的检索 - 加工 - 验证 - 优化，来提高决策能力和适应性。

比如当对于”2025年政府工作报告中[人工智能+]政策对就业与科技发展的综合影响“复杂综合分析时，Agentic RAG能够有效整合多源信息并进行多步深度推理、修正优化，给出完整的分析报告。而传统的RAG、GraphRAG是难以企及的。

Agentic RAG框架

Agentic RAG 如何工作？

智能体智能是Agentic RAG系统的基础，使它们能够超越传统RAG的静态和被动性质。通过集成能够进行动态决策、迭代推理和协作工作流程的自主智能体，确保系统能够精确且可扩展地处理复杂的现实任务。在处理复杂业务场景时，Agentic RAG系统展现出更强的适应性和精确性。

• 大语言模型（具有定义的角色和任务）

作为智能体的主要推理引擎和对话接口。它解释用户查询、生成回复并保持连贯性。

• 记忆（短期和长期）

在交互过程中捕捉上下文和相关数据。短期记忆跟踪即时对话状态，而长期记忆存储积累的知识和智能体经验。

• 规划（反思与自我批判）

通过反思、查询路由或自我批判指导智能体的迭代推理过程，确保复杂任务能被有效地分解。

• 工具（向量搜索、网络搜索、API等）

扩展智能体的能力，使其超越文本生成，能够访问外部资源、实时数据或进行专门的计算。

Agentic RAG 架构

Agentic RAG的核心是Agent，可以根据复杂度的不同进行扩展，分为不同的架构框架。这些框架包括单智能体架构（Single-Agent RAG）、多智能体系统（Multi-Agent RAG）。每个框架都针对特定的挑战进行了优化，以适应不同应用场景的性能需求。

单智能体RAG（Single-Agent RAG，Router）

单智能体智RAG作为一个集中式决策系统，由单个智能体管理信息的检索、路由和集成。这种架构通过将这些任务整合到一个统一的智能体中，简化了系统，使其特别适用于工具或数据源数量有限的设置。

单智能体RAG工作流程

1. 查询提交与评估
用户提交查询后，协调智能体（或主检索智能体）接收查询并进行分析，以确定最合适的信息来源。
2. 知识源选择
根据查询类型，协调智能体从多种检索选项中进行选择：

• 结构化数据库
对于需要访问表格数据的查询，系统可能使用与PostgreSQL或MySQL等数据库交互的文本转SQL引擎。
• 语义搜索
处理非结构化信息时，它使用基于向量的检索来获取相关文档（如PDF、书籍、组织记录）。
• 网络搜索
为获取实时或广泛的上下文信息，系统利用网络搜索工具访问最新的在线数据。
• 推荐系统
针对个性化或上下文相关的查询，系统调用推荐引擎，提供定制化的建议。

3. 数据集成与大语言模型合成
从选定的来源检索到相关数据后，将其传递给大语言模型。大语言模型对收集到的信息进行合成，将多个来源的见解整合为连贯且与上下文相关的回复。
4. 输出生成
最后，系统提供一个全面的、面向用户的答案，回答原始查询。该回复以可行、简洁的格式呈现，并可选择包含对所用来源的引用或参考。

单智能体RAG关键特征和优势：

• 集中式简单性
单个智能体处理所有检索和路由任务，使架构的设计、实现和维护都很直接。
• 效率与资源优化
由于智能体数量较少且协调简单，系统所需的计算资源较少，能够更快地处理查询。
• 动态路由
智能体实时评估每个查询，选择最合适的知识源（如结构化数据库、语义搜索、网络搜索）。
• 工具通用性
支持多种数据源和外部API，适用于结构化和非结构化工作流程。
• 适用于简单系统
适合具有明确任务或有限集成需求的应用（如文档检索、基于SQL的工作流程）。

多智能体RAG系统（Multi-Agent RAG）

多智能体RAG是单智能体架构的模块化、可扩展的演进，旨在通过利用多个专门的智能体来处理复杂的工作流程和多样化的查询类型。该系统不再依赖单个智能体来管理所有任务（推理、检索和回复生成），而是将职责分配给多个智能体，每个智能体针对特定的角色或数据源进行了优化。

多智能体RAG工作流程：

1. 查询提交
流程从用户查询开始，由协调智能体或主检索智能体接收。这个智能体作为中央协调器，根据查询的要求将查询分配给专门的检索智能体。
2. 专门的检索智能体
查询被分配到多个检索智能体，每个智能体专注于特定类型的数据来源或任务。例如：

• 智能体1：处理结构化查询，如与基于SQL的数据库（如PostgreSQL或MySQL）进行交互。
• 智能体2：管理语义搜索，从PDF、书籍或内部记录等来源检索非结构化数据。
• 智能体3：专注于从网络搜索或API检索实时公共信息。
• 智能体4：专门处理推荐系统，根据用户行为或配置文件提供上下文感知的建议。

3. 工具访问与数据检索
每个智能体将查询路由到其领域内适当的工具或数据源，如：

• 向量搜索：用于语义相关性检索。
• 文本转SQL：用于结构化数据检索。
• 网络搜索：用于获取实时公共信息。
• API：用于访问外部服务或专有系统。检索过程并行执行，以便高效处理各种查询类型。

4. 数据集成与大语言模型合成
检索完成后，所有智能体的数据都被传递给大语言模型。大语言模型将检索到的信息合成为连贯且与上下文相关的回复，无缝整合多个来源的见解。

5. 输出生成
系统生成全面的回复，并以可行、简洁的格式返回给用户。

多智能体RAG关键特征和优势：

• 模块化：每个智能体独立运行，允许根据系统需求无缝添加或删除智能体。
• 可扩展性：多个智能体的并行处理使系统能够高效处理高查询量。
• 任务专业化：每个智能体针对特定类型的查询或数据源进行了优化，提高了准确性和检索相关性。
• 效率：通过将任务分配给专门的智能体，系统减少了瓶颈，提高了复杂工作流程的性能。
• 通用性：适用于多个领域的应用，包括研究、分析、决策和客户支持。

多智能体RAG挑战：

• 协调复杂性：管理智能体之间的通信和任务分配需要复杂的协调机制。
• 可扩展性与延迟：扩展Agentic RAG系统以处理大规模数据集和高频查询，同时不降低性能。解决多代理和图工作流中的延迟问题。
• 扩展多模态能力：整合文本、图像、音频和视频数据，以生成更丰富和全面的输出。
• 伦理与负责任的AI：在医疗和金融等敏感领域确保无偏见的检索和决策。解决数据隐私问题，构建符合伦理标准的透明系统。

尽管Agentic RAG系统在技术实现层面仍面临着诸多的挑战，但是其通过如下3方面突破性进展，一定会成为应对复杂问题的新利器。

1. 交互范式完成了从被动响应到主动预测的转型，系统能够基于上下文深度理解主动预判用户需求；2. 检索机制实现了由单次关键词匹配向多轮动态调整的跨越，通过实时反馈循环构建起包含意图识别、语义修正、结果优化的自我进化体系；
2. 任务处理能力完成了从简单事实问答到复杂认知任务的质变突破，可支持多模态数据分析、跨领域知识推理、结构化报告生成等高端智能服务。

相信在不久将来Agentic RAG能够像人类专家一样，在面对复杂问题时不仅给出答案，更能给出详细的推理过程和执行细节在内的一整套完整方案。

小结

Jerry Liu（LlamaIndex CEO）在报告《Beyond RAG: Building Advanced Context-Augmented LLM Applications》中也提出了RAG的未来是Agent相似观点。无论是RAG for Agents还是Agents for RAG，亦或是从RAG到Graph RAG再到Agents，在可见的未来，Agent将成为推动AI应用发展的核心力量。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业