我要投稿

旺精通~智能体检索增强生成(Agentic RAG)综述：背景、模型、框架、测试、展望

发布日期：2025-04-10 12:32:17 浏览次数： 1614 作者：旺知识

旺精通：技术细节全解，深度精通技术

大语言模型虽强大但依赖静态数据，有信息过时等问题。RAG应运而生，可集成实时数据，但传统RAG有局限性。重要意义在于智能体RAG能克服传统RAG不足，在多领域提供更精准、适应性强的解决方案，推动人工智能在复杂现实场景中的应用。

文章先介绍大语言模型依赖静态训练数据的局限，引出检索增强生成（RAG）。阐述RAG从朴素到高级、模块化、图RAG及智能体RAG的范式演变，介绍智能体智能的核心原则及工作流程模式。详细分类智能体RAG系统，如单智能体、多智能体等架构。通过对比分析不同框架，探讨其在多领域的应用、实施工具和框架、基准测试和数据集，最后总结并展望未来。

摘要&解读

大语言模型（LLMs）凭借生成类人文本和进行自然语言理解的能力，彻底改变了人工智能（AI）领域。然而，它们对静态训练数据的依赖，限制了其应对动态实时查询的能力，导致输出结果可能过时或不准确。检索增强生成（RAG）作为一种解决方案应运而生，它通过集成实时数据检索来增强大语言模型，以提供与上下文相关的最新回复。尽管传统RAG系统前景广阔，但受限于静态工作流程，缺乏多步推理和复杂任务管理所需的适应性。

智能体检索增强生成（Agentic RAG）通过将自主人工智能智能体嵌入RAG流程，克服了这些限制。这些智能体利用智能体设计模式（反思、规划、工具使用和多智能体协作）来动态管理检索策略，迭代完善上下文理解，并通过从顺序步骤到自适应协作等明确定义的操作结构来调整工作流程。这种集成使智能体RAG系统在各种应用中具备无与伦比的灵活性、可扩展性和上下文感知能力。

本综述全面探讨了智能体RAG，从其基本原理和RAG范式的演变入手，详细介绍了智能体RAG架构的分类，突出了其在医疗、金融和教育等行业的关键应用，并研究了实际的实施策略。此外，还讨论了在扩展这些系统、确保符合伦理的决策制定以及优化实际应用性能方面面临的挑战，同时深入介绍了用于实现智能体RAG的框架和工具。

研究背景：
大语言模型在自然语言处理方面能力卓越，但依赖静态预训练数据，存在信息过时、易产生幻觉回复、无法适应动态现实场景等问题。传统检索增强生成（RAG）系统虽能集成实时数据检索，但在上下文集成、多步推理、可扩展性和延迟方面存在挑战。
实现设计：
智能体RAG系统分为多种架构，如单智能体RAG通过单个智能体管理信息检索、路由和集成；多智能体RAG将职责分配给多个专门智能体并行处理；分层智能体RAG采用结构化多层方法，较高级别智能体监督下级智能体；还有智能体校正RAG、自适应智能体RAG、基于图的智能体RAG（如Agent - G、GeAR）以及智能体文档工作流程等，各架构通过不同组件和流程实现其功能。
实验结果：
文章通过在多个领域的应用案例展示效果，如在客户支持领域提高回复质量和运营效率；医疗保健领域实现个性化护理、节省时间和提高准确性；法律领域提高合同审查效率、识别风险；金融领域提供实时分析、缓解风险；教育领域实现定制学习路径等，证明智能体RAG系统在多领域的有效性和变革潜力。

引言

大语言模型（LLMs），如OpenAI的GPT-4、谷歌的PaLM和Meta的LLaMA，凭借其生成类人文本和执行复杂自然语言处理任务的能力，极大地改变了人工智能（AI）领域。这些模型在包括对话智能体、自动内容创建和实时翻译在内的多个领域推动了创新。最近的进展将它们的能力扩展到了多模态任务，如图文生成和文本转视频生成，使得能够根据详细提示创建和编辑视频及图像，这拓宽了生成式人工智能的潜在应用范围。

尽管取得了这些进展，但大语言模型由于依赖静态预训练数据而面临显著的局限性。这种依赖常常导致信息过时、生成幻觉式回复，并且无法适应动态的现实场景。这些挑战凸显了对能够集成实时数据并动态优化回复以保持上下文相关性和准确性的系统的需求。

检索增强生成（RAG）作为应对这些挑战的一种有前景的解决方案出现。通过将大语言模型的生成能力与外部检索机制相结合，RAG系统提高了回复的相关性和及时性。这些系统从知识库、应用程序编程接口（APIs）或网络等来源检索实时信息，有效地弥合了静态训练数据与动态应用需求之间的差距。然而，传统RAG工作流程仍然受到其线性和静态设计的限制，这限制了它们执行复杂多步推理、融入深度上下文理解以及迭代优化回复的能力。

智能体的发展显著增强了人工智能系统的能力。现代智能体，包括由大语言模型驱动的智能体和移动智能体，是能够感知、推理并自主执行任务的智能实体。这些智能体利用反思、规划、工具使用和多智能体协作等智能体模式，来提高决策能力和适应性。

此外，这些智能体采用提示链接、路由、并行化、协调器 - 工作器模型和评估器 - 优化器等智能体工作流程模式，来构建和优化任务执行。通过整合这些模式，智能体RAG系统可以有效地管理动态工作流程，并解决复杂的问题求解场景。RAG与智能体智能的融合产生了智能体检索增强生成（Agentic RAG），这是一种将智能体集成到RAG流程中的范式。智能体RAG支持动态检索策略、上下文理解和迭代优化，实现了自适应且高效的信息处理。与传统RAG不同，智能体RAG使用自主智能体来协调检索、筛选相关信息并优化回复，在需要精确性和适应性的场景中表现出色。智能体RAG的概述见图1。

本综述探讨了智能体RAG的基本原理、分类和应用。全面介绍了RAG范式，如朴素RAG、高级RAG和图RAG，以及它们向智能体RAG系统的演变。主要贡献包括对智能体RAG框架的详细分类、在医疗、金融和教育等领域的应用，以及对实施策略、基准测试和伦理考量的见解。

本文结构如下：第2节介绍RAG及其演变，突出传统方法的局限性。第3节详细阐述智能体智能的原理和智能体模式。第4节详细介绍智能体工作流程模式。第5节给出智能体RAG系统的分类，包括单智能体、多智能体和基于图的框架。第6节对智能体RAG框架进行比较分析。第7节研究智能体RAG的应用，第8节讨论实施工具和框架。第9节关注基准测试和数据集，第10节总结智能体RAG系统的未来发展方向。

图1 智能体RAG概述

2. 检索增强生成基础

2.1 检索增强生成（RAG）概述

检索增强生成（RAG）是人工智能领域的一项重大进展，它将大语言模型（LLMs）的生成能力与实时数据检索相结合。虽然大语言模型在自然语言处理方面展现出了卓越的能力，但它们对静态预训练数据的依赖往往会导致回复过时或不完整。RAG通过从外部源动态检索相关信息并将其融入生成过程，解决了这一限制，从而实现了上下文准确且最新的输出。

2.2 RAG的核心组件

RAG系统的架构集成了三个主要组件（图2）：

检索
：负责查询外部数据源，如知识库、API或向量数据库。先进的检索器利用密集向量搜索和基于Transformer的模型来提高检索精度和语义相关性。
增强
：处理检索到的数据，提取并总结最相关的信息，使其与查询上下文保持一致。
生成
：将检索到的信息与大语言模型的预训练知识相结合，生成连贯、符合上下文的回复。

图2 RAG的核心组件

2.3 RAG范式的演变

检索增强生成（RAG）领域已经有了显著的发展，以应对现实世界应用中日益增长的复杂性，在这些应用中，上下文准确性、可扩展性和多步推理至关重要。从最初简单的基于关键词的检索，已经发展到复杂、模块化且自适应的系统，能够集成各种数据源和自主决策过程。这种演变强调了RAG系统高效处理复杂查询的需求不断增长。

本节研究RAG范式的发展历程，介绍关键的发展阶段——朴素RAG、高级RAG、模块化RAG、图RAG和智能体RAG，以及它们的定义特征、优势和局限性。通过了解这些范式的演变，读者可以认识到检索和生成能力的进步及其在各个领域的应用。

2.3.1 朴素RAG

朴素RAG是检索增强生成的基础实现。图3展示了朴素RAG简单的检索 - 读取工作流程，主要侧重于基于关键词的检索和静态数据集。这些系统依赖于简单的基于关键词的检索技术，如词频 - 逆文档频率（TF-IDF）和BM25，从静态数据集中获取文档。然后，检索到的文档用于增强语言模型的生成能力。

图3 朴素RAG概述

朴素RAG的特点是简单易实现，适用于涉及基于事实的查询、上下文复杂度较低的任务。然而，它存在一些局限性：

缺乏上下文感知
：由于依赖词汇匹配而非语义理解，检索到的文档往往无法捕捉查询的语义细微差别。
输出碎片化
：缺乏先进的预处理或上下文整合，常常导致回复不连贯或过于笼统。
可扩展性问题
：基于关键词的检索技术在处理大型数据集时存在困难，往往无法识别最相关的信息。

尽管存在这些局限性，朴素RAG系统为检索与生成的集成提供了关键的概念验证，为更复杂的范式奠定了基础。

2.3.2 高级RAG

高级RAG系统在朴素RAG的基础上进行改进，融入了语义理解和增强的检索技术。图4突出了高级RAG在检索方面的语义增强以及迭代、上下文感知的流程。这些系统利用密集检索模型，如密集段落检索（DPR）和神经排序算法，来提高检索精度。

图4 高级RAG概述

高级RAG的关键特征包括：

密集向量搜索
：查询和文档在高维向量空间中表示，能够更好地在用户查询和检索到的文档之间实现语义对齐。
上下文重排序
：神经模型对检索到的文档进行重新排序，优先考虑与上下文最相关的信息。
迭代检索
：高级RAG引入了多跳检索机制，能够对复杂查询在多个文档间进行推理。

这些进步使高级RAG适用于需要高精度和细致理解的应用，如研究综述和个性化推荐。然而，计算开销和有限的可扩展性等挑战仍然存在，特别是在处理大型数据集或多步查询时。

2.3.3 模块化RAG

模块化RAG是RAG范式的最新发展，强调灵活性和定制性。这些系统将检索和生成流程分解为独立、可重用的组件，实现特定领域的优化和任务适应性。图5展示了模块化架构，突出了混合检索策略、可组合的流程和外部工具集成。

图5 模块化RAG概述

模块化RAG的关键创新包括：

混合检索策略
：将稀疏检索方法（如稀疏编码器 - BM25）与密集检索技术（如DPR）相结合，以在各种查询类型中实现最高的准确性。
工具集成
：整合外部API、数据库或计算工具，以处理特定任务，如实时数据分析或特定领域的计算。
可组合的流程
：模块化RAG允许检索器、生成器和其他组件独立替换、增强或重新配置，使其能够高度适应特定的用例。

例如，为金融分析设计的模块化RAG系统可以通过API检索实时股票价格，使用密集检索分析历史趋势，并通过定制的语言模型生成可行的投资见解。这种模块化和定制性使模块化RAG成为复杂多领域任务的理想选择，兼具可扩展性和精确性。

2.3.4 图RAG

图RAG通过集成基于图的数据结构扩展了传统的检索增强生成系统，如图6所示。这些系统利用图数据中的关系和层次结构来增强多跳推理和上下文丰富性。通过纳入基于图的检索，图RAG能够生成更丰富、更准确的生成输出，特别是对于需要关系理解的任务。

图6 图RAG概述

图RAG的特点是能够：

节点连通性
：捕捉并推理实体之间的关系。
分层知识管理
：通过基于图的层次结构处理结构化和非结构化数据。
上下文丰富
：利用基于图的路径增加关系理解。

然而，图RAG也存在一些局限性：

可扩展性有限
：对图结构的依赖可能会限制可扩展性，特别是在数据源广泛的情况下。
数据依赖性
：高质量的图数据对于有意义的输出至关重要，这限制了其在非结构化或注释不佳的数据集上的适用性。
集成复杂性
：将图数据与非结构化检索系统集成会增加设计和实现的复杂性。

图RAG非常适合医疗诊断、法律研究等需要对结构化关系进行推理的应用领域。

2.3.5 智能体RAG

智能体RAG通过引入能够进行动态决策和工作流程优化的自主智能体，代表了一种范式转变。与静态系统不同，智能体RAG采用迭代优化和自适应检索策略来处理复杂、实时和多领域的查询。这种范式在引入基于智能体的自主性的同时，利用了检索和生成过程的模块化。

智能体RAG的关键特征包括：

自主决策
：智能体根据查询的复杂性独立评估和管理检索策略。
迭代优化
：纳入反馈循环以提高检索准确性和回复相关性。
工作流程优化
：动态协调任务，提高实时应用的效率。

尽管取得了这些进展，智能体RAG仍面临一些挑战：

协调复杂性
：管理智能体之间的交互需要复杂的协调机制。
计算开销
：使用多个智能体增加了复杂工作流程的资源需求。
可扩展性限制
：虽然具有可扩展性，但系统的动态特性在高查询量时可能会给计算资源带来压力。

智能体RAG在客户支持、金融分析和自适应学习平台等领域表现出色，在这些领域中，动态适应性和上下文精确性至关重要。

2.4 传统RAG系统的挑战和局限性

传统的检索增强生成（RAG）系统通过集成实时数据检索，显著扩展了大语言模型（LLMs）的能力。然而，这些系统在复杂的现实应用中仍然面临关键挑战，阻碍了它们的有效性。最显著的局限性围绕上下文集成、多步推理以及可扩展性和延迟问题。

2.4.1 上下文集成

即使RAG系统成功检索到相关信息，它们也常常难以将其无缝地融入生成的回复中。检索流程的静态性质和有限的上下文感知导致输出碎片化、不一致或过于笼统。

例如，对于“阿尔茨海默病研究的最新进展及其对早期治疗的影响是什么？”这样的查询，可能会检索到相关的研究论文和医学指南。然而，传统的RAG系统往往无法将这些发现综合成一个连贯的解释，将新的治疗方法与特定的患者场景联系起来。同样，对于“干旱地区小规模农业的最佳可持续实践是什么？”这样的查询，传统系统可能会检索到关于一般农业方法的文档，但忽略了针对干旱环境的关键可持续实践。

2.4.2 多步推理

许多现实世界的查询需要迭代或多跳推理，即跨多个步骤检索和综合信息。传统的RAG系统通常无法根据中间的见解或用户反馈优化检索，导致回复不完整或不连贯。

例如，像“欧洲可再生能源政策对发展中国家有哪些可借鉴的经验，以及潜在的经济影响是什么？”这样复杂的查询，需要整合多种类型的信息，包括政策数据、对发展中地区的背景分析以及经济分析。传统的RAG系统通常无法将这些不同的元素连接成一个连贯的回复。

2.4.3 可扩展性和延迟问题

随着外部数据源数量的增长，查询和排序大型数据集的计算成本越来越高。这导致显著的延迟，削弱了系统在实时应用中提供及时回复的能力。

例如，在金融分析或实时客户支持等对时间敏感的场景中，查询多个数据库或处理大型文档集所导致的延迟会影响系统的整体实用性。在高频交易中，检索市场趋势的延迟可能会导致错失机会。

2.5 智能体RAG：范式转变

传统的RAG系统由于其静态的工作流程和有限的适应性，往往难以处理动态、多步推理和复杂的现实任务。这些局限性促使了智能体智能的集成，从而产生了智能体RAG。通过纳入能够进行动态决策、迭代推理和自适应检索策略的自主智能体，智能体RAG在早期范式的模块化基础上进行构建，同时克服了它们的固有约束。这种演变使得能够以更高的精度和上下文理解来处理更复杂的多领域任务，使智能体RAG成为下一代人工智能应用的基石。特别是，智能体RAG系统通过优化工作流程减少延迟，并迭代优化输出，解决了传统RAG在可扩展性和有效性方面长期存在的挑战。

3. 智能体智能的核心原则和背景

智能体智能是智能体检索增强生成（RAG）系统的基础，使它们能够超越传统RAG的静态和被动性质。通过集成能够进行动态决策、迭代推理和协作工作流程的自主智能体，智能体RAG系统展现出更强的适应性和精确性。本节探讨支撑智能体智能的核心原则。

人工智能智能体的组成部分。本质上，一个人工智能智能体包括（图7）：

大语言模型（具有定义的角色和任务）
：作为智能体的主要推理引擎和对话接口。它解释用户查询、生成回复并保持连贯性。
记忆（短期和长期）
：在交互过程中捕捉上下文和相关数据。短期记忆跟踪即时对话状态，而长期记忆存储积累的知识和智能体经验。
规划（反思与自我批判）
：通过反思、查询路由或自我批判指导智能体的迭代推理过程，确保复杂任务能被有效地分解。
工具（向量搜索、网络搜索、API等）
：扩展智能体的能力，使其超越文本生成，能够访问外部资源、实时数据或进行专门的计算。

图7人工智能智能体概述

智能体模式为智能体检索增强生成（RAG）系统中的智能体行为提供了结构化的方法。这些模式使智能体能够动态适应、规划和协作，确保系统能够精确且可扩展地处理复杂的现实任务。智能体工作流程基于四种关键模式：

3.1 反思

反思是智能体工作流程中的基本设计模式，使智能体能够迭代地评估和优化其输出。通过纳入自我反馈机制，智能体可以识别并解决错误、不一致和需要改进的地方，从而在代码生成、文本创作和问答等任务中提高性能（如图8所示）。在实际应用中，反思包括促使智能体对其输出的正确性、风格和效率进行批判，然后将这些反馈纳入后续的迭代中。外部工具，如单元测试或网络搜索，可以通过验证结果和突出差距来进一步增强这个过程。

在多智能体系统中，反思可以涉及不同的角色，例如一个智能体生成输出，而另一个智能体对其进行批判，促进协作改进。例如，在法律研究中，智能体可以通过重新评估检索到的判例法来迭代地优化回复，确保准确性和全面性。在诸如Self-Refine、Reflexion和CRITIC等研究中，反思已显示出显著的性能提升。

图8智能体自我反思概述

3.2 规划

规划是智能体工作流程中的关键设计模式，使智能体能够自主地将复杂任务分解为更小的、可管理的子任务。这种能力对于在动态和不确定的场景中进行多跳推理和迭代问题解决至关重要，如图9a所示。

通过利用规划，智能体可以动态地确定完成更大目标所需的步骤顺序。这种适应性使智能体能够处理无法预先定义的任务，确保决策的灵活性。虽然规划功能强大，但与反思等确定性工作流程相比，它可能产生更不可预测的结果。规划特别适合需要动态适应的任务，在这些任务中，预定义的工作流程是不够的。随着技术的成熟，其在各个领域推动创新应用的潜力将继续增长。

3.3 工具使用

工具使用使智能体能够通过与外部工具、API或计算资源交互来扩展其能力，如图9b所示。这种模式使智能体能够收集信息、进行计算并处理其预训练知识之外的数据。通过将工具动态集成到工作流程中，智能体可以适应复杂任务，并提供更准确、与上下文相关的输出。

图9智能体规划和工具使用概述

现代智能体工作流程将工具使用应用于各种场景，包括信息检索、计算推理和与外部系统的交互。随着GPT-4的函数调用能力以及能够管理对众多工具访问的系统等技术的进步，这种模式的实现方式有了显著发展。这些进展促进了复杂的工作流程，在这些流程中，智能体可以自主选择并执行最适合特定任务的工具。

虽然工具使用显著增强了智能体工作流程，但在优化工具选择方面仍然存在挑战，特别是在有大量可用选项的情况下。受检索增强生成（RAG）启发的技术，如基于启发式的选择方法，已被提出用于解决这个问题。

3.4 多智能体协作

多智能体协作是智能体工作流程中的关键设计模式，实现了任务专业化和并行处理。智能体之间进行通信并共享中间结果，确保整个工作流程保持高效和连贯。通过将子任务分配给专门的智能体，这种模式提高了复杂工作流程的可扩展性和适应性。多智能体系统允许开发人员将复杂任务分解为更小的、可管理的子任务，并分配给不同的智能体。这种方法不仅提高了任务性能，还为管理复杂交互提供了强大的框架。每个智能体都有自己的记忆和工作流程，其中可以包括工具使用、反思或规划，实现动态和协作的问题解决（见图10）。

虽然多智能体协作具有巨大的潜力，但与反思和工具使用等更成熟的工作流程相比，它是一种更不可预测的设计模式。尽管如此，诸如AutoGen、Crew AI和LangGraph等新兴框架为实现有效的多智能体解决方案提供了新途径。

图10多智能体概述

这些设计模式是智能体RAG系统成功的基础。通过构建从简单的顺序步骤到更自适应、协作的工作流程，这些模式使系统能够动态地调整其检索和生成策略，以适应现实世界环境中多样且不断变化的需求。利用这些模式，智能体能够处理迭代的、上下文感知的任务，这远远超出了传统RAG系统的能力。

4. 智能体工作流程模式：动态协作的自适应策略

智能体工作流程模式用于构建基于大语言模型的应用程序，以优化性能、准确性和效率。根据任务的复杂性和处理要求，不同的方法各有适用性。

4.1 提示链接：通过顺序处理提高准确性

提示链接将复杂任务分解为多个步骤，每个步骤都建立在前一步的基础上。这种结构化方法通过在推进之前简化每个子任务来提高准确性。然而，由于顺序处理，它可能会增加延迟。

适用场景：当任务可以分解为固定的子任务，且每个子任务都对最终输出有贡献时，这种工作流程最为有效。在逐步推理能提高准确性的场景中特别有用。

应用示例：先以一种语言生成营销内容，然后在保留细节的情况下将其翻译成另一种语言；先生成文档大纲，验证其完整性，再展开完整文本的创作。

4.2 路由：将输入导向专门的流程

路由涉及对输入进行分类，并将其导向适当的专门提示或流程。这种方法确保不同的查询或任务被分别处理，从而提高效率和回复质量。

适用场景：适用于不同类型的输入需要不同处理策略的场景，确保为每个类别优化性能。

应用示例：将客户服务查询分类为技术支持、退款请求或一般咨询等类别；为了节省成本，将简单查询分配给较小的模型，而将复杂请求发送给高级模型。

4.3 并行化：通过并发执行加快处理速度

并行化将任务划分为独立的进程，这些进程同时运行，从而减少延迟并提高吞吐量。它可以分为分区（独立子任务）和投票（多个输出以提高准确性）两种类型。

适用场景：当任务可以独立执行以提高速度，或者多个输出可以提高可信度时适用。

应用示例：分区，如内容审核任务，一个模型筛选输入，另一个模型生成回复；投票，使用多个模型交叉检查代码中的漏洞或分析内容审核决策。

4.4 协调器 - 工作器：动态任务分配

这种工作流程有一个中央协调器模型，它动态地将任务分解为子任务，分配给专门的工作器模型，并汇总结果。与并行化不同，它能够适应不同的输入复杂性。

适用场景：最适合需要动态分解和实时适应的任务，其中子任务不是预先定义的。

应用示例：根据请求更改的性质自动修改代码库中的多个文件；通过从多个来源收集和综合相关信息进行实时研究。

4.5 评估器 - 优化器：通过迭代优化输出

评估器 - 优化器工作流程通过生成初始输出并根据评估模型的反馈进行优化，迭代地改进内容。

适用场景：当迭代优化能显著提高回复质量，特别是存在明确的评估标准时，这种方法很有效。

应用示例：通过多次评估和优化循环改进文学翻译；进行多轮研究查询，后续迭代优化搜索结果。

5. 智能体RAG系统的分类

智能体检索增强生成（RAG）系统可以根据其复杂性和设计原则分为不同的架构框架。这些框架包括单智能体架构、多智能体系统和分层智能体架构。每个框架都针对特定的挑战进行了优化，以适应不同应用场景的性能需求。本节详细介绍这些架构的分类，突出它们的特点、优势和局限性。

5.1 单智能体智能体RAG：路由器

单智能体智能体RAG作为一个集中式决策系统，由单个智能体管理信息的检索、路由和集成（如图16所示）。这种架构通过将这些任务整合到一个统一的智能体中，简化了系统，使其特别适用于工具或数据源数量有限的设置。

图16单智能体RAG概述

工作流程：

查询提交与评估
：用户提交查询后，协调智能体（或主检索智能体）接收查询并进行分析，以确定最合适的信息来源。
知识源选择
：根据查询类型，协调智能体从多种检索选项中进行选择：

结构化数据库
：对于需要访问表格数据的查询，系统可能使用与PostgreSQL或MySQL等数据库交互的文本转SQL引擎。
语义搜索
：处理非结构化信息时，它使用基于向量的检索来获取相关文档（如PDF、书籍、组织记录）。
网络搜索
：为获取实时或广泛的上下文信息，系统利用网络搜索工具访问最新的在线数据。
推荐系统
：针对个性化或上下文相关的查询，系统调用推荐引擎，提供定制化的建议。
数据集成与大语言模型合成
：从选定的来源检索到相关数据后，将其传递给大语言模型。大语言模型对收集到的信息进行合成，将多个来源的见解整合为连贯且与上下文相关的回复。
输出生成
：最后，系统提供一个全面的、面向用户的答案，回答原始查询。该回复以可行、简洁的格式呈现，并可选择包含对所用来源的引用或参考。

关键特征和优势：

集中式简单性
：单个智能体处理所有检索和路由任务，使架构的设计、实现和维护都很直接。
效率与资源优化
：由于智能体数量较少且协调简单，系统所需的计算资源较少，能够更快地处理查询。
动态路由
：智能体实时评估每个查询，选择最合适的知识源（如结构化数据库、语义搜索、网络搜索）。
工具通用性
：支持多种数据源和外部API，适用于结构化和非结构化工作流程。
适用于简单系统
：适合具有明确任务或有限集成需求的应用（如文档检索、基于SQL的工作流程）。

用例：客户支持

提示
：你能告诉我我的订单的配送状态吗？
系统流程（单智能体工作流程）
：

查询提交与评估
：用户提交查询，协调智能体接收并分析该查询，确定最合适的信息来源。
知识源选择
：从订单管理数据库中检索跟踪详情；从物流供应商的API获取实时更新；还可选择进行网络搜索，以确定影响配送的当地情况，如天气或物流延误。
数据集成与大语言模型合成
：将相关数据传递给大语言模型，大语言模型将信息合成为连贯的回复。
输出生成
：系统生成可行且简洁的回复，提供实时跟踪更新和可能的替代方案。

回复
：综合回复：“您的包裹目前在运输途中，预计明天晚上送达。UPS的实时跟踪显示它在区域配送中心。”

5.2 多智能体智能体RAG系统

多智能体RAG是单智能体架构的模块化、可扩展的演进，旨在通过利用多个专门的智能体来处理复杂的工作流程和多样化的查询类型（如图17所示）。该系统不再依赖单个智能体来管理所有任务（推理、检索和回复生成），而是将职责分配给多个智能体，每个智能体针对特定的角色或数据源进行了优化。

图17多智能体智能体RAG系统概述

工作流程：

查询提交
：流程从用户查询开始，由协调智能体或主检索智能体接收。这个智能体作为中央协调器，根据查询的要求将查询分配给专门的检索智能体。
专门的检索智能体
：查询被分配到多个检索智能体，每个智能体专注于特定类型的数据来源或任务。例如：

智能体1
：处理结构化查询，如与基于SQL的数据库（如PostgreSQL或MySQL）进行交互。
智能体2
：管理语义搜索，从PDF、书籍或内部记录等来源检索非结构化数据。
智能体3
：专注于从网络搜索或API检索实时公共信息。
智能体4
：专门处理推荐系统，根据用户行为或配置文件提供上下文感知的建议。

工具访问与数据检索
：每个智能体将查询路由到其领域内适当的工具或数据源，如：

向量搜索
：用于语义相关性检索。
文本转SQL
：用于结构化数据检索。
网络搜索
：用于获取实时公共信息。
API
：用于访问外部服务或专有系统。检索过程并行执行，以便高效处理各种查询类型。

数据集成与大语言模型合成
：检索完成后，所有智能体的数据都被传递给大语言模型。大语言模型将检索到的信息合成为连贯且与上下文相关的回复，无缝整合多个来源的见解。
输出生成
：系统生成全面的回复，并以可行、简洁的格式返回给用户。

关键特征和优势：

模块化
：每个智能体独立运行，允许根据系统需求无缝添加或删除智能体。
可扩展性
：多个智能体的并行处理使系统能够高效处理高查询量。
任务专业化
：每个智能体针对特定类型的查询或数据源进行了优化，提高了准确性和检索相关性。
效率
：通过将任务分配给专门的智能体，系统减少了瓶颈，提高了复杂工作流程的性能。
通用性
：适用于多个领域的应用，包括研究、分析、决策和客户支持。

挑战：

协调复杂性
：管理智能体之间的通信和任务分配需要复杂的协调机制。
计算开销
：多个智能体的并行处理会增加资源使用。
数据集成
：将来自不同来源的输出合成为一个连贯的回复并非易事，需要大语言模型具备先进的能力。

用例：多领域研究助手

提示
：欧洲采用可再生能源对经济和环境有哪些影响？
系统流程（多智能体工作流程）
：

智能体1
：使用基于SQL的查询从经济数据库中检索统计数据。
智能体2
：使用语义搜索工具搜索相关学术论文。
智能体3
：进行网络搜索，获取关于可再生能源的最新新闻和政策更新。
智能体4
：咨询推荐系统，以推荐相关内容，如报告或专家评论。

回复
：综合回复：“根据欧盟政策报告，欧洲在过去十年中采用可再生能源使温室气体排放量减少了20%。在经济方面，可再生能源投资创造了约120万个就业岗位，太阳能和风能领域增长显著。最近的学术研究还强调了电网稳定性和储能成本方面的潜在权衡。”

5.3 分层智能体RAG系统

分层智能体RAG系统采用结构化的多层方法进行信息检索和处理，提高了效率和战略决策能力，如图18所示。智能体按层次结构组织，较高级别的智能体监督和指导较低级别的智能体。这种结构实现了多层次决策，确保查询由最合适的资源处理。

图18分层智能体RAG示意图

工作流程：

查询接收
：用户提交查询，由负责初始评估和分配的顶级智能体接收。
战略决策
：顶级智能体评估查询的复杂性，并决定优先使用哪些下级智能体或数据源。根据查询的领域，某些数据库、API或检索工具可能被认为更可靠或相关。
任务分配给下级智能体
：顶级智能体将任务分配给专门从事特定检索方法（如SQL数据库、网络搜索或专有系统）的下级智能体。这些智能体独立执行分配的任务。
聚合与合成
：下级智能体的结果由较高级别的智能体收集和整合，该智能体将信息合成为连贯的回复。
回复交付
：最终合成的答案返回给用户，确保回复既全面又与上下文相关。

关键特征和优势：

战略优先级
：顶级智能体可以根据查询的复杂性、可靠性或上下文对数据源或任务进行优先级排序。
可扩展性
：将任务分配到多个智能体层级，能够处理高度复杂或多方面的查询。
增强决策能力
：较高级别的智能体进行战略监督，提高回复的整体准确性和连贯性。

挑战：

协调复杂性
：在多个层级间维持稳健的智能体间通信会增加协调成本。
资源分配
：在不同层级间高效分配任务以避免瓶颈并非易事。

用例：财务分析系统

提示
：鉴于当前可再生能源的市场趋势，最佳投资选择有哪些？
系统流程（分层智能体工作流程）
：

顶级智能体
：评估查询的复杂性，优先选择可靠的财务数据库和经济指标，而非可靠性较低的数据来源。
中级智能体
：从专有API和结构化SQL数据库中检索实时市场数据（如股票价格、行业表现）。
低级智能体
：进行网络搜索以获取近期政策公告，并咨询跟踪专家意见和新闻分析的推荐系统。
聚合与合成
：顶级智能体汇总结果，将定量数据与政策见解相结合。

回复
：综合回复：“根据当前市场数据，受政府支持政策和投资者兴趣增强的推动，可再生能源股票在过去一个季度增长了15%。分析师认为，风能和太阳能领域尤其可能保持增长势头，而绿色氢等新兴技术虽有一定风险，但潜在回报较高。”

5.4 智能体校正RAG

校正RAG引入了自我校正检索结果的机制，提高了文档利用率并改善了回复生成质量，如图19所示。通过将智能智能体嵌入工作流程，校正RAG确保对上下文文档和回复进行迭代优化，最大限度地减少错误并提高相关性。

校正RAG的核心思想：校正RAG的核心原则在于其能够动态评估检索到的文档，采取校正措施，并优化查询以提高生成回复的质量。校正RAG按以下方式调整其方法：

文档相关性评估
：相关性评估智能体评估检索到的文档的相关性。低于相关性阈值的文档会触发校正步骤。
查询优化与增强
：查询优化智能体利用语义理解优化检索，重写查询以获得更好的结果。
从外部源动态检索
：当上下文不足时，外部知识检索智能体进行网络搜索或访问替代数据源，以补充检索到的文档。
回复合成
：所有经过验证和优化的信息被传递给回复合成智能体，以生成最终回复。

图19智能体校正RAG概述

工作流程：校正RAG系统基于五个关键智能体构建：

上下文检索智能体
：负责从向量数据库中检索初始上下文文档。
相关性评估智能体
：评估检索到的文档的相关性，并标记任何不相关或模糊的文档以进行校正。
查询优化智能体
：重写查询以提高检索效果，利用语义理解优化结果。
外部知识检索智能体
：当上下文文档不足时，进行网络搜索或访问替代数据源。
回复合成智能体
：将所有经过验证的信息合成为连贯准确的回复。

关键特征和优势：

迭代校正
：通过动态识别和校正不相关或模糊的检索结果，确保回复的高准确性。
动态适应性
：结合实时网络搜索和查询优化，提高检索精度。
智能体模块化
：每个智能体执行专门的任务，确保高效且可扩展的操作。
事实性保证
：通过验证所有检索和生成的内容，校正RAG最大限度地降低了产生幻觉或错误信息的风险。

用例：学术研究助手

提示
：生成式人工智能研究的最新发现有哪些？
系统流程（校正RAG工作流程）
：

查询提交
：用户向系统提交查询。
上下文检索
：上下文检索智能体从已发表的生成式人工智能论文数据库中检索初始文档，并将检索到的文档传递到下一步进行评估。
相关性评估
：相关性评估智能体评估文档与查询的一致性，将文档分为相关、模糊或不相关类别，标记不相关文档以进行校正。
校正措施（如有需要）
：查询优化智能体重写查询以提高特异性和相关性，外部知识检索智能体进行网络搜索，从外部来源获取更多论文和报告。
回复合成
：回复合成智能体将经过验证的文档整合为连贯全面的摘要。

回复
：综合回复：“生成式人工智能的最新发现突出了扩散模型的进展、用于文本到视频任务的强化学习以及大规模模型训练的优化技术。更多详细信息，请参考2024年神经信息处理系统大会（NeurIPS 2024）和2025年美国人工智能协会会议（AAAI 2025）上发表的研究。”

5.5 自适应智能体RAG

自适应检索增强生成（Adaptive RAG）通过根据传入查询的复杂性动态调整查询处理策略，提高了大语言模型（LLMs）的灵活性和效率。与静态检索工作流程不同，自适应RAG使用分类器评估查询复杂性，并确定最合适的方法，从单步检索到多步推理，甚至对于简单查询直接绕过检索，如图20所示。

图20自适应智能体RAG概述

自适应RAG的核心思想：自适应RAG的核心原则是其能够根据查询的复杂性动态调整检索策略。自适应RAG按以下方式调整其方法：

简单查询
：对于基于事实且无需额外检索的问题（例如“水的沸点是多少？”），系统直接利用已有知识生成答案。
普通查询
：对于需要少量上下文的中等复杂任务（例如“我最新的电费账单状态如何？”），系统执行单步检索以获取相关详细信息。
复杂查询
：对于需要迭代推理的多层级查询（例如“城市X在过去十年的人口变化情况如何，原因是什么？”），系统采用多步检索，逐步优化中间结果以提供全面答案。

工作流程：自适应RAG系统基于三个主要组件构建：

分类器角色
：一个较小的语言模型分析查询以预测其复杂性，分类器使用从过去模型输出和查询模式自动标记的数据集进行训练。
动态策略选择
：对于简单查询，系统避免不必要的检索，直接利用大语言模型生成回复；对于普通查询，它采用单步检索过程获取相关上下文；对于复杂查询，它启动多步检索以确保迭代优化和增强推理。
大语言模型集成
：大语言模型将检索到的信息合成为连贯的回复，大语言模型与分类器之间的迭代交互为复杂查询提供优化。

关键特征和优势：

动态适应性
：根据查询复杂性调整检索策略，优化计算效率和回复准确性。
资源效率
：为简单查询最小化不必要的开销，同时确保对复杂查询进行全面处理。
增强准确性
：迭代优化确保复杂查询得到高精度的解答。
灵活性
：可以扩展以纳入额外的路径，如特定领域的工具或外部API。

用例：客户支持助手

提示
：我的包裹为什么延迟了，我有哪些替代方案？
系统流程（自适应RAG工作流程）
：

查询分类
：分类器分析查询并确定其为复杂查询，需要多步推理。
动态策略选择
：系统根据复杂性分类启动多步检索过程。
多步检索
：从订单数据库中检索跟踪详情；从物流供应商API获取实时状态更新；进行网络搜索以查找外部因素，如天气状况或当地干扰。
回复合成
：大语言模型整合所有检索到的信息，合成全面且可行的回复。

回复
：综合回复：“您的包裹因您所在地区的恶劣天气而延迟。它目前在当地配送中心，将在2天内送达。或者，您可以选择从该设施自提包裹。”

5.6 基于图的智能体RAG

5.6.1 Agent-G：用于图RAG的智能体框架

Agent-G引入了一种新颖的智能体架构，将图知识库与非结构化文档检索相结合。通过结合结构化和非结构化数据源，该框架提高了检索增强生成（RAG）系统的推理和检索准确性。它采用模块化检索器库、动态智能体交互和反馈循环，以确保高质量的输出，如图21所示。

图21 Agent-G：用于图RAG的智能体框架概述

Agent-G的核心思想：Agent-G的核心原则是其能够动态地将检索任务分配给专门的智能体，同时利用图知识库和文本文件。Agent-G按以下方式调整其检索策略：

图知识库
：结构化数据用于提取关系、层次结构和连接（例如医疗保健中的疾病与症状映射）。
非结构化文档
：传统文本检索系统提供上下文信息，以补充图数据。
评论模块
：评估检索到的信息的相关性和质量，确保与查询一致。
反馈循环
：通过迭代验证和重新查询优化检索和合成。

工作流程：Agent-G系统基于四个主要组件构建：

检索器库
：一组模块化的智能体专门用于检索基于图或非结构化的数据，智能体根据查询要求动态选择相关来源。
评论模块
：验证检索到的数据的相关性和质量，标记低置信度的结果以便重新检索或优化。
动态智能体交互
：特定任务的智能体协作以整合不同类型的数据，确保跨图和文本来源的连贯检索和合成。
大语言模型集成
：将经过验证的数据合成为连贯的回复，评论模块的迭代反馈确保与查询意图一致。

关键特征和优势：

增强推理
：将图中的结构化关系与非结构化文档中的上下文信息相结合。
动态适应性
：根据查询要求动态调整检索策略。
提高准确性
：评论模块降低了回复中出现不相关或低质量数据的风险。
可扩展模块化
：支持添加新的智能体以执行专门任务，增强可扩展性。

用例：医疗诊断

提示
：2型糖尿病的常见症状有哪些，它们与心脏病有何关联？
系统流程（Agent-G工作流程）
：

查询接收与分配
：系统接收查询，并确定需要图结构化和非结构化数据来全面回答问题。
图检索器
：从医学知识图中提取2型糖尿病与心脏病之间的关系，通过探索图层次结构和关系识别共同的风险因素，如肥胖和高血压。
文档检索器
：从医学文献中检索2型糖尿病症状的描述（如口渴加剧、尿频、疲劳），添加上下文信息以补充基于图的见解。
评论模块
：评估检索到的图数据和文档数据的相关性和质量，标记低置信度的结果以便优化或重新查询。
回复合成
：大语言模型将图检索器和文档检索器中经过验证的数据整合为连贯的回复，确保与查询意图一致。

回复
：综合回复：“2型糖尿病的症状包括口渴加剧、尿频和疲劳。研究表明，糖尿病与心脏病之间存在50%的相关性，主要通过肥胖和高血压等共同风险因素相关联。”

5.6.2 GeAR：用于检索增强生成的图增强智能体

GeAR引入了一种智能体框架，通过纳入基于图的检索机制增强了传统的检索增强生成（RAG）系统。通过利用图扩展技术和基于智能体的架构，GeAR解决了多跳检索场景中的挑战，提高了系统处理复杂查询的能力，如图22所示。

图22 GeAR：用于检索增强生成的图增强智能体概述

GeAR的核心思想：GeAR通过两项主要创新提升了RAG的性能：

图扩展
：通过将检索过程扩展到包括图结构化数据，增强了传统的基础检索器（如BM25），使系统能够捕捉实体之间的复杂关系和依赖。
智能体框架
：纳入基于智能体的架构，利用图扩展更有效地管理检索任务，在检索过程中实现动态自主决策。

工作流程：GeAR系统通过以下组件运行：

图扩展模块
：将基于图的数据集成到检索过程中，使系统在检索时能够考虑实体之间的关系，通过扩展搜索空间以包括相关实体，增强基础检索器处理多跳查询的能力。
基于智能体的检索
：采用智能体框架管理检索过程，根据查询的复杂性动态选择和组合检索策略，智能体可以自主决定使用图扩展的检索路径，以提高检索信息的相关性和准确性。
大语言模型集成
：将通过图扩展丰富的检索信息与大语言模型的能力相结合，生成连贯且与上下文相关的回复，这种集成确保生成过程同时考虑非结构化文档和结构化图数据。

关键特征和优势：

增强多跳检索
：GeAR的图扩展使系统能够处理需要对多个相互关联的信息进行推理的复杂查询。
智能体决策
：智能体框架实现了检索策略的动态自主选择，提高了效率和相关性。
提高准确性
：通过纳入结构化图数据，GeAR提高了检索信息的精度，从而产生更准确、与上下文更适配的回复。
可扩展性
：智能体框架的模块化特性允许根据需要集成额外的检索策略和数据源。

用例：多跳问答

提示
：哪位作者影响了J.K.罗琳的导师？
系统流程（GeAR工作流程）
：

顶级智能体
：评估查询的多跳性质，确定需要结合图扩展和文档检索来回答问题。
图扩展模块
：识别J.K.罗琳的导师是查询中的关键实体，通过探索文学关系的图结构化数据追溯对该导师的文学影响。
基于智能体的检索
：一个智能体自主选择图扩展的检索路径，收集关于导师影响的相关信息，并通过查询文本数据源获取关于导师及其影响的非结构化细节，以整合额外的上下文。
回复合成
：使用大语言模型结合图和文档检索过程中的见解，生成准确反映查询中复杂关系的回复。

回复
：综合回复：“J.K.罗琳的导师[导师姓名]深受[作者姓名]的影响，[作者姓名]以其[著名作品或流派]而闻名。这种联系凸显了文学史上的多层次关系，其中有影响力的思想常常在多代作者之间传承。”

5.7 智能体RAG中的智能体文档工作流程

智能体文档工作流程（ADW）通过实现端到端的知识工作自动化，扩展了传统的检索增强生成（RAG）范式。这些工作流程协调复杂的以文档为中心的过程，将文档解析、检索、推理和结构化输出与智能智能体相结合（见图23）。ADW系统通过维护状态、协调多步工作流程以及对文档应用特定领域的逻辑，解决了智能文档处理（IDP）和RAG的局限性。

图23智能体文档工作流程（ADW）概述

工作流程：

文档解析和信息结构化
：使用企业级工具（如LlamaParse）解析文档，以提取相关数据字段，如发票编号、日期、供应商信息、行项目和付款条款，结构化数据被组织用于下游处理。
跨流程状态维护
：系统维护关于文档上下文的状态，确保多步工作流程中的一致性和相关性，跟踪文档在各个处理阶段的进展。
知识检索
：从外部知识库（如LlamaCloud）或向量索引中检索相关参考资料，检索实时的、特定领域的指南以辅助决策。
智能体编排
：智能智能体应用业务规则，进行多跳推理，并生成可行的建议，编排解析器、检索器和外部API等组件，实现无缝集成。
可行输出生成
：输出以结构化格式呈现，根据特定用例进行定制，将建议和提取的见解合成为简洁且可行的报告。

用例：发票支付工作流程

提示
：根据提交的发票和相关供应商合同条款生成付款建议报告。
系统流程（ADW工作流程）
：

解析发票以提取关键细节，如发票编号、日期、供应商信息、行项目和付款条款。
检索相应的供应商合同，以验证付款条款并确定任何适用的折扣或合规要求。
生成付款建议报告，其中包括应付的原始金额、潜在的提前付款折扣、预算影响分析以及战略付款行动。

回复
：综合回复：“已处理编号为INV - 2025 - 045的发票，金额为15,000.00美元。如果在2025年4月10日前付款，可享受2%的提前付款折扣，应付金额将降至14,700.00美元。由于订单总价超过10,000.00美元，还适用5%的批量订单折扣。建议批准提前付款，以节省2%的费用，并确保为即将到来的项目阶段及时分配资金。”

关键特征和优势：

状态维护
：跟踪文档上下文和工作流程阶段，确保跨流程的一致性。
多步编排
：处理涉及多个组件和外部工具的复杂工作流程。
特定领域智能
：应用定制的业务规则和指南，提供精确的建议。
可扩展性
：通过模块化和动态的智能体集成，支持大规模文档处理。
提高生产力
：自动化重复任务，同时增强人类在决策中的专业知识。

6. 智能体RAG框架的比较分析

表2对传统RAG、智能体RAG和智能体文档工作流程（ADW）这三种架构框架进行了全面的比较分析。该分析突出了它们各自的优势、劣势以及最适合的场景，为在不同用例中选择合适的框架提供了有价值的见解。

特征	传统RAG	智能体RAG	智能体文档工作流程（ADW）
重点	孤立的检索和生成任务	多智能体协作与推理	以文档为中心的端到端工作流程
上下文维护	有限	通过记忆模块实现	在多步工作流程中维护状态
动态适应性	最小	高	针对文档工作流程进行定制
工作流程编排	无	编排多智能体任务	集成多步文档处理
外部工具/API的使用	基本集成（如检索工具）	通过API和知识库等工具扩展	深度集成业务规则和特定领域工具
可扩展性	限于小数据集或查询	适用于多智能体系统的扩展	适用于多领域企业工作流程的扩展
复杂推理	基本（如简单问答）	智能体进行多步推理	跨文档的结构化推理
主要应用	问答系统、知识检索	多领域知识与推理	合同审查、发票处理、索赔分析
优势	简单、快速设置	高精度、协作推理	端到端自动化、特定领域智能
挑战	上下文理解差	协调复杂性	资源开销、领域标准化

比较分析强调了从传统RAG到智能体RAG，再到智能体文档工作流程（ADW）的演进轨迹。虽然传统RAG在基本任务中提供了简单性和易于部署的特点，但智能体RAG通过多智能体协作引入了增强的推理和可扩展性。ADW在这些进步的基础上，提供了强大的、以文档为中心的工作流程，促进了端到端的自动化以及与特定领域流程的集成。了解每个框架的优势和局限性对于选择最合适的架构以满足特定的应用需求和操作要求至关重要。

7. 智能体RAG的应用

智能体检索增强生成（RAG）系统在多个领域展现出了变革性的潜力。通过结合实时数据检索、生成能力和自主决策，这些系统能够应对复杂、动态和多模态的挑战。本节将探讨智能体RAG的关键应用，详细介绍这些系统是如何塑造客户支持、医疗保健、金融、教育、法律工作流程和创意产业等行业的。

7.1 客户支持和虚拟助手

智能体RAG系统正在彻底改变客户支持领域，实现实时、上下文感知的查询解决。传统的聊天机器人和虚拟助手通常依赖静态知识库，导致回复往往是通用的或过时的。相比之下，智能体RAG系统能够动态检索最相关的信息，适应用户的上下文，并生成个性化的回复。

用例：Twitch广告销售增强例如，Twitch在亚马逊云服务（Amazon Bedrock）上利用智能体工作流程和RAG技术，简化了广告销售流程。该系统动态检索广告商数据、历史广告活动表现和受众人口统计信息，以生成详细的广告提案，显著提高了运营效率。

关键优势：

提高回复质量
：个性化和上下文感知的回复增强了用户参与度。
提高运营效率
：通过自动化复杂查询，减轻了人工支持人员的工作量。
实时适应性
：动态整合不断变化的数据，如实时服务中断或价格更新。

7.2 医疗保健和个性化医疗

在医疗保健领域，将患者特定数据与最新医学研究相结合对于做出明智的决策至关重要。智能体RAG系统通过检索实时临床指南、医学文献和患者病史，协助临床医生进行诊断和治疗规划，实现了这一目标。

用例：患者病例总结智能体RAG系统已被应用于生成患者病例总结。例如，通过整合电子健康记录（EHR）和最新的医学文献，该系统为临床医生生成全面的总结，使他们能够更快、更明智地做出决策。

关键优势：

个性化护理
：根据个体患者的需求定制建议。
节省时间
：简化了相关研究的检索过程，为医疗保健提供者节省了宝贵时间。
准确性
：确保建议基于最新的证据和患者特定参数。

7.3 法律和合同分析

智能体RAG系统正在重新定义法律工作流程的执行方式，为快速文档分析和决策提供工具。

用例：合同审查一个法律智能体RAG系统可以分析合同，提取关键条款，并识别潜在风险。通过将语义搜索功能与法律知识图谱相结合，它实现了合同审查这一繁琐过程的自动化，确保合规性并降低风险。

关键优势：

风险识别
：自动标记偏离标准条款的条款。
提高效率
：减少了合同审查过程所花费的时间。
可扩展性
：能够同时处理大量合同。

7.4 金融和风险分析

智能体RAG系统通过为投资决策、市场分析和风险管理提供实时见解，正在改变金融行业。这些系统整合实时数据流、历史趋势和预测模型，以生成可行的输出。

用例：汽车保险理赔处理在汽车保险领域，智能体RAG可以实现理赔处理的自动化。例如，通过检索保单详细信息并将其与事故数据相结合，它在确保符合监管要求的同时生成理赔建议。

关键优势：

实时分析
：基于实时市场数据提供见解。
风险缓解
：使用预测分析和多步推理识别潜在风险。
增强决策能力
：结合历史数据和实时数据制定全面策略。

7.5 教育和个性化学习

教育是智能体RAG系统取得重大进展的另一个领域。这些系统通过生成根据学习者的进度和偏好定制的解释、学习材料和反馈，实现了自适应学习。

用例：研究论文生成在高等教育中，智能体RAG已被用于协助研究人员，它能从多个来源综合关键发现。例如，当研究人员查询“量子计算的最新进展有哪些？”时，会收到一份带有参考文献的简明摘要，提高了他们工作的质量和效率。

关键优势：

定制学习路径
：根据个体学生的需求和表现水平调整内容。
互动性
：提供交互式解释和个性化反馈。
可扩展性
：支持在不同教育环境中的大规模部署。

7.6 多模态工作流程中的图增强应用

图增强智能体RAG（GEAR）将图结构与检索机制相结合，使其在多模态工作流程中特别有效，在这些流程中，相互关联的数据源至关重要。

用例：市场调查生成 GEAR能够为营销活动合成文本、图像和视频。例如，当查询“环保产品的新兴趋势有哪些？”时，它会生成一份详细的报告，其中包含客户偏好、竞争对手分析和多媒体内容。

关键优势：

多模态能力
：整合文本、图像和视频数据以生成全面的输出。
增强创造力
：为营销和娱乐领域生成创新的想法和解决方案。
动态适应性
：适应不断变化的市场趋势和客户需求。

智能体RAG系统的应用涵盖了广泛的行业，展示了它们的多功能性和变革潜力。从个性化的客户支持到自适应教育和图增强的多模态工作流程，这些系统解决了复杂、动态和知识密集型的挑战。通过整合检索、生成和智能体智能，智能体RAG系统为下一代人工智能应用铺平了道路。

8. 智能体RAG的工具和框架

智能体检索增强生成（RAG）系统代表了检索、生成和智能体智能相结合的重大演进。这些系统通过集成决策、查询重构和自适应工作流程，扩展了传统RAG的能力。以下工具和框架为开发智能体RAG系统提供了强大的支持，满足了现实世界应用的复杂需求。

关键工具和框架：

LangChain和LangGraph
：LangChain提供了用于构建RAG管道的模块化组件，无缝集成检索器、生成器和外部工具。LangGraph通过引入基于图的工作流程进行补充，支持循环、状态持久化和人在回路的交互，在智能体系统中实现了复杂的编排和自我校正机制。
LlamaIndex
：LlamaIndex的智能体文档工作流程（ADW）实现了文档处理、检索和结构化推理的端到端自动化。它引入了一种元智能体架构，其中子智能体管理较小的文档集，通过顶级智能体进行协调，以完成合规性分析和上下文理解等任务。
Hugging Face Transformers和Qdrant
：Hugging Face提供了用于嵌入和生成任务的预训练模型，而Qdrant通过自适应向量搜索功能增强了检索工作流程，使智能体能够通过在稀疏和密集向量方法之间动态切换来优化性能。
CrewAI和AutoGen
：这些框架侧重于多智能体架构。CrewAI支持分层和顺序流程、强大的内存系统和工具集成。AG2（以前称为AutoGen）在多智能体协作方面表现出色，对代码生成、工具执行和决策提供了高级支持。
OpenAI Swarm框架
：这是一个为符合人体工程学、轻量级多智能体编排而设计的教育框架，强调智能体的自主性和结构化协作。
与Vertex AI结合的智能体RAG
：由谷歌开发的Vertex AI与智能体检索增强生成（RAG）无缝集成，提供了一个构建、部署和扩展机器学习模型的平台，同时利用先进的人工智能能力实现强大的、上下文感知的检索和决策工作流程。
语义内核（Semantic Kernel）
：微软的开源软件开发工具包（SDK），它将大语言模型（LLMs）集成到应用程序中。它支持智能体模式，能够创建用于自然语言理解、任务自动化和决策的自主人工智能智能体。它已被用于ServiceNow的P1事件管理等场景，以促进实时协作、自动化任务执行和无缝检索上下文信息。
用于智能体RAG的亚马逊云服务（Amazon Bedrock）
：Amazon Bedrock为实现智能体检索增强生成（RAG）工作流程提供了强大的平台。
IBM Watson和智能体RAG
：IBM的watsonx.ai支持构建智能体RAG系统，例如使用Granite - 3 - 8B - Instruct模型，通过集成外部信息来回答复杂查询并提高回复准确性。
Neo4j和向量数据库
：Neo4j是一个著名的开源图数据库，在处理复杂关系和语义查询方面表现出色。与Neo4j一起，向量数据库（如Weaviate、Pinecone、Milvus和Qdrant）提供了高效的相似性搜索和检索功能，构成了高性能智能体检索增强生成（RAG）工作流程的基础。

9. 基准测试和数据集

当前的基准测试和数据集为评估检索增强生成（RAG）系统（包括具有智能体和基于图的增强功能的系统）提供了有价值的见解。虽然有些是专门为RAG设计的，但其他的则经过调整，用于在不同场景中测试检索、推理和生成能力。数据集对于测试RAG系统的检索、推理和生成组件至关重要。表3讨论了一些基于RAG评估下游任务的关键数据集。

基准测试通过提供结构化任务和指标，在标准化RAG系统评估方面发挥着关键作用。以下基准测试尤为相关：

BEIR（信息检索基准测试）
：一个通用的基准测试，用于评估各种信息检索任务上的嵌入模型，涵盖生物信息学、金融和问答等17个不同领域的数据集。
MS MARCO（微软机器阅读理解）
：专注于段落排序和问答，这个基准测试广泛用于RAG系统中的密集检索任务。
TREC（文本检索会议，深度学习赛道）
：提供用于段落和文档检索的数据集，强调检索管道中排序模型的质量。
MuSiQue（多跳顺序提问）
：一个用于跨多个文档进行多跳推理的基准测试，强调从不相关的上下文中检索和合成信息的重要性。
2WikiMultihopQA
：一个用于基于两篇维基百科文章的多跳问答任务的数据集，侧重于跨多个来源连接知识的能力。
AgentG（用于知识融合的智能体RAG）
：专为智能体RAG任务定制，这个基准测试评估跨多个知识库的动态信息合成能力。
HotpotQA
：一个多跳问答基准测试，需要在相互关联的上下文中进行检索和推理，非常适合评估复杂的RAG工作流程。
RAGBench
：一个大规模、可解释的基准测试，包含来自行业领域的100,000个示例，以及用于可操作RAG指标的TRACe评估框架。
BERGEN（检索增强生成基准测试）
：一个用于系统地对RAG系统进行标准化实验的库。
FlashRAG工具包
：实现了12种RAG方法，并包含32个基准测试数据集，以支持高效和标准化的RAG评估。
GNN - RAG
：这个基准测试在节点级和边级预测等任务上评估基于图的RAG系统，侧重于知识图谱问答（KGQA）中的检索质量和推理性能。

10. 结论

智能体检索增强生成（RAG）代表了人工智能领域的一项变革性进展，通过集成自主智能体解决了传统RAG系统的局限性。借助智能体智能，这些系统引入了动态决策、迭代推理和协作工作流程等能力，使其能够以更高的精度和适应性处理复杂的现实任务。本综述探讨了RAG系统的演进，从其最初的实现到模块化RAG等先进范式，强调了每种范式的贡献和局限性。将智能体集成到RAG管道中是一个关键发展，产生了能够克服静态工作流程和有限上下文适应性的智能体RAG系统。在医疗、金融、教育和创意产业等领域的应用展示了这些系统的变革潜力，体现了它们提供个性化、实时和上下文感知解决方案的能力。

尽管前景广阔，但智能体RAG系统仍面临一些挑战，需要进一步的研究和创新。多智能体架构中的协调复杂性、可扩展性和延迟问题，以及伦理考量，都必须得到解决，以确保稳健和负责任的部署。此外，缺乏专门用于评估智能体能力的基准测试和数据集是一个重大障碍。开发能够捕捉智能体RAG独特方面（如多智能体协作和动态适应性）的评估方法，对于该领域的发展至关重要。

展望未来，检索增强生成和智能体智能的融合有可能重新定义人工智能在动态和复杂环境中的作用。通过应对这些挑战并探索未来方向，研究人员和从业者可以释放智能体RAG系统的全部潜力，为跨行业和领域的变革性应用铺平道路。随着人工智能系统的不断发展，智能体RAG作为创建适应性强、上下文感知且具有影响力的解决方案的基石，能够满足快速变化的世界的需求。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业