微信扫码
添加专属顾问
我要投稿
探索2024年AI技术的新突破,揭秘"智能版RAG"系统如何改变未来。 核心内容: 1. 2024年"智能版RAG"系统的发展背景与趋势 2. 七种常见的代理RAG研究方法 3. RAG和AI代理的工作原理与应用案例
2024年不仅是大家用大模型(LLM)生成内容的一年,更是我们开始搞懂它怎么"思考"的一年。在研究LLM和RAG这些技术时,我发现了AI代理的厉害之处——它们能自己干活做决定,几乎不用人插手。还记得2023年最火的RAG(检索增强生成)技术吗?到了2024年,它升级成了能自主工作的"智能版RAG",给各行各业带来了新突破。而2025年,绝对要成为"AI代理的天下"——这些能自主工作的系统会彻底改变我们的效率,让解决问题的方式焕然一新。
想象一下:以前的技术就像固定工具,现在变成了会自己动脑筋的"智能助手"。这种转变带来了惊人的效率提升,为2025年更酷的创新铺好了路。今天咱们就重点聊聊这些"智能版RAG系统"有哪些类型,顺便深入看看它们是怎么运作的。
常见代理RAG研究方法如下:
1. Agentic RAG Routers
2. Query Planning Agentic RAG
3. Adaptive RAG
4. Agentic Corrective RAG
5. Self-Reflective RAG
6. Speculative RAG
7. Self Route Agentic RAG
为了简单理解自主代理式 RAG,让我们剖析一下这个术语:它是 RAG + AI 代理的结合体。如果您不熟悉这些术语,请别担心!我们稍后会深入探讨它们。
现在,我们将阐明 RAG 和自主 AI 系统(AI 代理)。
RAG是一种框架,旨在通过将外部知识源集成到生成过程中来增强生成式 AI 模型的性能。其工作原理如下:
当处理复杂的查询或需要最新的、特定领域知识的领域时,RAG 尤其有价值。
以下是AI 代理工作流程对查询“_谁赢得了 2024 年欧洲杯?告诉我更多细节!_”的响应。
初始指令提示:用户输入查询,例如“_谁赢得了 2024 年欧洲杯?告诉我更多细节!_”。
LLM 处理和工具选择:大型语言模型 (LLM)解释查询,并确定是否需要外部工具(如网络搜索)。它启动函数调用以获取更多详细信息。
工具执行和上下文检索:所选工具(例如,搜索 API)检索相关信息。在此示例中,它获取了有关 2024 年欧洲杯决赛的详细信息。
响应生成:新信息与原始查询相结合。LLM 生成完整且最终的响应:
“_西班牙在 2024 年欧洲杯决赛中以 2-1 战胜英格兰,决赛于 2024 年 7 月在柏林举行。_”
简而言之,自主代理式 AI 系统具有以下核心组件:
LLM 充当中央处理单元,解释输入并生成有意义的响应。
外部工具增强了 AI 的功能,使其能够执行超出基于文本的交互之外的特定任务。
记忆使 AI 能够保留和利用过去的交互,以获得更具上下文意识的响应。
这展示了 AI 如何集成用户提示、工具输出和自然语言生成。
以下是AI代理的定义:
AI 代理是旨在通过与其环境交互来执行特定任务或实现某些目标的自主软件系统。AI 代理的关键特征包括:
AI 代理可以处理跨领域的任务,例如客户服务、数据分析、工作流程自动化等等。
首先,以下是基本检索增强生成 (RAG) 的局限性:
理解自主代理式 RAG系统有助于我们为上述挑战部署正确的解决方案,并针对特定任务,确保与预期用例保持一致。以下是它至关重要的原因:
量身定制的解决方案:
风险管理:
创新与可扩展性:
简而言之,自主代理式 RAG 可以计划、适应和迭代,以找到适合用户的正确解决方案。
结合 AI 代理和 RAG 工作流程,以下是自主代理式 RAG 的架构:
自主代理式 RAG 结合了 RAG 的结构化检索和知识集成能力,以及 AI 代理的自主性和适应性。其工作原理如下:
以下是自主代理式 RAG 的应用:
自主代理式 RAG 代表了检索增强生成和自主 AI 代理之间的强大协同作用,使系统能够以无与伦比的智能、适应性和相关性运行。这是朝着构建不仅信息灵通,而且还能够独立执行复杂的、知识密集型任务的 AI 系统迈出的重要一步。
如前所述,术语 “自主代理式” 表示系统表现得像一个智能代理,能够推理和决定使用哪些工具或方法来检索和处理数据。通过利用检索(例如,数据库搜索、网络搜索、语义搜索)和生成(例如,LLM 处理)两者,此系统确保以最有效的方式回答用户查询。
同样,
自主代理式 RAG 路由器是旨在动态地将用户查询路由到适当的工具或数据源的系统,从而增强大型语言模型 (LLM) 的能力。此类路由器的主要目的是将检索机制与 LLM 的生成优势相结合,以提供准确且上下文丰富的响应。
这种方法弥合了 LLM 的静态知识(在预先存在的数据上训练)与从实时或特定领域数据源动态检索知识的需求之间的差距。通过结合检索和生成,自主代理式 RAG 路由器实现了以下应用:
图表中显示的架构详细地可视化了自主代理式 RAG 路由器的运行方式。让我们分解组件和流程:
用户输入和查询处理*用户输入:用户提交查询,这是系统的入口点。这可以是问题、命令或特定数据的请求。
检索代理
检索代理充当核心处理单元。它充当协调器,决定如何处理查询。它评估:
路由器
路由器确定处理查询的适当工具:
工具:此处列出的工具是模块化和专门化的:
数据源:系统连接到各种数据源:* 结构化数据库:用于组织良好的信息(例如,基于 SQL 的系统)。
LLM 集成:一旦检索到数据,就会将其馈送到 LLM:
输出:最终响应以清晰且可操作的格式发送回用户。
以下是自主代理式 RAG 路由器的类型:
在单一自主代理式 RAG 路由器中:
这种方法是集中且高效的,适用于数据源和工具有限的简单用例。
在多重自主代理式 RAG 路由器中:
查询提交:用户提交查询,该查询最初由检索代理处理。
分布式检索代理:系统不是使用单个路由器,而是使用多个检索代理,每个代理专门处理特定类型的任务。例如:
用于工具的各个路由器:每个检索代理根据其范围,将查询路由到其从共享池(例如,向量搜索、网络搜索等)分配的工具。
工具访问和数据检索:
LLM 集成和综合:所有检索到的数据都传递到LLM,LLM 综合信息并生成连贯的响应。
输出:最终处理的响应将返回给用户。这种方法是模块化和可扩展的,适用于具有各种工具和高查询量的复杂系统。
自主代理式 RAG 路由器结合了智能决策、强大的检索机制和 LLM,以创建通用的查询-响应系统。该架构以最佳方式将用户查询路由到适当的工具和数据源,从而确保高度相关性和准确性。无论是使用单个路由器还是多个路由器设置,设计都取决于系统的复杂性、可扩展性需求和应用要求。
查询规划自主代理式 RAG(检索增强生成)是一种方法,旨在通过利用跨各种数据源的多个可并行化的子查询来有效地处理复杂查询。这种方法结合了智能查询划分、分布式处理和响应综合,以交付准确而全面的结果。
以下是核心组件:
用户输入和查询提交
查询规划器:查询规划器是协调该过程的中心组件。它:
*解释用户提供的查询。
工具
工具是专门的管道(例如,RAG管道),其中包含查询引擎,例如:
这些管道负责从外部知识源(例如,数据库、文档或 API)检索相关信息或上下文。
检索到的信息将发送回查询规划器以进行集成。
LLM(大型语言模型)
综合和输出
自适应检索增强生成 (AdaptiveRAG) 是一种通过根据传入查询的复杂性定制查询处理策略,来增强大型语言模型 (LLM) 的灵活性和效率的方法。
自适应 RAG 根据查询的复杂性,动态地在不同的问题解答策略之间进行选择——从简单的单步方法到更复杂的多步方法,甚至是非检索过程。这种选择由分类器促进,分类器分析查询的性质并确定最佳方法。
Adaptive-RAG:通过问题复杂性学习自适应检索增强大型语言模型
以下是与单步、多步和自适应方法的比较:
工作原理:此方法使用分类器来确定查询的复杂性并选择适当的策略:
优势
来源:作者
以下是来自 LangGraph 的自适应 RAG 系统架构流程的另一个示例:
该过程从分析用户查询开始,以确定检索和生成答案的最合适途径。
如果查询通过RAG 模块路由,它将经历一个迭代的、自我反思的过程,以确保高质量和准确的响应。
如果在查询分析阶段,查询被认为与索引知识库不相关:
本质上,自适应 RAG是一种智能且资源感知的框架,通过利用量身定制的查询策略来提高响应质量和计算效率。
低质量的检索器通常会引入大量不相关的信息,阻碍生成器访问准确的知识,并可能误导它们。
来源:纠正式检索增强生成
同样,以下是 RAG 的一些问题:
CRAG 旨在通过引入自我纠正检索结果、增强文档利用率和提高生成质量的机制来解决上述问题。
来源:Dipanjan Sarkar
使用输入查询从向量数据库中检索上下文文档。这是收集潜在相关信息的第一步。
使用大型语言模型 (LLM)评估检索到的文档是否与输入查询相关。这确保了检索到的文档适合该问题。
如果文档不明确或不正确:
将改进的查询和相关上下文文档(已纠正或原始文档)发送到 LLM 以生成最终响应。响应的类型取决于检索到的或纠正后的文档的质量:
此工作流程通过迭代纠正和改进来确保响应的高度准确性。
其想法是将 RAG 系统与一些检查结合使用,并且在缺少与给定用户查询相关的上下文文档时执行网络搜索,如下所示:
来源:Dipanjan Sarkar
问题:这是来自用户的输入,它启动了该过程。
检索(节点):系统查询向量数据库以检索可能回答用户问题的上下文文档。 3.评分(节点):大型语言模型 (LLM) 评估检索到的文档是否与查询相关。
####步骤 1 – 检索节点
系统根据查询从向量数据库中检索文档,提供上下文或答案。
LLM 评估文档相关性:
我们可以通过在图中设置特定的功能步骤作为节点,并使用 LangGraph 来实现它,从而将其构建为自主代理式 RAG 系统。节点中的关键步骤将包括发送到 LLM 的提示,以执行特定任务,如下面的详细工作流程所示:
来源:使用 LangGraph 构建自主代理式 RAG 系统的综合指南
自主纠正式 RAG 架构通过纠正步骤增强了检索增强生成 (RAG),以获得准确的答案:
查询和初始检索:用户查询从向量数据库中检索上下文文档。
文档评估:LLM 评分器提示评估每个文档的相关性(“是” 或 “否”)。
决策节点:
查询改写:LLM 改写提示重写查询以优化网络检索。
额外检索:网络搜索检索改进的上下文文档。
响应生成:RAG 提示仅使用经过验证的上下文生成答案。
以下是 CRAG 的简要操作:
自我反思式 RAG(检索增强生成)是自然语言处理 (NLP) 中的一种高级方法,它结合了基于检索的方法和生成模型的优点,同时添加了额外的自我反思和逻辑推理层。例如,自我反思式 RAG 有助于检索、重写问题、丢弃不相关或产生幻觉的文档以及重试检索。简而言之,它的引入是为了捕捉使用 LLM 自我纠正低质量检索和/或生成的想法。
按需自适应检索:
来源:SELF-RAG:通过自我反思学习检索、生成和评论
反思标记:这些是集成到 LLM 工作流程中的特殊标记,具有两个目的:
用于质量保证的自我评论:
可控且灵活:反思标记允许模型在推理过程中调整其行为,使其适用于各种任务,例如回答需要检索的问题或生成无需检索的独立输出。
改进的性能:通过结合动态检索和自我评论,SELF-RAG 在生成更高质量的、由证据更好支持的输出方面,超越了标准 RAG 模型和大型语言模型 (LLM)。
基本的RAG 流程涉及 LLM 根据检索到的文档生成输出。高级 RAG 方法(如路由)允许 LLM 根据查询选择不同的检索器。自我反思式 RAG 添加了反馈循环,根据需要重新生成查询或重新检索文档。状态机非常适合这种迭代过程,它定义了步骤(例如,检索、查询改进)和转换,从而实现动态调整,例如当检索到的文档不相关时重新查询。
我创建了一个自我反思式 RAG(检索增强生成)架构。以下是流程和组件:
该过程从查询开始(以绿色显示)
第一个决策点:“是否需要检索?”
知识库集成* 知识库(以紫色显示)连接到 “检索相关文档” 步骤
相关性评估
LLM 处理
验证过程
自我反思
最终输出:一旦生成 “准确的答案”,它就成为最终输出#### 评分和生成决策
检索节点:处理文档的初始检索。
评分文档:评估检索到的文档的质量和相关性。
转换查询:如果未找到相关文档,则调整查询以进行重新检索。
生成过程:
来源:SELF-RAG:通过自我反思学习检索、生成和评论
以下是传统 RAG 和 Self-Rag 的工作流程,使用示例提示 “美国各州是如何得名的?”。
步骤 1 –检索 K 个文档:检索特定文档,例如:
步骤 2 –使用检索到的文档生成:
步骤 1 –按需检索:
步骤 2 –并行生成段落:
步骤 3 –评论和选择:
如下面的 “写一篇关于你最美好的暑假的作文” 示例所示:
推测式 RAG 是一种智能框架,旨在使大型语言模型 (LLM) 在回答问题时既更快又更准确。它通过在两种语言模型之间分配工作来实现这一点:
当您提出问题时,特别是需要精确或最新信息的问题(例如 “_新款 iPhone 的最新功能是什么?_”),常规 LLM 通常会遇到困难,原因是:
这就是检索增强生成 (RAG) 介入的地方。RAG 检索实时的、相关的文档(例如来自数据库或搜索引擎),并使用它们来生成答案。但问题是:当处理大量数据时,RAG仍然可能速度慢且资源密集。
推测式 RAG 通过添加专门的团队合作来解决此问题:(1) 专家 RAG 起草者,以及 (2) 通用 RAG 验证者。
将推测式 RAG 想象成一个两人团队在解决难题:
步骤 1:收集线索“检索器” 外出并获取包含与您的问题相关信息的文档。例如,如果您问 “_谁在 1980 年的电影《朝九晚五》中扮演了多拉莉·罗德斯?_”,它会提取有关这部电影以及音乐剧的文章。
步骤 2:起草答案(小型模型)一个较小、更快的语言模型(专家起草者)处理这些文档。它的工作是:
此模型就像一位初级侦探,可以快速勾勒出想法。
步骤 3:验证最佳答案(大型模型)一个更大、更强大的语言模型(通用验证者)接下来介入。它:
让我们来看一个示例查询:
“_谁在 1980 年的电影《朝九晚五》中饰演多拉莉·罗德斯?_”
检索文档:系统查找有关电影 (1980) 和音乐剧 (2010) 的文章。
起草答案(专家起草者):
验证答案(通用验证者):
最终答案:系统自信地输出:“_多莉·帕顿在 1980 年的电影《朝九晚五》中扮演了多拉莉·罗德斯。_”
###推测式 RAG 的主要优势
推测式 RAG 就像拥有一个聪明的助手(专家起草者)和一个细心的编辑(通用验证者)协同工作,以确保您的答案不仅快速而且非常准确!
来源:推测式 RAG:通过起草增强检索增强生成
主要创新:它将任务分为两部分:
逐步过程:
问题输入:当系统收到知识密集型问题时,它会检索相关文档。
并行起草:专家 RAG 起草者并行处理检索到的文档子集。每个子集生成:
推测式 RAG 框架实现了速度和准确性的完美平衡:
*小型专家 LM完成繁重的工作(根据检索到的文档起草答案)。
方法 | 工作原理 | 弱点 | 推测式 RAG 改进 |
标准 RAG | |||
自我反思式 RAG | |||
纠正式 RAG | |||
推测式 RAG |
自路由是自主代理式 RAG 系统中的一种设计模式,其中大型语言模型 (LLM)在决定如何处理查询方面发挥着积极作用。该方法依赖于 LLM 的自我反思能力,并确定它是否可以根据提供的上下文生成准确的响应。如果模型确定它无法生成可靠的响应,则会将查询路由到替代方法,例如长上下文模型,以进行进一步处理。此架构利用 LLM 的内部校准来确定可回答性,从而优化性能和成本。在检索增强生成还是长上下文 LLM?综合研究和混合方法中介绍了此方法,该方法结合了检索增强生成 (RAG) 和长上下文 (LC),以实现成本效率,同时保持与 LC 相当的性能。自路由利用 LLM 本身通过自我反思来路由查询,其前提是 LLM 在预测给定上下文是否可以回答查询方面是经过良好校准的。
自路由的关键组件:
1.LLM 的决策:评估查询以确定是否可以使用给定的上下文来回答查询。 2. 路由:如果查询是可回答的,则立即处理。否则,它将被路由到具有附加或完整上下文的长上下文模型。 3. 效率和准确性:此设计平衡了成本效率(避免不必要的计算)和准确性(仅在需要时利用长上下文模型)。
来源:Dipanjan Sarkar
输入查询和上下文检索:
决策节点:
提示:
如果查询无法根据提供的上下文回答,请写入 UNANSWERABLE,否则写入 ANSWERABLE。 查询:<query> 上下文文档:<context>Copy Code
* 此步骤确定上下文是否足以回答查询。 * **结果**: * 如果查询被判断为 **ANSWERABLE**,则流程继续 **标准 RAG 提示**。 * 如果为 **UNANSWERABLE**,则流程移至 **长上下文 LLM 流程**。
RAG 提示(对于 ANSWERABLE 查询):
如果存在足够的上下文,则使用以下提示来生成响应:
给定查询和上下文文档,仅使用提供的信息来回答查询,不要编造答案。 查询:<query> 上下文:<context>CopyCode
答案生成:
触发条件:
合并上下文文档:
长上下文提示:
然后,合并后的文档将用作 GPT-4o 模型的输入,并使用以下提示:
给定查询和此上下文文档,仅使用提供的信息来回答查询,不要编造答案。 查询:<query> 上下文:<long_context>Copy Code
答案生成:
以下是主要特征和工作流程:
动态决策:
两层答案生成:
用于精细控制的提示:
具有向量数据库的可扩展性:
随着检索增强生成 (RAG) 领域的进步,自主代理式 RAG 系统已成为一项变革性创新,它将传统的 RAG 工作流程与 AI 代理的自主性和适应性相结合。这种融合使系统能够动态检索相关知识、智能地改进上下文并精确执行多步骤任务。
从自主代理式 RAG 路由器和自我反思式 RAG,到推测式 RAG 和自路由 RAG 等高级架构,每种方法都解决了特定的挑战,例如不相关的检索、推理错误或计算效率低下。这些系统在提高客户支持、工作流程自动化和研究协助等各种应用中的准确性、适应性和可扩展性方面取得了重大进展。
通过将生成式 AI 与高级检索机制相结合,自主代理式 RAG 不仅提高了效率,而且还为未来的 AI 创新奠定了基础。当我们迈向 2025 年之际,这些技术有望重新定义我们利用数据、自动化工作流程和解决复杂问题的方式,使其成为企业和开发人员必不可少的工具包。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07