微信扫码
添加专属顾问
我要投稿
万字长文揭秘AI代理工作流,带你深入理解Agentic Workflows的运作方式和逻辑。 核心内容: 1. AI代理(AI Agent)定义及其核心组成 2. 代理工作流(Agentic Workflows)详细解析 3. 代理工作流的应用场景与优缺点分析
AI Agent、Agentic AI、Agent架构和Agent工作流等概念如今备受关注,但它们究竟是什么?它们能做什么?新技术常常伴随着混乱的术语和炒作。本文将深入解析代理型AI的关键概念——代理工作流(Agentic Workflows)。
AI代理本身并无太多实际用途,只有通过赋予其角色、目标和结构,只有通过工作流,才能真正发挥作用。理解代理工作流,有助于理解 AI 代理的运作方式和逻辑。为此,本文从AI Agent到Agent工作流,一文带你详细了解代理工作流(Agentic Workflows),具体内容安排如下:
AI 代理是一种结合了大型语言模型(LLMs)的推理与决策能力,以及现实世界交互工具的系统,使其能够在有限的人类干预下完成复杂任务。代理被赋予特定的角色,并拥有不同程度的自主性来实现最终目标。它们还具备记忆能力,能够从过去的经验中学习,并随着时间的推移提升性能。
为了更好地理解AI代理在代理工作流中的作用,需要先了解它们的核心组成部分。
尽管 AI Agent被设计用于半自主决策,但它们仍然依赖于一套更大的组件框架才能正常运行。这些组件包括:
AI 代理的强大之处在于其迭代推理能力,即在整个问题解决过程中持续“思考”。推理能力主要来自底层 LLM,并发挥两个核心作用:规划(Planning)和反思(Reflecting)。
由于 LLM 仅限于其训练时获得的知识(静态的参数化知识),为了扩展其能力,AI 代理可以借助外部工具,如:
互联网搜索 | |
向量搜索 | |
代码解释器 | |
API |
当 LLM 选择合适的工具来完成任务时,它会执行函数调用(Function Calling),从而扩展自身能力,超越单纯的文本生成,实现对现实世界的交互。
工具的选择可以由用户预先定义,也可以由代理动态决定。动态选择工具有助于解决复杂任务,但对于简单工作流,预定义工具可能更高效。
AI 代理的记忆能力是代理工作流区别于纯 LLM 工作流的重要特征之一。记忆允许代理在多个用户交互和会话中存储上下文和反馈,从而实现更个性化的体验,并优化长期表现。
AI 代理的记忆可分为两种:
在一般情况下,工作流(Workflow) 指的是一系列相互关联的步骤,旨在完成特定任务或目标。最简单的工作流是确定性的(Deterministic),即它们遵循预定义的步骤序列,无法适应新信息或变化的环境。例如,一个自动化的报销审批工作流可能如下所示:如果费用标签为“餐饮”,且金额小于$30,则自动批准。
然而,一些工作流利用大型语言模型(LLMs)或其他机器学习模型来增强其能力。这些通常被称为 AI 工作流,可分为代理型(Agentic)和非代理型(Non-Agentic)两种:
非代理型 AI 工作流:LLM 根据输入的指令生成输出。例如,文本摘要工作流的流程可能是:接收长文本 → 让 LLM 进行总结 → 输出摘要。这种流程仅仅依赖 LLM 的文本处理能力,并不具备自主决策或任务执行能力,因此不属于代理型工作流。
代理型 AI 工作流:由一个或多个AI 代理(Agents)动态执行一系列步骤,以完成特定任务。代理在用户授予的权限范围内,具备一定程度的自主性,可以收集数据、执行任务,并做出实际决策。此外,代理型工作流利用 AI 代理的推理能力、工具使用能力和持久记忆能力,使传统工作流更具响应性、适应性和自我进化能力。
一个 AI 工作流要成为代理型工作流,至少需要具备以下三个核心特点:
我们可以区分三种不同类型的工作流:
类型 | 特点 |
---|---|
传统非 AI 工作流 | |
非代理型 AI 工作流 | |
代理型 AI 工作流 |
区别主要体现在:
因此,代理型工作流比非代理型 AI 工作流更具适应性和动态性。
随着新技术的发展,相关术语也在不断增加。尽管有些人会混用“代理架构(Agentic Architectures)”和“代理工作流(Agentic Workflows)”,但二者实际上有明显区别。
术语 | 定义 |
---|---|
代理工作流(Agentic Workflow) | |
代理架构(Agentic Architecture) |
回顾一下,代理工作流(Agentic Workflow)指的是代理为完成特定任务(最终目标)所采取的一系列结构化步骤。因此,当讨论代理工作流时,实际上是在讨论代理实现最终目标的特定行为模式。
此前提到的AI代理核心组件在代理工作流模式中起着关键作用:
规划模式 使代理能够自主地将复杂任务拆解为一系列更小、更简单的子任务,这一过程称为任务分解。任务分解能够提高工作流的质量,具体来说它可以:降低 LLM 的认知负荷,减少其计算压力;提升推理能力,增强问题解决能力;减少幻觉(Hallucination)和其他不准确性,提高输出的可靠性。规划模式在目标达成路径不明确且需要灵活适应问题解决过程的情况下尤其有效。例如:当 AI 代理被指示修复软件 bug 时,它可能会按照如下方式分解任务:阅读 bug 报告、识别相关代码片段、生成可能的错误原因列表、选择合适的调试策略、运行修复代码并观察错误信息,若失败则调整方案。
虽然规划模式有助于代理更好地解决复杂任务,但它可能导致比确定性工作流更不可预测的结果。因此,规划模式适用于需要深入推理和多步推理的任务。
生成式 LLM 具有一个显著的局限性:它们只能基于已有的训练数据进行回答,无法实时检索信息或验证事实。因此,LLM 可能会:生成错误信息(“幻觉”)并且在遇到不确定问题时“猜测”答案。针对这个问题,可以通过RAG来解决,即通过提供相关的、实时的外部数据来增强 LLM 的响应准确性,但它仅限于数据检索,而非与外部环境的动态交互。工具使用模式 则进一步拓展了代理的能力,使其能够与外部系统动态交互,而不仅仅是被动地检索数据。工具使用模式适用于需要实时数据支持或依赖外部资源的任务,例如:在网页上搜索最新新闻;从数据库中获取用户历史记录;自动发送电子邮件。以下列举一些常用的工具及用途。
工具 | 用途 |
---|---|
反思模式 是一种自我反馈机制,代理在采取最终行动前,会迭代评估自己的输出质量或决策,并据此优化自身的推理过程。这个过程可以帮助代理:纠正错误,减少不准确性;持续改进,提高决策质量;增强适应性,更好地满足用户需求。反思模式对于那些一次执行难以成功的任务特别有用,例如代码生成:
反思的力量在于代理能够批评自己的输出并将这些见解动态地整合到工作流程中,从而实现持续改进而无需直接人工反馈。这些反思可以编码在代理的内存中,从而允许在当前用户会话期间更有效地解决问题,并通过适应用户偏好实现个性化并改善未来的交互。
原子设计模式(Atomic Design Patterns),如规划(Planning)和工具使用(Tool Use),可以通过多种方式组合,以在不同领域有效地利用代理AI处理各类任务。除了组合设计模式外,AI 代理还具备不同的工具组合,甚至动态选择工具以适应任务需求,通过融入人类反馈回路,增强对任务目标的理解,并授予其不同程度的自主性和决策权。
这些多样化的配置使代理工作流能够适配广泛的行业需求。以下是两个极具代表性的应用案例:代理 RAG(Agentic RAG)、代理研究助手(Agentic Research Assistants)、代理编码助手。
检索增强生成(RAG) 是一种通过外部数据增强 LLM 生成能力的框架。而代理RAG 则在 RAG 流程中引入一个或多个 AI 代理,使其更加智能和动态。具体来说:
在规划阶段(Planning Phase):代理可以将复杂查询拆解为更小的子查询(查询分解,Query Decomposition)并判断是否需要向用户请求额外信息以更精准地完成任务。
在数据检索和评估阶段:代理可以评估检索到的数据的相关性和准确性,避免提供无用或错误的信息。当查询结果不满意,代理可以重新调整查询,回到查询分解阶段,甚至制定新的查询方案。
代理研究助手(Agentic Research Assistants),有时也被 AI 公司称为“深度研究(Deep Research)”,用于生成深入的报告和复杂主题的详细见解。它们基于代理 RAG,但不仅仅是检索信息,还能分析和综合数据,提供更有深度的结果。代理研究助手和传统 RAG的对比如下:
特点 | 传统 RAG | 代理研究助手 |
---|---|---|
具体来说:代理研究助手通常使用专门针对网页浏览、任务分解和动态规划微调过的 LLM;并能够主动请求用户提供额外信息,以更清晰地理解任务目标;结合根据检索到的信息调整研究方向,探索新的角度,确保获取完整的数据。
代理研究助手不仅检索信息,还能识别趋势,形成系统化见解;除此之外,它还能够跨时间段分析数据,编写详细的研究报告;提高研究人员的效率,减少人工查找和分析的时间。当前,OpenAI、Perplexity 和 Google 都已推出各自的深度研究产品。
代理编码助手(Agentic Coding Assistants) 可以在最少的人为干预下完成代码生成、重构、优化和调试,支持创建 PR 和提交代码,提升团队协作效率。相比之下,非代理型编码助手(如 GitHub Copilot 的早期版本)仅限于代码生成,缺乏环境交互和自适应能力。
代理编码助手的核心特性具备以下几点:
在介绍了代理工作流的应用场景后,这里再探讨两个实际代理系统的工作流:Claygent(Clay)和 ServiceNow AI Agents。每个代理工作流都采用了独特的模式和工具组合,赋予代理不同程度的自主性和决策能力,并依赖于不同水平的人类反馈和参与。
Claygent 是一家数据丰富化和外联自动化公司推出的 AI 研究代理,主要服务于增长团队和销售团队,帮助他们解决潜在客户研究和数据丰富化的繁琐任务。其工作流程以丰富 LinkedIn 个人资料并发送个性化介绍消息为例:
Claygent具备灵活可定制的工作流,用户可以创意性地定制任务;预配置提示模板确保代理遵循特定任务目标,提升结果质量;以及多代理协作,不同 LLM 处理不同任务(数据抓取、分析、个性化消息)。
ServiceNow AI Agents 是 ServiceNow 云平台新增的功能,专注于自动化 IT、运营、HR 和客户服务领域中的重复性任务,优化已有工作流,同时确保最终决策权掌握在人类手中。以处理技术支持工单为例:
ServiceNow AI Agents具备人机协作,代理只辅助 IT 专家而不直接执行决策;安全可控,代理只能执行有限范围内的任务,避免影响最终用户或客户体验;以及结构化工作流,代理严格遵循预定义的规则,减少意外行为。
AI代理迅速从机器学习社区走向主流。考虑到围绕代理AI的兴奋、期待和期望,分清炒作与现实之间的差距,理解其真正的能力与局限性变得困难。在本节中,将为您提供关于Agentic工作流的优势、挑战与局限性的全面视角。
Agentic工作流通过使AI代理能够规划、适应和随着时间推移不断改进,超越了传统的自动化。与遵循固定规则的确定性工作流不同,Agentic工作流能够动态响应复杂性,通过反馈精细调整其方法,并扩展以处理更复杂的任务。这种适应性使它们在需要灵活性、学习和决策的场景中尤为重要。
Agentic工作流的优势:
灵活性、适应性和可定制性。静态、确定性的工作流难以适应不断变化的情况和意外的困难。另一方面,Agentic工作流提供了根据任务难度进行调整和演化的灵活性,确保它们始终保持相关性并提供最佳解决方案。通过结合不同的模式,它们还可以定制,提供模块化设计,使得随着需求和复杂性的增加能够进行迭代升级。
在复杂任务上的表现改进。通过将复杂任务分解为更小的可管理步骤(通过任务分解和规划),Agentic工作流在处理复杂任务时显著优于确定性、零样本的做法。
自我纠正和持续学习。反思模式允许Agentic工作流评估自身行为,改进策略,并随着时间推移提升结果。利用短期和长期记忆,它们通过过去的经验学习,使每次迭代变得更加高效和个性化。
操作效率和可扩展性。Agentic工作流可以高精度地自动化重复性任务(如果设计得当),减少手动操作和特定场景中的运营成本。它们也能轻松扩展,适用于处理更大工作负载或复杂系统。
需要注意的是,AI代理仍然是新兴技术,随着研究人员和用户发现将代理融入工作流的新方式,以上优势列表可能会不断扩展。
尽管具有诸多优势和创新功能,AI代理也存在一些挑战和局限性。由于其概率性质,AI代理本质上为工作流增添了复杂性。仅仅因为代理可以用于自动化流程,并不意味着它们应该被使用。以下是Agentic工作流的一些显著挑战和局限性:
鉴于这些局限性,建议在使用代理之前,花时间反思其是否在特定工作流中确实必要。以下问题可以帮助您做出判断:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-26
谷歌深夜炸场:Gemini 2.5 震撼发布!号称世界最强“思考型”AI,各种测试大幅领先
2025-03-26
谷歌震撼发布:Gemini 2.5 Pro 实验版开启智能新纪元
2025-03-26
为什么大模型要使用Token?为什么不使用UTF8?
2025-03-26
实测:Deepseek满血、14b、7b基于同一知识库回答差异分析
2025-03-26
百度推出的“秒哒”到底如何?实测效果来了
2025-03-25
微信聊天框内置元宝,超级 App 又一轮进化开始
2025-03-25
万字长文,聊聊下一代AI Agent的新范式
2025-03-25
从FP8到安全张量,DeepSeek‑V3‑0324 重塑大模型生态的秘密武器
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-26
2025-03-25
2025-03-23
2025-03-22
2025-03-22
2025-03-22
2025-03-22
2025-03-22