微信扫码
与创始人交个朋友
我要投稿
全自动智能代理的能力由四个要素共同构成,它们相辅相成,形成完整的智能代理能力:推理、外部记忆、执行和规划。
推理:智能代理必须具备在非结构化数据上的推理能力。基础模型,如 Anthropic 和 OpenAI 的模型,已经能够在这一方面展现出显著的效果,它们通过预训练的权重中编码的部分世界模型来利用通用知识和基本逻辑进行推理。
外部记忆:除了通用知识外,智能代理还需要外部记忆来存储和调用领域特定的知识,以及解决任务时的具体上下文信息。通常,这类外部记忆通过像 Pinecone 这样的向量数据库实现,使得代理能够有效处理特定问题。
执行:智能代理使用工具来执行任务,增强其解决问题的能力。许多早期的智能代理平台提供了预定义的工具箱,包含在代码中定义的定制动作供代理选择使用。此外,一些通用的代理工具也开始涌现,包括网页浏览、代码解释、认证与授权,以及与企业系统(如 CRM 和 ERP)的连接,以便在这些系统内执行用户界面操作。
规划:与简单地通过单线程的预测(例如从头到尾连续编写一篇文章)不同,智能代理更像人类的思维过程,它们会将复杂任务分解为更小的子任务和计划,随着任务的进展进行反思,并根据需要进行调整。
这四个要素共同构建了智能代理的完整自主能力,使其能够在各种复杂场景中实现更高效、更灵活的自动化工作流程。
需要明确的是,未来的全自动智能代理可能会具备上述四个构件的全部功能,但现有的语言模型应用和代理还未完全实现这一点。
例如,当前流行的检索增强生成(RAG)架构虽然具备推理和外部记忆的功能,但并不属于“智能代理”。关键的区别在于,这些应用将语言模型视作“工具”,用于语义搜索、综合或生成内容,但它们采取的步骤(即逻辑流程)仍然是由代码预先确定的。
相比之下,智能代理的出现是在应用程序的控制流程中将语言模型置于核心位置,并让它动态地决定采取哪些行动、使用哪些工具、如何解读和回应输入。只要具备这一点,有些代理甚至不需要与外部工具互动或执行具体操作,就可以被视为智能代理。
这体现了当前应用与未来全自动智能代理之间的显著差别,后者具有更高的灵活性和自主性。
目前,有三种类型的智能代理,它们在应用过程控制中的主要使用场景和自由度各不相同。
决策代理(Decisioning Agent )是最受约束的设计,这类代理使用语言模型来遍历预定义的决策树。它们只能在有限的路径中选择,并严格遵循预设的逻辑流程。
“有轨”代理(Agent on Rails )则具有更多的自由度。这类代理拥有更高层次的目标,但解决方案空间受到标准操作流程(SOP)的约束,代理可选择的“工具”也来自预先确定的库。这让代理在执行任务时,能有一定的自主性,但仍然受到较为明确的限制。
通用代理(General AI Agent)是自由度最高的代理。这类代理几乎没有数据支撑或明确的架构框架,更多依赖语言模型的推理能力来完成所有的规划、反思和纠正。这种代理类似于在一个开放的循环结构中运作,不受预设规则的限制,具有更强的灵活性。
接下来,我们将详细探讨包含这三类智能代理的五种参考架构及其在不同场景中的应用示例。
RAG(检索增强生成)是当今大多数现代AI应用的标准架构。我们以 Sana 的企业搜索应用为例,解释其工作原理。
首先,应用程序会加载并转换分散在不同企业数据源(如 Google Drive 和 Notion)中的非结构化文件(例如PDF、幻灯片、文本文件),通过像 Unstructured 这样的数据预处理引擎将这些文件转化为可以查询的格式。这些文件会被“分块”,也就是被切割成较小的文本段,以便更精确地进行检索,并将其作为向量嵌入存储到像 Pinecone这样的数据库中。
当用户向AI应用提出问题(例如:“总结所有与公司X的会议记录”)时,系统会检索出最具语义相关性的上下文块,将这些内容嵌入一个包含检索信息的“元提示”中,供语言模型(LLM)生成回答。LLM 然后根据检索到的上下文进行综合,给出简洁的、项目化的答案。
当然,以上描述的只是一个检索步骤和一次 LLM 调用。在实际应用中,AI 应用的工作流程要复杂得多,往往有数十甚至数百个检索步骤。这些应用通常包含“提示链”,即一个检索步骤的输入成为下一个步骤的输入,并且可能有多个提示链并行执行不同类型的任务。最终,各种结果将被综合在一起,生成最终的输出。
这种架构允许企业在处理海量数据时实现更高效的检索和内容生成,为复杂的查询提供精确且有针对性的回答。
以法律研究助手 Eve 为例,处理有关《第七章》(Title VII)的研究查询时,它可能将查询分解为多个针对特定子主题的提示链。这些子主题可能包括雇主背景、雇佣历史、《第七章》本身、相关的判例法以及支持原告案件的证据。每个子主题都由单独的提示链来处理,LLM 依次运行这些提示链,生成每个子主题的中间输出,最后将所有这些输出综合在一起,编写出最终的法律备忘录。
这种方法能够将复杂的法律问题分解为更易于处理的小任务,充分利用 LLM 的推理和生成能力,为法律研究提供高效、结构化的支持。通过分段处理和综合,这样的系统可以确保对每个子主题进行深入的分析,并最终形成全面的研究成果。
工具使用或函数调用常常被视为从RAG架构向智能代理行为迈出的“半步”,为现代AI堆栈添加了一个新层次。
这些工具本质上是预先编写的代码组件,用于执行特定的操作。已经出现了许多常见的工具原语,比如网页浏览(Browserbase、Tiny Fish)、代码解释(E2B),以及授权与认证(Anon)。这些工具使得LLM能够在网络上导航、与外部软件(如CRM、ERP系统)互动,并运行自定义代码。系统会向LLM展示可用的工具,LLM 选择其中一个工具,生成所需的输入(通常是结构化的JSON),并通过触发API执行来实现最终的操作。
Omni的Calculations AI功能就是这种方法的典型例子。它利用LLM直接输出适合的Excel函数到电子表格中,从而执行计算,并为用户自动生成复杂的查询。这种方法大大提高了任务的自动化和复杂性处理能力。
尽管工具使用非常强大,但它本身仍不能被称为“智能代理”,因为逻辑控制流仍然由应用程序预先定义。真正的智能代理,如我们将在后续设计中探讨的,允许LLM动态地编写部分甚至全部的逻辑,从而实现更高程度的自主性和灵活性。
第一类我们要探讨的智能代理是决策代理,它们利用智能决策来导航复杂的多步骤推理流程,最终做出商业决策。与 RAG 或工具使用方法不同,这种架构首次将部分控制逻辑交给 LLM 处理,而不是提前硬编码每一步的操作逻辑。但决策代理仍属于智能代理自由度较低的范畴,因为它主要充当“路由器”,在预设的决策树中导航。
以 Anterior(前身为 Co:Helm) (公司库)为例,这家医疗计划自动化公司开发了一个临床决策引擎,用于自动化审查理赔申请。当前,护士需要手工根据大量付款方规则来完成这些审查,这些规则充满了条件性知识,类似于一个“极其无趣的选择你自己的冒险”。
Anterior 简化了这一流程。公司首先通过基于规则的脚本和语言模型将付款方的规则转换为有向无环图(DAG)。他们的智能代理然后遍历这个决策树,在每个节点利用 LLM 来评估相关的临床文档与具体规则的匹配性。对于较简单的节点,代理可能仅需要执行基本的RAG步骤。然而,Anterior经常遇到更复杂的任务,需要代理在推进到下一个节点之前选择最佳的处理方式。在每个决策后,代理会更新其状态(在内存中管理中间输出),并依次通过决策树,直到做出最终决定。
这种方法不仅限于 Anterior,其他公司也在不同领域使用决策代理。例如,Norm AI 正在构建用于合规管理的AI代理,Parcha 则在开发用于客户身份验证(KYC)的代理。
决策代理为复杂流程中的多步骤决策提供了高效解决方案,尽管其自由度有限,但已经展现了较强的自动化和智能化潜力。
有轨代理是第二类智能代理。与决策代理不同,有轨代理被赋予了更高层次的目标(例如:“将发票与总账核对”、“帮助客户排查登录问题”、“重构代码”),并且在实现这些目标的过程中,拥有更多的自由度来选择合适的方法和工具。
然而,这些代理仍然受到程序化知识的指导,即组织预期代理如何执行任务的规则(类似于一个用自然语言写成的规则手册或指南——这就是“轨道”)。同时,它们还配备了预定义的工具来执行特定的外部软件操作,并受到一些保护措施的限制,以防止“幻觉”或错误。
在实际运行中,这种设计可能会呈现以下特点:
有轨代理会根据当前应用状态和操作手册进行评估(即,代理在决策树的哪个节点上),并检查从该节点可以执行的所有操作链;
代理会选择并执行最优的操作链。每条链可能包括预编写的动作(定义为代码),甚至包含其他代理来执行特定任务,这里可能也会结合传统的RAG步骤;
在执行任何动作之前,系统会应用审核和保护措施,以确保操作的一致性和符合性;
有轨代理会重新评估新的状态与规则手册的匹配情况,然后重复这一过程——在DAG的新节点上再次选择最佳的操作链来执行。
这一架构相比之前的设计复杂性更高,可能需要额外的数据基础设施支持,包括:持久化执行能力、用于管理情景记忆、工作记忆和长期记忆的状态管理、多代理协调,以及防护措施等。
有轨代理架构被认为是在代理自主性和控制之间找到平衡的理想模式。目前,许多领先的代理公司正在逐渐趋向这一架构。例如,Sierra、Decagon、Maven AGI、DevRev和 Gradient Labs 专注于客户服务和支持领域,Factory AI和 All Hands AI 在软件开发中应用这一架构,Sema4在金融后台领域也利用了有轨代理。除此之外,销售、安全运营、供应链等领域也有很多公司采用类似的智能代理。
这种代理通过更高的自由度和程序化的指导,在实现复杂目标时提供了灵活且可控的解决方案。
通用AI代理是智能代理设计的“圣杯”,其架构本质上是一种无限循环结构(for-loop),通过语言模型的高级能力取代了之前设计中的固定“轨道”。这种假想中的代理将具备动态推理、规划和自定义代码生成能力,能够在外部系统中执行任何操作,而不仅限于预定义的任务。
自2023年春季BabyAGI 和 AutoGPT 的出现以来,向这一理想目标的研究进展迅速。目前最复杂的设计是语言代理树搜索(LATS),它将蒙特卡洛树搜索(Monte Carlo Tree Search)——AlphaGo背后的基于模型的强化学习技术——适用于语言代理。LATS 允许智能代理探索多条实现目标函数的路径,优先选择高回报路径、吸收反馈,并在必要时回溯修正。
前沿架构的开创性商业应用包括新的基础模型,如 Reflection AI,以及专注于编程的代理,例如 Cognition、Nustom 和 OpenDevin/All Hands AI。
通用AI代理的关键在于,它不依赖固定的操作规则,而是具备自适应能力,能够灵活地应对任何未知的复杂问题。这类代理的实现将是人工智能发展中的巨大飞跃,彻底改变现有的自动化和智能化应用。
在经济体系中,每项工作都可以看作是由一组任务组成,这些任务由人类和机器共同完成。多年来,软件逐渐接管了越来越多的任务,但即便如此,今天大多数业务流程仍主要依赖于人类执行。在每个职能部门中,人力成本远远超过软件支出。
AI智能代理有望彻底改变这种工作分配的格局。与以前主要处理低级、按顺序执行任务的软件不同,新一代认知架构使得智能代理能够动态地自动化端到端的流程。这不仅是能够“读”和“写”的AI,它们还能决定应用程序的逻辑流程,并代表人类采取行动。
这也是大语言模型(LLM)在当今企业中的最大机遇之一。
在过去的十年里,像 UiPath 和 Zapier 这样的公司都曾以“机器人自动化”为主题,推销类似的愿景。
UiPath 是最早的推动者。作为机器人流程自动化(RPA)巨头,UiPath 依赖于屏幕抓取和图形用户界面(GUI)自动化,利用“机器人”来记录用户的操作步骤,然后模仿这些顺序步骤,自动化执行诸如从文档中提取信息、移动文件夹、填写表单和更新数据库等流程。
随后,像 Zapier 这样的iPaaS(集成平台即服务)提供商出现,提供了一种更轻量的“API自动化”方法,主要用于提升生产力。该平台通过预构建的API集成和网络钩子(webhooks)来实现更稳定的自动化,但这种方法限制了其只能用于网络应用的自动化,而UiPath能够跨不同软件进行自动化,包括那些不支持API的系统。
UiPath 和 Zapier 证明了可组合、基于规则的横向自动化平台在解决企业中存在的跨部门或行业特定软件系统之间的长尾流程问题上的市场需求。但是,随着企业扩展其基于机器人的自动化,传统架构的能力与其承诺的自主性之间的差距逐渐显现,尤其体现在以下方面:
仍需大量人工干预:尽管有关机器人和自动化的讨论甚多,但启动和维护自动化流程的过程依然繁琐且手工化。例如,UiPath 每赚1美元,约有7美元会流向像 EY 这样的实施和咨询合作伙伴,导致漫长且昂贵的部署和维护周期。
脆弱的UI自动化或有限的API集成:当软件的UI发生变化时,UI自动化往往容易崩溃。虽然API更加稳定,但提供的集成要少得多,尤其是在面对遗留系统或本地软件时。
无法处理非结构化数据:企业中80%的数据是非结构化或半结构化的,然而基于顺序的自动化流程几乎无法智能地处理这些数据。尽管有解决方案如 Hyperscience 和 Ocrolus 提出了智能文档处理(IDP),但即便是简单的“提取和转换”文档处理场景,这些解决方案仍然在边缘案例和异常处理方面表现乏力。
此外,传统的RPA和iPaaS解决方案仍然受制于其确定性架构,即便它们试图集成大语言模型(LLM)。目前,UiPath 的 AI 解决方案 Autopilot和 Zapier 的 AI Actions 仅为次代理模式提供 LLM 功能,例如从文本到动作的转换,或用于语义搜索、综合和一次性生成的节点。
这些AI功能确实可以带来强大效果:它们让业务功能而非IT团队掌握自动化规则手册,允许通过视觉转换器(而不是OCR)进行更强大的对象检测和识别,并通过RAG提供强大的数据提取和转换。然而,它们仍未能充分挖掘LLM在流程自动化中的更具变革性的应用场景。
智能代理与传统的自动化系统有着本质的不同。它们作为决策引擎处于应用程序控制流的中心,而非像现今的RPA机器人那样依赖于硬编码的逻辑,也不同于生成式AI革命第一波中定义的RAG应用。智能代理首次实现了适应性、多步骤操作、复杂推理和强大的异常处理能力。
让我们通过一个发票对账的示例来说明。下面是一个简化的流程图,展示了将新的发票PDF与公司的总账进行匹配的过程(类似于实施工程师在为RPA构建流程模型时所需的可视化设计):
在复杂的业务流程中,工作流的复杂性迅速增加,导致难以全面处理所有边缘案例和例外情况。即使在前几个决策点中,传统RPA机器人也可能难以应对,并且经常会因部分匹配或缺失的条目而出错,最终将任务升级为人工处理。这或许解释了为什么许多企业仍然雇佣大量员工来处理每月的手动发票对账工作,而没有完全依赖自动化。
然而,当智能代理应用于同样的工作流时,它们表现出显著的优势,主要体现在以下几点:
适应新情况:智能代理能够智能地识别并适应新数据源、发票格式、命名规范、账户号码,甚至政策变更。这一过程不需要重新编程,也不需要明确的标准操作流程(SOP)。例如,面对一个从未见过的发票格式,代理能够通过推理和业务背景知识自动适应。
执行多步骤操作:在发票金额不匹配的情况下,智能代理可以执行多步骤的调查。例如,代理可以扫描最近供应商的电子邮件,查找可能的价格变更通知,或通过系统内的其他信息进行深入分析。这种多步骤的智能操作是传统RPA机器人难以实现的。
复杂的推理能力:例如,当公司需要对国际供应商的发票与总账进行对账时,涉及的因素包括发票货币、账本货币、交易日期、汇率波动、跨境费用和银行手续费。所有这些数据都需要一起检索并计算以完成对账。智能代理能够处理这种复杂的多维信息推理,而传统的RPA机器人可能会因超出其能力范围而将任务升级为人工处理。
处理不确定性:智能代理能够在面对诸如四舍五入错误或部分条目数字无法读取的情况下,根据上下文线索(如匹配的订单总金额、历史发票的时间和频率)进行灵活处理。它们不会轻易因小问题中断工作,而是能够基于推理作出适当的判断和调整。
这些能力让智能代理相比传统RPA机器人在高度复杂、动态变化的工作流程中显得更加高效和智能化。它们能够自动化处理复杂的业务流程,而无需频繁的人为干预,从而推动企业实现更高效、更灵活的自动化流程管理。
当前的智能代理市场可以通过两个关键维度来划分:
领域专业性(Domain specificity):这一维度从高度专业化的代理(例如专注于医疗行业或客户支持等特定部门的代理)到具有广泛、通用功能的横向代理平台。
LLM自主性(LLM autonomy):该维度衡量语言模型在独立规划和指挥应用程序逻辑方面的自主程度。
这两个因素构成了我们当前的AI代理市场图谱的坐标轴:
在市场图谱的右上角,最具自主性和通用性的代理类型,包括以下几类:
企业代理(Enterprise agents)
企业代理平台通过可扩展的架构,使企业能够利用自然语言SOP或规则手册(类似于给新员工的培训手册)来构建和管理多个职能和工作流程中的代理。这些平台尤其吸引那些希望获得广泛适用的代理功能,而不是为每个业务单元提供单独解决方案的集中式IT买家。
例如,Sema4 的发票对账代理的核心处理能力不仅可以应用于发票对账,还能够扩展到财务、采购和运营等领域的各种数据验证任务。企业代理的优势在于,它们能通过统一的平台管理多个复杂的工作流程,从而减少企业在不同业务单元中实施多个孤立解决方案的成本和复杂性。这种灵活性和广泛适用性使得企业代理成为那些需要跨部门管理和高效自动化的企业的理想选择。
浏览器代理(Browser agents)
浏览器代理是另一类横向通用的智能代理,代表性公司包括MultiOn、Induced和Twin。这些代理大多采用“通用AI代理”设计,利用经过训练的视觉转换器(Vision Transformers),能够理解不同软件界面及其底层代码。这使得这些代理能够“理解”网页组件的功能和交互,从而实现自动化的网页浏览、视觉UI操作和文本输入。
通过这种能力,浏览器代理可以执行跨网站的复杂任务,自动完成例如表单填写、信息检索、网页导航等操作,帮助用户更高效地进行网络相关工作。尽管这些代理具备高度通用性,能适应多种应用场景,它们通常专注于简化的生产力用例,并正朝着更复杂的企业级功能发展。
AI支持的服务(AI-enabled services)
当前,企业对代理功能的需求已经超出了客户自行生产化代理的能力,尤其是“有轨代理”设计需要大量的数据基础设施和保护措施才能在实践中有效运作。正是在这一背景下,像Distyl和Agnetic这样的公司出现,它们提供了前置的工程服务,采用类似“AI领域的Palantir”模式来弥补这一差距。
这些公司通过提供定制化的解决方案,帮助企业构建智能代理系统。正如Palantir的Foundry平台一样,它们可以复用模块化的系统基础设施,在多个客户之间共享,以随着时间推移重新平衡平台与服务的比例。这种方式不仅能加速代理技术的部署,还能使企业更快实现自动化,并提供长期可扩展的系统架构来满足不断变化的业务需求。
在市场图谱的左上角,我们看到越来越多的特定领域和工作流代理出现,通过限制它们所尝试解决的问题类型来提高可靠性:
垂直代理(Vertical agents)
垂直代理的最有前景的机会存在于目前由人类根据SOP或规则手册手动处理的流程中。许多企业已经将这些功能外包给业务流程外包(BPO)公司或承包商。这些任务往往对于基于规则的自动化来说过于复杂,但并不需要内部知识工作者来处理。主要类别包括客户支持、招聘、某些软件开发任务(如代码审查、测试和维护)、营销电话以及安全运营。
在市场图谱的左下角和右下角,我们会发现并非所有生成式AI解决方案都是代理,它们在预算和工作流上与基于代理的解决方案存在竞争。这些解决方案主要基于RAG架构,它们并不嵌入应用程序的控制流程,因此无法完全复制智能代理的人类般推理能力。然而,它们仍然能够实现显著的服务自动化,同时为企业提供一定的控制权。
垂直AI(Vertical AI)
垂直AI在特定工作流中,语义搜索和非结构化数据转换是非常强大的基础功能。以医疗AI自动化平台**Tennr**为例,该平台能够从传真、PDF、电话等非结构化数据源中提取信息,并将其输入到诊所的电子健康记录系统(EHR)中。这种方式解除了转诊处理中的障碍,减少了人工手动输入数据的需求,大大提高了效率。
另一个例子是Industrial AI,它采用类似的方式来自动化制造商的报价工作流。通过从不同来源提取复杂的非结构化数据,工业AI可以自动生成准确的报价,减少人工干预并提高流程的准确性和效率。这些垂直AI解决方案针对特定领域,优化了复杂数据处理流程,为行业带来了显著的自动化和效率提升。
AI助手(AI assistants)
AI助手的另一种方式是通过任务特定性来缩小代理的工作焦点,而不是领域特定性。与企业或垂直代理处理的复杂端到端流程相比,AI助手专注于更简单、以提升生产力为目标的任务。常见的功能包括:
- 简单的网页研究
- 知识提取
- 总结归纳
- 非结构化数据转换
这些任务通常用于解决临时的需求,例如与PDF进行对话(如聊天式PDF处理)或从Gong的记录中提取功能请求。相比于复杂的业务流程,AI助手处理的是更加轻量、直接的工作流,旨在提升日常工作中的效率和生产力,提供灵活的自动化工具来应对各种即需即用的任务。
RAG即服务(RAG-as-a-Service)
RAG即服务,如Danswer和Gradient,相当于垂直语义搜索和非结构化数据转换公司的横向版本。它们为客户提供了查询非结构化数据源(如PDF)的能力,能够从这些复杂的数据中提取信息,并将结果输入到更加结构化的数据库或记录系统中。
这些平台允许企业在不依赖定制解决方案的情况下,处理和利用分散在各种格式中的数据,实现高效的信息提取和组织。通过RAG架构,这些公司帮助用户自动化数据处理流程,尤其是在需要从大量文档或未整理的数据中提取和转换信息的场景中,提供了强大的工具,极大提高了数据操作的效率。
企业搜索(Enterprise search)
企业搜索工具,如Glean、Perplexity和Sana,提供了语义查询功能,旨在帮助企业更好地管理全公司的知识资源并打破数据孤岛。它们通过对概念上相关的文档进行索引和检索,使用户能够快速找到与其查询相关的内容。
这些平台不仅仅是简单的关键词搜索,而是能够理解内容的上下文和语义关系,从而返回更加相关的结果。它们对企业特别有价值,能够有效组织和利用分散在不同部门、系统和格式中的信息,帮助企业员工更高效地访问所需的知识资源,改善整体的知识管理和信息流动。
生成式人工智能正迈入智能代理时代。我们今天看到的智能代理架构和早期应用示例只是这一广泛变革的开始。它不仅将重新定义人与机器之间的互动,还会对企业应用和基础设施产生深远影响。
生成式人工智能的第二波浪潮将由能够代表你思考和行动的代理来定义,而不仅仅是读写。随着这些架构的成熟,它们将成为人工智能接管服务经济的强大催化剂。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-24
2024-04-24
2024-07-11
2024-04-18
2024-09-27
2024-04-19
2024-06-26
2024-06-22
2024-04-05
2024-04-11
2024-11-28
2024-11-05
2024-10-30
2024-10-04
2024-09-10
2024-09-06
2024-08-11
2024-07-26