人工智能智能体,在像2013年电影《她》这样的科幻作品中被普及,正在迅速成为现实。
来源:《她》
如果您想知道人工智能的下一个伟大篇章将是什么,这就是您的答案。
“现在似乎是谈论我们如何看待未来的最佳时机,”OpenAI的领导者Sam Altman和Greg Brockman最近写道。“用户将越来越多地与系统进行交互——由许多多模态模型加上工具组成——它们可以代表用户采取行动,而不是与单一模型对话。”
这是对“智能体”概念的明确描述,在过去一年中,这一概念在人工智能领域引起了轰动。
智能体是能够自主追求开放性、宽泛定义目标的AI系统。这可能涉及制定长期计划,使用“工具”(比如,互联网浏览器),并根据新信息动态尝试新方法。
一个具体的例子将有助于说明这个概念。一个AI智能体的例子是一个系统,它可以自动为您即将到来的旅行预订机票,无需您的任何输入。为了有效地做到这一点,智能体需要查看您的电子邮件或日历以了解您的旅行时间和地点;记住您的旅行偏好(靠窗或过道座位,红眼航班或日间航班);研究并为您选择最佳航班;检索您的个人信息和支付信息;并使用航空公司的预订系统(例如,通过网页浏览器或API)购买您的机票。
AI智能体现在是巨大的炒作来源,这可能使得在这个领域中区分信号和噪音变得困难。但重要的是不要忽视这里的大局:智能体能力将定义AI的下一个巨大进步浪潮。
用Andrew Ng的话来说:“今年,智能体工作流程将推动巨大的AI进步——甚至可能超过下一代基础模型。这是一个重要的趋势,我敦促所有在AI领域工作的人关注它。”
或者,正如Andrej Karpathy所说:“很明显,通用人工智能将采取某种AI智能体的形式。”
本文将(1)探讨AI智能体的技术基础,然后(2)概述当今一些最令人兴奋的年轻AI智能体初创公司。如果您认为今天的AI系统很强大——请为即将到来的事情做好准备。
智能体基础
智能体的概念从何而来?
与其他人工智能突破不同,比如变换器或直接偏好优化(DPO),智能体的概念不能追溯到一篇基础论文或一个特定的研究小组。这个概念太通用和广泛了。
相反,在过去两年中,AI实践者取得了一系列相互关联的进步,这些进步相互建立,使AI系统能够逐步展现出更复杂的自主行为。
这些进步的总体主题是构建结构和流程,围绕大型语言模型(LLMs)的核心智能,解锁AI自主行动的能力。
在我们继续之前,简单介绍一下术语。"Agentic" 在AI领域通常用作"agent"的形容词形式。我们同意Andrew Ng在这个问题上明确的观点:"agentic"这个词有助于在讨论这项快速发展的技术时提供更多的细微差别和灵活性。与其需要将一个给定的AI系统分类为_智能体_或_非智能体_,不如考虑AI系统具有不同程度的_智能体特性_。这有助于避免在某个AI系统是否"算作"智能体的语义上的吹毛求疵。
一项有助于为智能体奠定基础的开创性工作是2022年Google Brain的论文,它引入了"思维链提示"的概念。这篇论文表明,LLMs有能力将复杂问题分解为更小的中间步骤,然后依次解决每个步骤,以解决整体问题。
思维链提示最初并不是为了追求AI智能体而开发的;论文没有考虑AI模型以任何方式与外部世界交互。但思维链技术显著增强了LLMs的多步推理和规划能力,这是智能体行为的核心。
也许第一个明确旨在结合LLMs的推理能力与行动能力的研究努力是2022年的ReAct,同样来自Google Brain。虽然ReAct系统在概念上取得了重要突破,但其功能有限。
一个能干的智能体的一个基本要素是能够使用外部应用程序:浏览互联网、发送电子邮件、进行在线购买、呼叫Uber、构建网站、更新数据库、提交拉取请求,或任何其他可能的数字行为。在AI智能体领域,这种通用能力通常被称为"工具使用"。
关于智能体工具使用的重要研究努力是2023年Meta研究人员发表的Toolformer。Toolformer团队微调了一个大型语言模型,学习如何以及何时进行API调用,以利用像计算器、日历和语言翻译程序这样的外部应用程序。
包括Gorilla和Chain-of-Abstraction在内的更近期的努力,在Toolformer基于API的方法上构建,以实现更复杂和灵活的工具使用形式。
与少数手工选择的工具不同,Gorilla方法使AI智能体能够从数千或数百万种不同的API中进行选择。同时,Chain-of-Abstraction使智能体能够创建多步计划,以不同的工具组合使用,包括考虑一个工具的输出如何可能通知另一个工具的输入。这种关于工具使用的大局规划解锁了更强大和多功能的智能体行为。
智能体系统的最后一个组成部分,最近出现并显示出巨大潜力,是多智能体架构的概念。
多智能体架构背后的基本见解是——与人类一样——虽然一个单独行动的AI智能体可能有用,但许多AI智能体协同工作可能会更强大。
一个流行的多智能体系统的开源示例是ChatDev,其中一群AI智能体协同工作以构建软件程序。ChatDev系统中的智能体承担包括CEO、CTO、软件程序员、软件审查员和测试工程师等角色。每个智能体专注于其特定的责任(例如,CTO架构整个系统,程序员将其转换为代码,审查员检查代码中的漏洞),同时相互协作以实现构建软件应用程序的总体目标。
"ChatDev: Communicative Agents for Software Development" (arXiv:2307.07924)
直观地说,由于所有智能体最终都由相同的智能源(一个LLM)驱动,创建一个多智能体系统并以这种方式分配角色可能看起来是不必要的。然而,在实践中,多智能体系统比单智能体系统表现更好,特别是在更复杂的设置中。这是为什么呢?
答案的一个重要部分是专业化和模块化。当一个智能体被提示专注于一个特定的子任务时,它在这个子任务上的表现比一个单一的庞大智能体被提示完成整个项目要好。从人类开发者的角度来看,多智能体框架在概念上也是有用的,因为它将复杂系统分解为可以独立改进和评估的离散模块。
第一个广泛使用的多智能体协调开源框架是AutoGen。其他包括MetaGPT和Langchain的LangGraph也紧随其后。
多智能体系统仍然是一个新兴且快速发展的技术领域,最佳实践仍在制定中。什么样的层级关系最适合协同工作的智能体组?智能体如何最好地共享信息并相互学习?在不断变化的情况下,何时以及如何应该即时生成新的智能体?随着系统中智能体数量的大规模扩展,管理计算需求的最佳方式是什么?这些问题以及更多的答案正在由AI构建者实时讨论。
智能体的创业机会在哪里?
未来的领先AI应用将在其核心具有智能体特性。这将是未来几年人工智能的一个决定性主题。这引出了一个问题:在这一领域,对于初创公司来说,今天最引人注目的机会是什么?
在早期技术世界中,一个常见的思维模式是将初创公司归类为基础设施公司或应用公司。简而言之,基础设施公司构建底层工具和平台,作为应用公司为最终客户构建产品的使能者。
传统智慧认为,在任何新技术浪潮中,基础设施层面的机会往往先于应用层面的机会。毕竟,正确的基础设施首先需要到位,以支持健壮、成熟、可扩展应用的开发。风险资本家们长期以来一直喜欢“镐和铲子”论点。(正如马克·吐温所说:“当每个人都在寻找黄金时,成为镐和铲子业务的好时机。”)
今天,在智能体的基础设施层面肯定有很多创业活动。最近出现了一些初创公司,为智能体构建工具,涉及编排、记忆、认证和托管等领域。
然而,尽管智能体应用的数量在最近几个月激增,但所有这些工具的利用率仍然非常低。
我们认为,目前还不清楚在基础模型提供商和智能体应用之间建立庞大业务的空间有多大。
今天的智能体基础设施初创公司的状态如何?
特别是在技术生命周期的早期阶段,在产品架构变得标准化和互操作之前,今天的大多数基于智能体的产品都是由内部构建的工具驱动的,这些工具与应用程序紧密耦合。随着底层基础模型的不断发展,它们将能够处理越来越多的“重举”问题,否则智能体基础设施将被设计来解决。(如果GPT-5在其架构和能力上原生具有智能体特性,不要感到惊讶。)
由于所有这些原因,我们相信智能体初创公司最大和最具吸引力的市场机会在应用层。这就是今天行动的地方。
应用层智能体初创公司
我们将通过一些特定的应用领域,看看我们认为今天智能体初创公司具有巨大机会的地方。但首先,关于应用层智能体初创公司的一般观察是什么,以及什么使它们成功?
首先,完全水平的、通用的智能体不可靠。技术还不到位。为了构建一个可以部署在生产中并今天与客户使用的智能体产品,通过为特定最终市场或垂直领域定制它来限制其自由度至关重要。
特别适合被“智能体化”(造一个词)的最终市场是那些涉及结构化、可重复活动的市场。软件工程、销售发展代表(SDR)和监管合规性都是这些功能的示例。尽管它们涉及非常不同的活动,但每个功能都由可以学习和审核的一致模式的例行工作流程组成。
使应用领域特别适合部署AI智能体的第二个特征是存在所谓的“自然人类在循环中”。
智能体技术还不完全可靠。边缘情况比比皆是。某种程度的人类监督可以帮助使这些系统“准备好黄金时段”。然而,对于一个智能体初创公司来说,手动检查其系统输出的人员将是不可扩展和不经济的。
方便的是,一些工作流程已经包括了一个可以审查并批准智能体行动而不需要太多额外摩擦的人类。
客户支持是一个很好的例子。在任何客户支持互动中,总是有一个人类参与,他们可以审查并批准任何重大行动:客户自己和/或客户支持经理。
这些人类的输入可以帮助纠正智能体,确保富有成效的结果。
关于为什么AI智能体代表如此巨大的市场机会,值得做一个最后的一般性观点。
组织在人员上的支出远远超过软件:平均而言,公司将其预算的约70%用于员工,而软件产品的支出远不到10%。
智能体应用是一个革命性的概念,因为它们不仅仅是另一种增强工人生产力的软件产品;相反,它们本身就是工人。对于某些角色,它们可以完成员工能做的一切。这意味着它们将能够根据员工的薪水而不是软件工具来定价。这解锁了比前几代技术初创公司更容易获得的更大的支出池,转化为巨大的可寻址市场。
事实上,一些当今领先的智能体初创公司已经在利用客户的招聘预算而不是IT预算方面取得了成功。
让我们继续看看一些特定的应用领域,在这些领域中,智能体AI初创公司有望创造巨大的价值。
客户支持
客户支持对于任何企业来说都是一项不引人注目但必不可少的功能。它也是一个巨大的市场:2023年,作为有用代理的联系中心的全球市场规模估计为3320亿美元,预计到2030年将增长到超过5000亿美元。
在许多方面,客户支持代表了AI智能体的典型最终市场。它是一项标准化、公式化的活动,大多数类型的客户请求(比如说,帮助找回遗忘的密码)会反复出现。正如上文提到的,它还包括一个“自然人类在循环中”——客户自己和/或客户支持经理,他们可以在任何高风险行动最终确定之前提供监督和批准。
由于这些原因,客户支持是智能体今天已经在生产中并且在为企业创造真正价值的领域之一。
金融科技独角兽Klarna就是一个典型的例子。今年早些时候,Klarna宣布它已经部署了一个由OpenAI驱动的AI助手来自动化其客户服务参与。据该公司称,这个AI助手已经能够处理三分之二的客户服务请求(仅在第一个月就进行了230万次对话),自动化了700名全职人类代表的工作,并为该公司今年带来了估计4000万美元的额外利润。
一些年轻的初创公司已经出现,构建AI客户支持智能体。
其中最引人注目且资金最充足的初创公司是Sierra,它迄今为止已经从Benchmark和Sequoia等蓝筹风险投资公司筹集了超过1亿美元。是什么让Sierra与众不同?它的世界级创始团队。Sierra的CEO/联合创始人Bret Taylor——前Salesforce联合CEO、前Facebook CTO、前Twitter董事会主席和现任OpenAI董事会主席——是世界上最受尊敬的技术高管之一。
Sierra的AI客户支持智能体可以实时响应客户查询;通过与内部系统集成并调用适当的API来检索所有必要的客户信息;并在需要时采取行动以满足客户请求(比如,更新客户的地址或取消国际数据计划)。
Sierra计划根据完成的工作而不是更传统的软件订阅模式来定价其智能体。如上所述,这种_按工作收费而不是软件_的概念代表了智能体实现的重要商业模式范式转变。
“我们认为基于结果的定价是软件的未来。我认为有了AI,我们终于拥有了不仅仅是让我们更有生产力,而是实际上完成了工作的科技。它实际上完成了工作,”泰勒说。
另外两个有前途的初创公司正在为客户支持构建智能体解决方案,分别是Decagon和Maven AGI,它们最近都宣布了A轮融资。
Maven声称其智能体可以自主处理93%的所有客户问题,同时将解决时间缩短60%。
与此同时,Decagon拥有令人印象深刻的早期客户名单,包括Eventbrite、Rippling和Substack。“技术差异化是一个有趣的问题,”Decagon的CEO/联合创始人Jesse Zhang说。“每个人都在使用相同的底层AI模型,无论是OpenAI的模型还是像Llama这样的开源模型。因此,差异化在于你围绕这些模型构建的基础设施,你构建的编排。今天构建智能体的公司基本上正在构建图,图中的每个节点都是API调用或LLM调用等。我们对构建该图的最佳方式有自己的观点。”
监管合规
公司每年花费数十亿美元以确保其决策和活动符合所有适用的法规。
合规要求涉及公司运营的方方面面:它对外沟通的内容、如何制定其内部公司政策、如何执行业务交易、实施哪些数据隐私措施、进行哪些报告和披露、如何处理其税务义务等。
合规工作流程特别适合交给AI智能体,原因有几个。
首先,合规工作高度结构化、基于模式且可重复。
此外,合规团队通常由前线分析师组成——负责标记潜在的监管违规行为并建议补救措施——以及负责监督并对合规行动做出最终决定的经理。这为插入一个AI智能体提供了机会,同时保持一个“自然人类在循环中”:智能体可以替代前线分析师,而更高层次的经理在任何高风险决策最终确定之前继续提供人类审查。
一家在纽约的著名初创公司正在构建AI智能体进行监管合规,这家公司是Norm Ai,它在最近几个月的两轮连续融资中筹集了近4000万美元,由Coatue领投。
Norm的智能体系统可以持续审查公司的运营,确定某个活动不符合某个法规,并建议补救措施以确保合规。
Norm的智能体今天理解和支持合规的法律和法规包括《清洁空气法案》(213,796字)、《平价医疗法案》(371,810字)和《美国残疾人法案》(22,481字)。鉴于这些法律的篇幅和复杂性,自动分析和应用它们的能力是引人注目的。
另一个有前途的早期参与者是Greenlite AI。与寻求构建全范围合规活动的智能体的Norm不同,Greenlite最初专注于反洗钱和了解您的客户(AML/KYC)操作。Greenlite的智能体可以自动进行例行调查,通过审查文件和搜索互联网来审查公司。
“领先的银行和金融科技公司已经信任我们的智能体在生产环境中自动化AML工作流程,”Greenlite的CEO/联合创始人Will Lawrence说。“现状通常是依赖离岸合同工来完成这些任务。所以使用Greenlite意味着用我们的AI替换一个坐在不同国家的外包工人。而我们的AI在成本、速度、准确性和透明度方面带来了巨大的优势。”
数据科学
智能体的一个最大和最引人注目的应用领域之一是软件开发。今天围绕这个用例有很多热议(有很好的理由),像Cognition AI这样的公司——在成立不到六个月后估值就达到了20亿美元——在引领潮流。关于智能体在软件工程中的机会已经有很多讨论。
一个主题类似但得到较少关注的智能体机会是数据科学。
像软件工程一样,数据科学涉及复杂且高薪但结构化且可重复的活动,智能体系统非常适合解决。
数据科学(或“预测性机器学习”)用例在今天的企业中无处不在:例如,个性化、需求预测、推荐系统、动态定价和欺诈检测。
一个令人兴奋的初创公司正在为数据科学构建智能体,那就是Delphina。由Uber的两位长期数据科学领导者创立,Delphina的智能体自动化了整个数据科学生命周期:确定问题、选择和转换数据、进行特征工程、训练模型以及在部署后监控和改进模型。
正如Delphina的联合创始人Jeremy Hermann和Duncan Gilchrist所描述的:“Delphina的智能体可以被看作是初级数据科学家。它们处理数据科学工作流程中耗时和常规的元素,就像一个入门级数据科学家可能会做的那样,释放出人类数据科学家花更多时间在大局反思和构思上。”
个人助理
让我们以最明显和明确的所有用例结束:一个AI个人助理。
AI个人助理的概念在科幻书籍和电影中已经有几十年的历史了(想想《钢铁侠》中的J.A.R.V.I.S.或《她》中的Samantha)。也许正是因为它如此明显——甚至是原创的——这个用例实际上比本文提到的许多其他类别吸引了更少的炒作和活动。
前几代的初创公司试图并未能构建能够自动化行政助理或个人助手工作的软件。这些产品总是被证明对于日常生活中发生的无限变化的情况、通信和请求来说太脆弱了。
大型语言模型的出现——以及围绕它们构建的智能体系统——可能最终将一个能干的AI个人助理的愿景变为现实。
与客户支持或合规等用例相比,构建一个作为通用个人助理的AI智能体是一个更不受限制和开放式的任务。因此,追求这一愿景的初创公司面临的一个关键挑战将是找到将问题空间结构化和界定的方法,使其智能体可靠地工作,同时不过多限制它们的灵活性,以至于用户从中得不到太多价值。
一个有前途的初创公司正在构建一个由智能体驱动的个人助理,那就是Mindy。
Mindy自称为“每个人的首席参谋”。用户可以要求Mindy,例如,安排午餐并邀请与会者;在线购物特定商品;或对某个行业或公司进行市场研究。
Mindy的联合创始人来自“PayPal黑手党”,这有助于解释为什么Sequoia的Roelof Botha和Founders Fund的Peter Thiel——PayPal黑手党的两位主要成员——今年早些时候领导了公司的600万美元种子轮融资。
Mindy智能体存在于电子邮件中,用户与它的通信方式与他们与人类助手或同事的通信方式相同。
Mindy团队解释了这一关键设计选择背后的逻辑:“电子邮件是最初的互联网技术,仍然是商业世界中最广泛使用的工具。允许用户将Mindy抄送到安排会议或转发Mindy文档进行摘要,提供了生成性AI的价值,而无需离开他们的日常工作流程或学习如何‘提示’。全球超过40亿人拥有电子邮件账户。”
电子邮件的异步性质使Mindy能够在响应用户之前进行更深入的研究和分析,而不需要像ChatGPT这样的聊天机器人那样立即产生响应。此外,它还方便地在Mindy响应之前纳入一定程度的人类审查。
Mindy智能体今天可供任何人免费试用。
这一类别的另一个有趣的初创公司是Ario。
Ario专门为消费者而不是企业用户构建。Ario帮助处理诸如管理家庭日历、协调亚马逊退货和为假期构建个性化行程等任务。
为了理解您,Ario首先从您经常使用的所有消费者应用程序中摄取所有数据,从Instagram到Google日历到DoorDash到Fitbit。(公司强调其对数据隐私和安全的承诺。)然后,它可以利用所有这些上下文主动帮助您管理生活:例如,提醒您女儿的生日即将到来,并根据她目前的兴趣提出个性化的派对创意。
如果像Mindy和Ario这样的个人助理智能体确实有效——它们不需要完美,只要足够有用——毫无疑问,它们将是非常成功的产品。
最大的问题是,通过巧妙的工程,是否可能利用今天的大型语言模型在如此广泛和不受限制的主题和任务上实现有用的智能体行为。我们很快就会发现。
展望未来
这四个类别是今天智能体初创公司有前景的应用领域的示例。但这远不是详尽的列表。
从软件工程到收入运营,从医疗患者管理到销售发展代表,从产品分析到数据工程,许多其他类别同样适合被AI智能体转型。
这些只是智能体今天完全有能力处理的功能。随着底层AI以惊人的速度不断改进,可以交给智能体的人类活动集将迅速增长。智能体系统能够完全自动化律师的工作还需要多久?一个调查记者?一个政策制定者?一个风险投资家?一个AI研究员?
智能体不仅仅是另一个过度炒作的AI流行词。它们是人工智能系统不可避免的未来形态。在你意识到之前,你将每天与许多不同的智能体进行交互。事情只会从这里变得更奇怪和更神奇。参考资料
Rob Toews,forbes,Agents Are The Future Of AI. Where Are The Startup Opportunities?