AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


华泰 | 计算机深度:AI Agent - 通往AGI的核心基础
发布日期:2024-07-20 12:31:41 浏览次数: 2025


核心观点

LLM推动AI Agent进入新阶段,AI应用商业化或加速

AI Agent是一种能够感知环境、进行决策和执行动作的智能实体,从发展历程看,经历了用逻辑规则和符号封装知识、快速响应环境、基于强化学习等发展阶段。随着大语言模型(LLM)的快速发展,AI Agent在感知、记忆、规划、行动等模块方面的能力均得到了进一步的提升。我们认为LLM推动AI Agent进入了新阶段,与LLM结合的AI Agent在智能化程度、自主性方面有进一步提升的潜力,通过与终端的进一步结合,有望推动AI应用商业化加速。


AI Agent能力提升:感知/规划/记忆模块强化或工程化优化

从AI Agent的研究看, AI Agent的要素基本上可以分为感知、定义、记忆、规划、行动五类模块。从AI Agent的能力提升路径看,主要包括:1)单个模块的持续强化:感知模块的模态持续丰富、记忆模块增长上下文或提供更加丰富的数据来源、规划模块中通过CoT或ReAct等方式提升推理能力、行动模块补充第三方插件;2)系统性方式优化:如通过将AI各个模块作为整体发挥作用,利用不同环境之间交互获取的跨模态数据,在物理和虚拟世界中运行等。综上,在底层模型升级+工程化方法改进的共同推进下AI Agent的性能有望持续提升。


Agent自动解决固定范式的问题,关注Agent Workflow

基于LLM的Agent实践已经取得一定的成果,从AutoGPT、GPTs、Devin等案例中可以看出,当前Agent将LLM应用于信息检索、工具学习、任务分解、垂直知识学习、人机交互等场景,实现了能力的突破。一方面LLM相比传统NLP在处理文本信息中的效率有所提升,另一方面特定数据训练赋予LLM较好的解决垂类问题的能力,基于此当前LLM对于固定范式下解决问题已经能够实现较好的自动化。我们认为通过Agent Workflow的方式,能够更好的实现AI Agent与具体任务的结合,或将推动LLM技术在更复杂的应用场景中进一步提升效率。


Agent改变人机交互方式,关注软硬件产业机遇

AI+终端实现了安全性与个性化的结合,为Agent落地打下良好基础。AI Agent有望改变人机交互的方式,落地方式包括AIPC、AI手机等。终端掌握了重要的交互入口,据Apple WWDC,Siri用户每天发出的语音请求数量高达15亿次,大量的交互为Agent提供了丰富的场景载体;此外通过压缩模型到适合端侧大小的模型,使用优化算法加速推理,实现在端侧落地。对比Agent的技术架构,往往也需要基础模型和小模型的共同支撑,我们认为端侧模型技术的发展(模型压缩等技术)有助于Agent落地于终端。


相关公司梳理

从AI Agent的进展看,在理论研究中发现通过CoT(思维链)、ReAct(推理+行动)等方式能够完成部分的任务规划,且长期看通过AI Agent或有望进一步走向整体智能;在实践中,通过将AI助手嵌入工作流也已打造出基于特定数据、场景的Agent产品雏形,我们认为随着:1)底层大模型能力的提升;2)Agent+工作流的工程化实践深入,AI Agent能力有望进一步提升,或将推动AI商业化进程加速。重点关注公司:1)协同办公厂商;2)垂直应用厂商;3)终端厂商。具体公司名单,请见研报原文


风险提示:模型能力进步不及预期;安全性风险;本研报中涉及到未上市公司和未覆盖个股内容,均系对齐客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。



正文

核心观点

AI Agent是通往AGI的核心基础。从用户角度感知AI Agent,其具备连续、复杂、多步骤、多任务的执行能力,从基本框架看,当前对AI Agent整体框架的设计基本上可以分为感知、定义、记忆、规划、行动五类模块。我们认为从实践上看,当前AI Agent对于执行特定领域的任务已经体现出一定的自主性,未来随着模型的升级,任务规划、工具选择能力有望进一步进化。从框架上,通过单个模块加强、系统性优化等路径,AI Agent有望逐步通向AGI。


AI Agent落地带来多个层次的产业机遇。1)MaaS厂商:有望受益于模型升级机遇。大模型厂商与MaaS厂商合作推广B端的大模型产品,MaaS厂商提供落地工具和开发框架,有望首先受益于底层大模型能力突破带来的AI Agent发展机遇;2)应用厂商:凭借垂直数据与工程化优势实现Agent落地。以Agent workflow为代表的工程化优化与垂直数据训练同样是Agent落地的可行路径之一,看好拥有垂直数据与工程化优势的应用厂商。3)终端厂商:Agent推动人机交互变革。Agent能力既可以通过AI重构硬件来实现,也可以通过AI改造软件来体现(软件的自动化执行),终端厂商拥有重要的语音助手交互入口,在端侧软硬件生态中具备良好的卡位,端侧Agent有望首先落地。


与市场观点的不同之处

市场认为现有基础模型能力无法支撑Agent应用,Agent落地进程较为漫长我们认为Agent能力提升存在多种路径,模型能力提升只是路径之一。除此之外,通过垂直数据训练、Agent Workflow等方式能够在同一基础模型中针对具体任务实现更好的效果;此外终端凭借AI重构软件+硬件也有望在现有模型能力基础上实现部分类Agent功能。因此在现有基础模型基础上,部分Agent应用仍有望落地。


市场Agent+终端的研究聚焦于硬件层面。市场对于Agent对终端产业的影响更多聚焦于产业链相关硬件公司,认为Agent有望带动换机潮,且需要相关硬件的支持。我们认为Agent在实现方式上,也需要模型、软件、数据、生态的支持,在终端厂商之间AI能力也存在一定的差异,软件算法及生态领域的研究也十分重要。从影响看,我们认为Agent+终端有望推动人机交互变革,除了在终端销售量价方面的变化外,可能对终端应用的商业模式产生更加深远的影响。


AI Agent:通过AGI的核心基础

Agent有望降低人机交互门槛我们认为,这一轮AI产业变革,核心本质不是在原有产品上增加或者减少什么功能,而是改变人机交互方式。这种人机交互方式不仅体现在硬件载体上,更是覆盖到软件载体。其实现的路径就是通过Agent来实现,Agent作为智能辅助助理,其具备自我决策和执行能力,能够完成连续服务多步骤的任务。我们认为,这是未来Killer APP应该具备的核心特征。Agent对人机交互方式的改变,我们将其可以类比为Dos系统向Windows系统的转变,带来的人机交互方式的变化,降低了人机交互的门槛。




AI Agent下一代大模型的核心能力Agent能力的实现,还是需要大模型具备相应的能力。我们的判断:Agent或是下一代大模型边际变化最大的能力。我们可以看到,GPT-4o模型已经开始具备Agent能力雏形,Google的Astra也开始具备人机多模态交互多步骤任务完成的能力。




AI Agent能力体现如何从用户角度感知Agent能力?我们将其总结为:连续、复杂、多步骤、多任务的执行能力。1)连续:指的是大模型能够对用户的任务指令,进行任务拆解,分解为多个步骤,对步骤进行规划排序、连续执行。2)复杂:目前大模型智能解决单个任务,或者简单少数多个任务,无法完成多个复杂任务。3)多步骤:多步骤与连续密切相关,在大模型执行后续步骤的同时,能够对任务目标和前序任务随时保持记忆,步骤的规划执行能力要强。



我们认为,AI大模型的Agent能力是通往AGI的核心基础。我们或将看到Agent能力有望逐步体现:1)单一简单任务执行,2)单一复杂任务执行,3)多步骤简单任务执行,4)多步骤复杂任务执行,5)连续多步骤复杂任务执行。这些能力的实现都依赖于大模型能力的提升。我们认为,Agent能力有望在GPT-4的后续模型中逐步体现出来。另外需要特别注意的是:Agent是一种能力,是AI重构人机交互方式实现的工具。Agent能力既可以通过AI重构硬件来实现,也可以通过AI改造软件来体现(软件的自动化执行)。


AI Agent:LLM推动AI Agent进入新阶段

LLM推动AI Agent进入新阶段。AI Agent经历了几大阶段,包含:1)符号Agent:采用逻辑规则和符号表示来封装知识并促进推理过程,典型代表为基于知识的专家系统;2)反应Agent:主要关注Agent与其环境之间的交互,强调快速和实时的响应,设计时优先考虑直接的输入输出映射;3)基于强化学习的代理:主要关注如何使Agent通过与环境的互动进行学习,典型代表如AlphaGo;4)具有迁移学习和元学习的Agent:引入迁移学习实现不同任务之间知识的共享和迁移,通过元学习使Agent学习如何学习;5)基于大型语言模型(LLM)的代理。将LLM作为大脑的主要组成部分或Agent的控制器,并通过多模态感知和工具利用等策略扩展其感知和行动空间,通过思维链(CoT)和问题分解等技术使Agent获得与符号代理相当的推理及规划能力,并且可以通过从反馈中学习和执行新的行动,获得与环境的互动能力。



智能助手到Agent:由搜索匹配走向规划与交互式决策

聊天机器人:主要基于知识图谱、检索等技术。为在AI Agent之前,典型的以人机自然交互为特点的产品包括智能语音助手、开域聊天机器人。从架构看,开域聊天机器人以发布于2014年5月的微软小冰为例,其架构主要包括对话管理模块、技能库,其中对话管理模块主要使用同理心计算方法,利用对话背景、用户查询、用户信息等维度的信息构建对话状态向量,并据此决定之后的对话策略。聊天模块则通过检索产生回答候选集(包括基于配对数据的检索、使用GRU-RNN seq2seq框架的神经响应生成器、知识图谱+未配对数据等方法),并利用排序模块进一步选择回答。从技术上看,开域聊天机器人具备AI Agent的雏形,主要通过向量计算、基于RNN框架的生成、知识图谱强化等技术实现对人类意图的准确理解及回应。


智能语音助手:架构上已经具备意图分析、任务规划、服务调用等模块。以Siri为例,智能语音助手的架构与AI Agent具备一定相似性。该系统可划分为输入系统、活跃本体、执行系统、服务系统和输出系统五个子系统。在活跃本体内部,利用各种词典资源,模型资源实例化对用户的输入信息进行具体加工;执行系统则是将用户原始的文本输入解析为内部的语义表示,并决定下一步操作,包括“对话流控制器”(根据领域判断诱导用户提供所需的参数)、“任务流控制器”(被“对话流控制器”调用,界定完成一件任务或者解决某个问题由哪些步骤构成, 这些步骤之间是何种关系,Siri的任务模型是由一些领域无关的通用任务模型和若干领域相关任务构成)。我们认为从架构上看,智能语音助手已经具备意图分析、任务规划、服务调用几大核心模块。



从输入到输出,AI Agent技术框架基本确立。当前对AI Agent整体框架的设计基本上可以分为感知、定义、记忆、规划、行动五类模块,其中感知模块主要处理各类输入,解决智能体与环境交互的问题;定义模块主要包含了Agent的属性、目标等信息;记忆模块包括短期记忆及长期记忆,用于面对复杂任务时提供历史策略等;规划模块包括任务的分解、反思、推理推断、策略制定等,是Agent的大脑;行动模块包括以文字、具身行动、工具指令等多种形式输出结果。从偏向于输入端的感知、定义,到处理端的记忆、规划,再到输出端的行动,我们认为AI Agent的技术框架与此前智能语音助手的技术框架在模块设置上存在一定相似性。



AI Agent架构与当前主流计算架构有相似性。在《Agent AI Towards a Holistic Intelligence》中,研究人员阐述了新的Agent范式,Agent AI能够基于感官输入自主执行适当的和上下文相关的动作,与先前互动策略的区别是在训练后,主体的行动将直接影响任务规划,而不需要从环境中接收反馈来规划其后续行动作为先前的互动范式。当前计算机主流的冯·诺依曼结构则是事先将编制好的程序(含指令及数据)存入主存储器中,计算机在运行程序时自动地、连续地从存储器中依次取出指令且执行。从构成上看,冯·诺依曼机由运算器、存储器、控制器、输入设备和输出设备五大部件组成;AI Agent同样具备输入信息、处理信息、输出信息的三大部件,在架构上二者具备相似性。



AI AgentLLM和人类在计算任务中分工的重新划定。相比主流的计算架构,AI Agent实现了能力的进一步提升。AI Agent主要由在环境和感知中具有任务规划和观察能力的Agent(感知可类比输入、规划可类比人类规划)、Agent学习(强化学习,类比人类反思)、记忆(类比存储)、行动(类比输出)、认知和意识(类比控制)五个模块构成,模块上基本能够对应。从作用上AI Agent的感知方面更加强调对于多模态信息的获取能力,不局限于数据的输入;认知方面主要用于协调每个Agent AI组件,强调了复杂动态环境中交互式Agent的集成方法的重要性,突出了交互式决策的作用。我们认为AI Agent实现了将人类利用编程解决特定任务的过程进一步的接管,从解决问题的执行环节进一步向思考如何解决问题的规划环节渗透。



AI Agent具备两条能力提升路径。根据分工划分模块的方式是当前得到较为广泛采用的AI Agent技术框架,与之对应的,针对AI Agent的能力提升同样可以从分模块能力突破、系统性优化两条路径展开。在分模块能力突破中,相比于LLM支撑的聊天机器人(如ChatGPT),我们认为AI Agent在感知模块中具备更加丰富的模态理解能力,在记忆模块中能够结合更加丰富的数据来源,在规划模块中具备更强的规划、反思能力,在行动模块中能够提供更加丰富的输出,此外在系统性优化的过程中,AI Agent也有望逐步向通用人工智能过渡。


分模块持续突破+系统性优化推动AI Agent能力提升

感知:模型端原生多模态推进,Agent多模态感知能力可期

感知模块:从单一模态向多模态延伸。感知模块的核心功能主要是帮助Agent获取信息,可以与计算机中的鼠标、键盘等各类输入设备进行类比。从核心功能看,基于LLM的AI Agent在信息输入方面强调多模态感知的能力,包括视觉、听觉、触觉等感知能力,涉及文本、图像、视频、3D等多种模态。从落地路径看,当前对于跨模态的落地方式主要包括通过变换器将非文本模态转为文本模态、对非文本模态进行编码并将编码器与LLM对齐,或通过结合思维链技术、结合知识,强化Agent对于不同模态信息的理解能力。



端到端原生多模态模型不断落地。从产业进展看,端到端的原生多模态模型逐步落地。2023年11月Google推出原生多模态模型Google Gemini,从一开始便在不同模态上(包括文字、音频、图片、视频、PDF文件等)进行了预训练,然后利用额外的多模态数据进行微调以提升有效性,实现了多模态数据训练的突破。2024年原生多模态模型在应用端进一步取得突破,2024年5月Open AI发布GPT-4o,不同于传统的模型级联和拼接,GPT-4o是跨文本、视觉和音频端到端地训练的新模型,这意味着所有输入和输出都由同一神经网络处理,基于此,我们认为相较于此前的智能语音助手,基于LLM的AI Agent对于多种模态信息的综合处理能力进一步加强。




记忆:模型端上下文长度持续突破,向量外部存储与检索强化长期记忆

记忆模块:短期记忆关注模型变化,长期记忆关注数据处理与检索技术。在记忆模块中,现有研究多数把记忆划分为短期记忆、长期记忆,其中短期记忆主要来自于上下文学习,受到Transformer的有限上下文窗口长度的限制,长期记忆则具备参数知识存储(模型训练)、非参数知识存储(外部搜索)的方式实现,目前常用的方式主要是通过外部向量存储,Agent以查询的方式快速检索访问。相较于智能语音助手产品长期记忆主要记忆的是用户个人信息等静态信息,长期记忆的内容进一步丰富、数据量进一步提升;短期记忆系统则实现了更长的对话内容支持,有助于进一步解决复杂问题。



大模型支持上下文长度持续上升,外部存储方式不断丰富。随着大模型的迭代持续推进,当前大模型所能支持的上下文长度不断提升,2024年5月Google在Google I/O 2024开发者大会上宣布推出Gemini 1.5 Pro的个人预览版,最多可容纳200万token数。我们认为随着大模型支持上下文长度的提升,大模型赋能的Agent在短期记忆能力方面或将进一步上升。在长期记忆方面,外部存储的方式也不断丰富,提供相关产品的厂商包括向量数据库厂商、添加向量检索功能的传统数据库厂商、封装向量及知识库的应用厂商。



规划:关注LLM对于任务分解算法及反思提炼能力的改变

规划模块:目标分解与反思提炼为两大核心任务。规划模块是AI Agent能够解决复杂问题的关键模块,从功能看主要包括子目标分解、反思及提炼等,其核心能力来自于底层模型的推理能力。计算机诞生初期,多步骤问题的规划往往由人脑完成,计算机充当解决问题的工具。而随着任务分解算法(如层次化任务网络 (HTN)、任务树、分层强化学习、规则引擎等)的发展,计算机开始承担部分的规划任务,如智能语音助手中的任务流控制器主要用于分解任务步骤,判断步骤关系,RPA与业务规则引擎结合实现业务流程的自动化等。随着LLM技术的发展,通过微调或思维链(CoT)等技术对AI Agent进行干预,使Agent逐步提升了规划的效率。



利用ReAct方式发挥LLM推理能力。ReAct(Reasoning and Acting)指使用LLM以交错的方式生成推理轨迹和特定于任务的操作,从而实现两者之间的更大协同作用:推理轨迹帮助模型诱导、跟踪和更新行动计划以及处理异常,而操作允许它与外部源(例如知识库或环境)交互以收集更多信息。具体可通过为每个工具提供描述,让LLM选择工具,或为Agent提供搜索工具、查找工具,让LLM与文档库交互。ReAct方式能够将必要的知识提供给LLM供其分析决策,避免其因使用超出训练过程中的数据进行逻辑分析时产生幻觉和错误判断的情况。但从当前的实践看,ReAct方式仍然存在对于复杂问题的解决能力有限、成本相对不可控(LLM拆解、循环任务的方式存在不确定性)、响应速度较API慢等局限性。我们认为未来随着LLM性能的提升及LLM工程化落地方式的创新,LLM推理能力有望得到更加充分的发挥。


行动:工具使用能力为关键,具身智能为新方向

行动模块:关注微调、工具使用与具身智能技术发展。行动模块是AI Agent输出推理结果,对外部产生影响的重要途经,从输出的形式看包括文本、对工具的使用、具身动作等。在工具使用方面,当前主要的落地方式是通过微调或预先设定的模型描述框架,让Agent调用对应的外部API,从而实现对现成功能的使用或对特定信息的访问搜集。而通过元工具学习等方法,Agent对于工具的使用能够在同类型的不同具体工具之前实现技能的迁移,未来随着模型能力的进一步提升,Agent有望实现对工具的创建;随着具身智能技术的发展,Agent有望对物理世界产生进一步的影响。



多路径共同提升Agent整体智能化水平,有望逐步通向整体智能

LLM+Agent是通向通用人工智能(AGI)的路径之一。AI Agent用来描述表现出智能行为并具有自主性、反应性、主动性和社交能力的人工实体,能够使用传感器感知周围环境、做出决策,然后使用执行器采取行动,具备以上特征的Agent是实现AGI的关键一步。据2023年11月Google DeepMind发布的论文《Levels of AGI: Operationalizing Progress on the Path to AGI》,考虑AGI 性能、通用性和自主性级别,AGI的发展可按L0-L5分级。按该分级方法,目前在狭义AI上人类已经实现了在特定的任务上让AI超越人类,但是对于广义的AGI仅实现到L1阶段,典型代表是ChatGPT、Bard和Llama。从更广义的评判标准看,基于LLM的Agent评估工作还从效用、社会性、价值等角度开展,我们认为当前基于LLM的Agent从能力上看受到LLM能力上限的限制,未来随着Agent的不断升级,有望逐步逼近AGI,具体的路径包括模态丰富、具身智能、多Agent协同、系统优化等。



路径一:模态丰富+具身智能+多Agent协同

Agent具有五个层级,信息维度不断丰富有望推动能力提升。Yonatan Bisk在《Experience Grounds Language》中提出World Scope (WS),来描述自然语言处理到通用人工智能(AGI)的研究进展,包括语料库-互联网-感知(多模态NLP)-具身-社会5个层级。当前多数LLM建立在互联网层级,具有互联网规模的文本输入和输出。而随着LLM进一步配备扩展的感知空间和行动空间,有望进一步通向感知、具身层级,未来多个Agent共同工作,有望产生涌现的社会现象,达到第五层级。



Agent协同或出现团体行为,提升智能化程度。从Agent落地方式看,可分为单Agent部署、多Agent交互和人-Agent交互三种方式,其中多Agent交互及人-Agent协同通过不同的方式给予Agent反馈,有助于Agent不断强化解决问题的能力。更进一步的模拟Agent社会框架中,在个人层面Agent表现出计划、推理和反思等内在行为,以及涉及认知、情感和性格的内在个性特征。Agent和其他Agent可以组成团体并表现出团体行为,如合作。在环境中其他Agent也是环境的一部分,Agent有能力通过感知和行动与环境互动。



关注基础智能体进展。据英伟达科学家Jim Fan的演讲,基础智能体(Foundation Agent)是掌握广泛技能,控制许多身体,并能够泛化到多个环境中的单一算法。随着模型得到信息数量的提升及训练速度的加快,理论上模型能够掌握的技能数量、可控制的身体形态或载体、所能掌握的现实情况有望不断提升。例如在Minecraft中,Voyager通过引入反馈(来自代码运行错误、虚拟人物状态、虚拟环境状况),使虚拟人物在游戏环境中能够不断学习新的技能;机器人训练Agent MetaMorph通过设计特殊词汇描述机器人的具体身体部位,利用Transformer输出电机控制,实现对机器人的控制。通过对训练进行加速,有望将Agent的能力进一步泛化,最终实现自主的基础Agent。



路径二:通过提升整体性或利用工作流解决复杂问题

通过提升Agent AI整体性有助于解决复杂问题。除了单个模块、环节的技术突破,模块间的互动方式也是Agent能力的重要影响因素。当前的AI Agent对于被动结构化任务的处理已有较为丰富的实践,但距离在复杂环境中扮演动态互动角色仍有一定的差距,我们认为除了单个模块的能力提升,围绕AI Agent整体系统的优化或将成为AI Agent能力进一步提升的重要驱动力。据《Agent AI Towards a Holistic Intelligence》,研究人员提出一个将大型基础模型集成到Agent动作中的具体系统——Agent AI系统,该系统强调AI作为有凝聚力的整体发挥作用。按系统层级看,自下而上分别为数据-预训练模型-调优模型-任务-跨模态-不可知的现实(新范式/物理世界/虚拟现实/元宇宙/涌现能力等)-整体智能。在数据端,该系统强调利用不同环境之间的交互获取的跨模态数据,在系统端则结合了大型基础模型对开放世界环境中感官信息的理解,最终AI展示了较好的跨学科、跨任务能力,涵盖了机器人、游戏和医疗保健系统等新兴领域。长期看该路径或将逐步通向整体智能。



Agent Workflow通过流程优化提升任务效果。2024年3月,斯坦福大学吴恩达教授在博客中提出在HumanEval数据集中,使用GPT-3.5(Zero-shot)的测试正确率为 48.1%。GPT-4(Zero-shot)为67.0%。而通过与Agent workflow配合,GPT-3.5实现了95.1%的正确率。在加入Agent workflow后,模型在具体任务中的能力有了明显的提升。Agent workflow是一种新的工作流程,要求LLM多次迭代文档。从设计模式上,Agent有四种模式:1)Reflection(反思):让智能体审视和修正自己生成的输出;2)Tool Use(使用工具): LLM被赋予Web搜索、代码执行或其他功能,以帮助它收集信息、采取行动或处理数据;3)Planning(规划): 让LLM提出并执行一个多步骤计划来实现目标;4)Multiagent collaboration(多智能体协作):多个智能体合作完成任务。我们认为Agent Workflow通过对LLM应用的流程优化,有助于提升Agent解决具体任务的准确性,LLM应用端厂商有望借鉴此方法推动更多垂类LLM落地。



AI Agent技术逐步落地,智能性仍有提升空间

从AI Agent的落地方式看,基于LLM的Agent产品众多,但各自在自主程度,能力范围上有一定差异。本节我们选取部分典型案例展开分析,具体包括:AutoGPT(2023.3)、卡耐基梅隆大学智能Agent系统(2023.4)、Devin(2024.2)。


AutoGPT:利用LLM逐步拆解任务,外挂插件提升能力

AutoGPT具备AI Agent的雏形。AutoGPT是一个构建在GPT-4基础上的开源Python应用程序,由视频游戏公司Significant Gravitas Ltd的创始人Toran Bruce Richards于2023年3月30日推出,其功能包括从互联网收集信息、存储数据、通过实例生成文本、访问各种网站和平台以及使用 LLM执行摘要的能力,常用于市场研究、网站创建、博客写作和创建播客。从所需工具看,构建AutoGPT需要Python(程序)、OpenAI API密钥(大模型)、Pinecone API密钥(向量数据库产品)、Git(开放源码版本控制)、ElevenLabs API(可选语音相关模块)。我们认为AutoGPT具备实现多种任务的能力,具备AI Agent的雏形。



利用LLM拆分任务。从实现功能的步骤看,AutoGPT的构建分为:1)本地下载Auto-GPT项目及相关资源;2)输入AI名称、AI角色以及最多5个目标;3)任务创建或排序:了解目标,生成任务列表,并提及实现这些任务的步骤,审查任务顺序以确保其在逻辑上有意义;4)任务执行:利用 GPT-4、互联网和其他资源来执行这些任务;5)生成结果:具体结果形式包括Thoughts(AI Agent在完成动作后分享他们的想法)、Reasoning(解释了为什么选择特定的行动方针)、Plan(该计划包括新的任务集)、Criticism(通过确定局限性或担忧来批判性地审查选择),本质上是ReAct(Reason+Act)的应用。从实现步骤看,人类在其中给出基本的任务步骤后,AutoGPT通过调用LLM,实现对任务的理解与拆分。


LLM分解任务受模型能力及数据的限制。AutoGPT的能力范围仍然受到Python函数集能力边界的限制,在搜索网络、管理内存、与文件交互、执行代码和生成图像等具备较丰富可调用函数的领域效果较好,但对于更为复杂的任务处理能力有限。此外,LLM在分解问题的模式上较为固定,并且存在受到预训练数据和知识的限制,对于重复出现的子问题识别能力不足等问题。



通过调用插件实现能力的扩展。2023年6月Auto-GPT更新至v0.4.1,AutoGPT对于插件的支持进一步强化,从插件的功能看,第一方插件主要功能包括信息检索(搜索引擎、新闻、社媒、百科等)、任务规划、智能生成(邮件回复等)、API调用等;第三方插件则实现了对AutoGPT能力边界的进一步扩展,添加了交易、使用AI工具、数据库查询、功能集成等。我们认为插件帮助AutoGPT进一步提升了用工具获取信息、加工信息的能力,使得Agent的能力边界得到进一步的延展。




卡耐基梅隆Agent:利用LLM强化信息获取及工具使用

利用LLM强化搜索。2023年4月卡耐基梅隆大学在论文《Emergent autonomous scientific research capabilities of large language models》中提出了一个智能代理系统,它结合了多种大型语言模型,用于自主设计、规划和执行科学实验。其中利用LLM的模块包括“网页搜索器”、“文档搜索器”,无需LLM的模块包括“代码执行器”、“自动化”,另有Planner模块用于协调各个细分模块。Planner模块输出Google查询指令给网页搜索器、输出文档查询指令给文档搜索器,进行文档的查找梳理,为执行部分提供所需的参数及文档信息,最后由代码执行器、自动化模块进行实验。在此案例中,LLM主要用于强化文档及互联网知识的检索,实质上对具体任务的执行过程由搜索结果得到。



通过细分领域内容提升执行准确度。在本案例中,通过为文档搜索领域添加垂直领域内容有助于提升执行的准确度。具体来看主要有两种方式,第一种是通过对指令进行编码并结合向量搜索,对专门的API文档进行搜索与匹配,提升输入Planner的编码质量;另一种方式是通过补充文档指南,提示使用专用工具的特定语言体系进行功能推荐。结合了专业知识库及文档后,Agent的知识范畴不再局限于大模型训练的语料,能够完成对具体工具的正确使用。在本案例中,Agent自动调整代码以应对专用软件包缺失、自动搜索说明文档调整工具的效果,并完成了布洛芬的合成、阿司匹林合成、铃木反应研究、天冬氨酸合成。



Devin:利用AI实现自主编程

Devin利用AI实现自主编程。2024年3月AI初创公司Cognition发布AI软件工程师Devin,Devin可以规划和执行需要数千个决策的复杂工程任务,可在每一步都回忆起相关的上下文,随着时间的推移学习,并纠正错误,此外Devin还可以与用户积极协作,实时报告其进度,接受反馈,并根据需要与用户一起完成设计选择。研究人员在SWE基准上评估了Devin,要求代理解决Django和scikit-learn等开源项目中发现的现实GitHub问题。Devin端到端正确解决了13.86%的问题,远远超过了之前1.96%的最先进水平。Devin没有得到帮助,而所有其他模型在给出了要编辑的确切文件的条件下,以前最好的模型也只能解决4.80%的问题。



多种AI技术结合,Agent形态初具。从技术方面,Devin集成了机器学习、深度学习和自然语言处理,以理解代码、从现有模式中学习并自主生成代码,并配备了自己的代码编辑器、命令行和浏览器。从Devin的任务实现方式看,主要分为几个步骤:1)理解用户意图,通过LLM等NLP技术分析用户的自然语言描述,提取关键功能和要求,将用户分解为任务清单;2)自主学习专业材料(如API文档、开源库、源码),掌握代码结构,LLM技术可用于加强对专业材料的理解能力,代码结构的模式识别与匹配则可以通过机器学习模型强化;3)生成代码并根据用户的提示调Bug。我们认为从实现方式看,对于现有文档的学习与实践,已经初步具备Agent的形态,未来随着模型能力的进一步提升,Agent在细分领域的能力有望进一步提升。



AI Agent:智能性仍有提升空间,关注Agent Workflow

模型架构突破+特定数据推动LLM Agent能力突破。从AI Agent的落地方式看,基于LLM的Agent实践已经取得一定的成果。具体包括:1)利用LLM较强的文本处理能力,实现了信息检索及工具使用效率的提升;2)利用LLM的任务分解能力,实现了简单问题的步骤分解与规划;3)利用LLM的文本生成能力,打造更加自然的人机交互;4)利用LLM的可调试性,打造能够解决垂直领域任务或具备垂直领域知识体系的应用。以上能力突破的基础一方面来自于Transformer架构下,LLM能力相比传统NLP方法的效率提升,如更加自然的人机交互、更强的文本处理能力;另一方面则来自于特定数据类型训练赋予LLM的能力,如从任务分解数据训练中得到的任务规划能力、配置特定文件后得到的解决特定领域问题的能力。



LLM Agent自主化、智能性仍存在提升空间。从LLM Agent的实践看,当前的LLM Agent对于执行特定领域的任务已经体现出一定的自主性(如完成科学试验、搜索资料撰写报告等),LLM对于固定范式下解决问题能够实现较好的自动化,但在解决问题的泛化能力方面,当前主要的Agent产品仍距离通用的Agent有一定的差距。主要体现在:1)任务规划方面:当前Agent主要基于现有的成熟任务流程进行复现,或基于训练数据对任务进行简单的拆分;2)工具使用方面:当前Agent基本按照人类的部署进行流程化的操作和尝试,工具的使用主要通过调用第三方API进行。未来随着底层模型能力的提升。我们认为AI Agent有望在以下方面实现能力提升:1)在任务规划方面从基于规则、参数的规划能力逐步向基于实践的反思、迭代进化;2)在工具使用与选择方面,从基于人类配置的特定工具,向多种工具的选择规划进化,甚至更进一步的创造适用于LLM的工具。



模型&MaaS厂商:凭丰富工具&实践经验把握发展机遇

MaaS厂商侧重2B业务场景:2B提供落地工具+2D提供开发框架

面向2B市场,MaaS厂商不断完善Agent落地工具。大模型厂商与MaaS厂商合作,共同为B端客户提供基于大模型的产品,其中大模型厂商推动底层模型的能力升级,MaaS巨头则凭借良好的产品、客户基础,提供相应的开发及定制化工具,帮助B端客户打造基于大模型的业务应用。其中较有代表性的厂商为微软、Amazon、Google。我们认为MaaS厂商通过云服务实现了基础软件层面的良好卡位,而AI Agent在B端落地及D端开发的过程中多需要数据的调用及算力的支撑,MaaS厂商凭此前的良好卡位实现了业务的延伸,通过提供落地工具和开发框架,成为AI Agent市场的重要参与者,也有望首先受益于底层大模型能力突破带来的AI Agent发展机遇。



2B:基于业务卡位,提供落地工具

Microsoft Copilot Studio新增智能Copilot功能。在Microsoft Build 2024上,微软发布Microsoft Copilot Studio新功能,让开发者能根据特定任务和功能,构建主动响应数据和事件的“智能Copilot”。基于这类新功能的“智能Copilot”可通过记忆和知识了解上下文、推理操作和输入,基于用户反馈进行学习,并在不知道如何处理时寻求帮助,从而独立管理复杂、长期运行的业务流程。在技术架构上,通过Instructions(指令)+Triggers(动机)+Knowledge(知识)+Actions(行动)的流程,实现AI的自动化应用。此外包括插件和连接器在内的智能Copilot扩展,允许客户通过将其连接到新的数据源和应用程序来增强 Microsoft Copilot智能副驾驶,从而扩展其功能。此外,智能Copilot还可通过反馈不断改善。微软通过在2B定制化工具Microsoft Copilot Studio中提供智能Copilot,实现了AI与工作流的初步结合,打造了垂直场景中AI的自动化应用。




IT、人力、营销等应用场景下实现AI+自动化。从设备采购到销售和服务的客户接待,用户都可以让基于Microsoft Copilot Studio构建的智能副驾驶为其工作。例如:1)IT 帮助台。IT支持涉及工单、订单号、批准和库存水平,Copilot与IT服务管理应用程序交互,根据上下文和记忆解决IT工单,创建设备更新的采购订单,以及联系经理并获得批准;2)员工入职。Copilot会迎接新员工,解释人力资源数据,并回答问题。它会向新员工介绍伙伴,提供培训和截止日期,协助填写表格,并安排第一周的会议,指导新员工完成为期数周的入职和帐户设置流程;3)销售和服务的私人礼宾服务。可利用与客人之前对话的记忆来记住客人的偏好、进行预订、处理投诉并回答与所提供的产品和服务相关的问题。Copilot从互动中学习并提出处理客户场景的新方法。



Amazon:通过Bedrock提供Agents相关功能在模型个性化方面,借助Agents for Amazon Bedrock,用户可以通过简单的几个步骤创建和部署完全托管式的Agent,通过动态调用API来执行复杂的业务任务。Amazon Bedrock可以根据用户提供的自然语言指令,如“你是专门处理未结理赔的保险代理人”,完成任务所需的API架构,并使用来自知识库的私有数据来源详细信息创建提示语。Agents for Amazon Bedrock可将用户请求的任务分解为较小的子任务,Agent会确定正确的任务顺序,并处理中途出现的错误状况。



Amazon Bedrock AgentAmazon产品产生良好协同。Amazon在云服务领域具备良好的产品积累,一方面,Agent产品与Amazon原有基础软硬件产品能够实现良好的协同,在向量数据存取方面推出Amazon OpenSearch Serverless服务,帮助个性化数据与AI实现良好整合、在应用端推动AI与Amazon QuickSight等应用的结合;另一方面,Agent工具与公司本身业务系统能够实现良好的整合。如Agent能够和知识库协同工作,从而实现任务编排、交互式数据收集、任务旅行、调用API、数据查询、来源归因等任务。通过检索增强生成,能从用户选择的相应知识库中查找信息,并提供回复。得益于Amazon在基础层的良好基础,Agent具备较好的可控性,能够实现追踪思维链推理、自定义操作架构,并在Agent调用操作时重新获得控制权等功能,能够在所选的后端服务中实现业务逻辑。能够在后台执行耗时的操作(异步执行),同时继续编排流程。



2D:提供开发框架,卡位开发者场景

面向2D市场,MaaS厂商提供底层的开发框架。如微软AutoGen框架,支持使用多个代理来开发LLM应用程序,这些代理可以相互对话来解决任务。AutoGen代理是可定制的、可对话的,并且无缝地允许人类参与。他们可以采用LLM、人力输入和工具组合的各种模式运作。AutoGen可用于定义代理交互行为,开发人员可以使用自然语言和计算机代码为不同的应用程序编写灵活的对话模式。通过自动化多个语言模型代理之间的聊天,开发人员可以轻松地让他们自主或根据人工反馈共同执行任务,包括需要通过代码使用工具的任务。AutoGen提供多代理会话框架作为高级抽象,使用此框架可以方便地构建大语言模型工作流程。同时,AutoGen还提供一系列工作系统,涵盖了来自各个领域的广泛应用,包括自动翻译、自动摘要、智能建议等。AutoGen还支持增强型大语言模型推理API,可用于提高推理性能并降低成本。



模型厂商落地:GPTs通过配置实现定制化,打造LLM垂直领域助手

三大功能打造定制GPTGPTs是为特定目的创建的ChatGPT的自定义版本,由OpenAI于2023年11月推出。在构建方式上,GPTs通过提供Instructions、Expanded knowledge、Actions三大能力,优化应用的个性化、垂直化、融合化能力。1)Instructions:用户可在Configure界面手动补充希望GPT应用实现的个性化能力;2)Expanded knowledge:用户可在Configure界面上传额外的文件作为应用的知识参考,打造符合垂直场景、具备专业知识的垂类应用;3)Actions:用户可额外添加ChatGPT与其它应用程序的连接,进一步实现模态融合与应用融合。此外在配置选项卡中还可以进行自定义操作,即可以通过提供有关端点、参数的详细信息以及模型应如何使用它的描述,实现对第三方API的调用。



GPTs具备垂直化、多模、开放性特点。OpenAI官方推出16个GPTs应用,涵盖工作、学习、生活、体验四大应用场景。配置了特定的文件后GPTs能力边界得到拓展,可用于为使用者提供棋盘游戏介绍、数学题指导等,载入多模态模块后的GPTs,能够生成贴纸、绘本等图片。第三方GPTs则包括工作助手、学习助手、生活助手、趣味工具等。从落地产品特点上,我们认为GPTs具备垂直化、多模态、开放性的特点。垂直化指应用多基于垂直场景的知识基础(特定IP、特定领域知识等);多模态指应用结合了文本、图像、音频、视频等多种模态,提供了丰富的呈现方式;开放性指在应用的开发上门槛较低,用户可通过简单的配置实现特定领域GPTs的开发。




应用厂商:具备垂直数据与工程化优势,关注工作流卡位

与工作流结合,推动Agent落地——以Servicenow为例

Servicenow:具备覆盖多个工作流的业务基础。ServiceNow主要产品now平台。公司基于统一的Now平台为客户提供工作流的自动化和数字化解决方案。其中技术工作流(Technology)包括IT服务管理、IT运营管理、IT资产管理、安全运营、集成风险管理、战略投资组合管理、ServiceNow云可观测性等。客户和行业(Customer and Industry)及员工工作流(Employee)包括客户服务管理、现场服务管理、人力资源服务交付、工作场所服务交付、法律服务交付等。创建者工作流(Creator)和其他包括应用程序引擎、自动化引擎、平台基础、源到支付操作等。Now平台实现了对客户多领域工作流的覆盖,为Agent的落地打下了良好的基础。



Now assistAI重要应用,场景不断扩展。23Q3公司在Now平台中加入了Now Assist(AI助手)功能,发布Now Assist for Search(从客户环境中提取信息,实现加强搜索,精准回答)等产品。Now平台的更新便于客户在工作流中集成AI能力,相关功能在ITSM、HR、客户服务和Creator四条产品线中投入使用。23Q4公司发布新功能Now Assist in Virtual Agent,该产品通过高级对话式AI聊天加快了问题解决速度;Now Assist for Field Service Management通过帮助技术人员在首次访问中完成工作、识别必要的设备、提供维修建议并自动快速跟进,降低成本。



结合行业方案,打造Agent深入应用。ServiceNow推出针对电信行业的生成式AI解决方案Now Assist for Telecommunications Service Management(TSM),它基于Now平台构建。在产品特性上,TSM具备如下特征:1)提供主动体验。快速识别并解决问题。为客户提供自助服务工具,让他们自行学习、进行更改和解决问题。2)自动解决问题。让客户了解当前的中断以及如何解决这些中断。3)利用AIOps和机器学习自动化和优化运营工作流,以提高整个组织的效率并降低成本。我们认为深化行业应用有助于Agent在垂直领域打造标杆应用。未来企业的工作流或以gen AI为核心进行设计,随着实时数据打通、系统集成度进一步提升,自然语言或在部分场景中取代代码成为新的业务流程构建方式。



基于私有数据,打造智能应用——以Salesforce为例

基于私有数据,打造垂直领域智能应用。除了在原有系统中的工作流基础,垂直业务数据也是应用厂商打造Agent应用的重要优势。以Salesforce为例,其在营销销售等领域具备较好的业务数据基础。基于此公司打造了适用于CRM的对话式AI,特色是以客户的公司数据为基础。从产品布局看,2023年3月公司发布AI应用Einstein GPT,首次将生成式AI应用到客户关系管理领域;2023年9月发布Einstein 1平台(核心包括AI助手Einstein Copilot),并与新的Data Cloud原生集成,客户可以通过Data Cloud和Tableau接收、协调和探索数据,将数据的力量扩展到每个业务领域,为AI应用打造了良好的数据基础。



通过扩展设置将AI嵌入工作流中。Einstein Copilot可以通过扩展与原有工作流结合,可通过创建调用流程、Apex代码、提示和MuleSoft API的自定义操作来扩展AI助手的功能,为Copilot提供精确的指示,以无缝执行任务并快速完成工作。具体包括:1)对话:向AI助手提问并给出指示。获得清晰、可信且可操作的答复;2)操作:使用现成的操作查询并汇总Salesforce中的记录。根据独特的业务需求创建自定义操作,提取相关数据;3)规划师:生成并执行基于来自CRM、数据云或外部来源的业务数据的一组指导性操作;4)分析:使用全面的仪表板监控和改进Copilot,以获得诸如采用率、参与度和行动可用性等关键绩效指标。



终端厂商:推动人机交互升级,率先实现Agent落地

AI+终端:结合安全性+个性化,为Agent落地打下良好基础。垂直数据有助于Agent形成个性化的能力,AI部署于终端有助于实现个性化和安全性的良好结合。以AIPC为例,通过AI能力的本地化部署,使PC拥有持续学习能力、提供个性化并保护用户隐私的服务、配备知识库适应用户需求以及可自然交互。AIPC能够根据用户使用习惯、行为和喜好进行自适应和优化为用户在操作过程中提供更多的个性化建议和支持。AIPC在终端侧进行运算,能够提供更多的情境信息,如用户的移动状态、个人偏好和设备上的多媒体信息。基于终端的本地数据,Agent能够提供更加个性化的服务,本地处理也有助于保障数据的安全性,综上,我们认为终端AI能力的加强有利于Agent落地加速。



智能手机:SiriApple Intelligence重要交互入口。在智能手机领域,语音交互助手为AI重要的人机交互入口,有望成为Agent落地C端的重要场景。据Apple WWDC,Siri用户每天发出的语音请求数量高达15亿次。在Apple Intelligence的支持下,更加智能和自然,并且除了语音,也加入了文字交互能力。1)Siri目前具有更好的语言理解能力,即使表述不清或者多次表述,Siri也能识别用户意图。2)Siri也能做“视觉推理”,Apple称之为“屏幕感知”,可以理解屏幕上的内容并对其采取行动。3)Siri能在保障隐私情况下,利用用户设备上信息的了解来帮助找到正在寻找的内容,如短信、邮件。4)在应用程序内和跨应用程序无缝地执行操作。例如美化照片后,将照片放到备忘录的某条记事中。未来随着Siri逐步接入多步骤任务处理等功能,有望推动智能手机端Agent的落地。



端侧模型发展有助于Agent落地终端。以Apple Intelligence为例,其中基础模型进行各种下游任务微调,得到适合不同下游任务的一组独立模型;通过Adapter微调方法,得到模型权重的小集合,叠加在公共基础模型上,让基础模型能够选择需要的能力;最后通过压缩模型到适合端侧的大小,使用优化算法加速推理,实现在端侧落地。对比Agent的技术架构,往往也需要基础模型和小模型的共同支撑,我们认为端侧模型技术的发展(模型压缩等技术)有助于Agent落地于终端。



总结:从AI Agent有望逐步通向AGI

基础模型能力提升+工作流接入有望加快AI Agent商业化从Agent的发展看,人类在逐步强化程序的自动化、智能化程度。在AI Agent的尝试中,应用厂商结合深度学习等算法、知识图谱、RPA等技术实现了部分的自动化,其核心是在存量知识的基础上,实现由程序自主解决部分问题。LLM的出现是这一框架下的重要突破,LLM通过预训练吸收知识,以大量参数存储知识,通过Transformer的注意力机制,实现了对存量知识吸收理解效率的进一步提升。在解决问题的过程中,相较于传统的RPA等基于规则的自动化方式,体现出了更强的灵活性。我们认为随着基础模型能力的进一步提升,AI Agent在任务规划中的灵活性、在知识吸收运用的效率方面的上限或将进一步提升。在当前的基础模型能力下,若将AI Agent与工作流进一步结合,在工作流程中嵌入AI Agent实现部分问题的智能+自动化解决,AI Agent实用性或将进一步改善,商业化或进一步加速。



LLMAI AgentAGI据《On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence》(2022),智能的原则包括简约性、自洽性。其中简约性要求要求系统通过计算有效的方式来获得紧凑和结构化的表示,自洽性要求自主智能系统通过最小化被观察者和再生者之间的内部差异来寻求最自洽的模型来观察外部世界。我们认为LLM以黑盒的方式实现了知识的高效吸收,通过人类对齐实现了自洽性;基于LLM的AI Agent在LLM基础上能够通过工作流方式引入人类对齐实现自洽,通过垂直数据强化特定领域的知识能力;而随着知识压缩的效率的进一步提升(Scaling Laws或白盒大模型等方式),打造闭环系统完成对知识的验证,未来有望逐步实现AGI。


相关公司梳理

从当前AI Agent的进展看,在理论研究中发现通过CoT(思维链)、ReAct(推理+行动)等方式能够完成部分的任务规划,且长期看通过AI Agent或有望进一步走向整体智能;在实践中,通过将AI助手嵌入工作流也已打造出基于特定数据、场景的Agent产品雏形,我们认为随着:1)底层大模型能力的提升;2)Agent+工作流的工程化实践深入,AI Agent能力有望进一步提升,或将推动AI商业化进程加速,建议重点关注AI应用与终端产业链公司,具体包括:1)协同办公厂商:2)垂直应用厂商:3)终端厂商。


具体公司名单请见研报原文


风险提示

模型能力进步不及预期。AI Agent需要底层大语言模型(LLM)提供能力支持,LLM增强了Agent获取信息,学习的能力,并且使Agent获得了规划的能力,若底层模型能力的进步不及预期,Agent可能存在能力进步缓慢的风险,对于更进一步的复杂任务可能无法完成,影响AI Agent产品的推广速度。


安全性风险。AI Agent当前在编程、文本生成等细分场景已实现较好的落地效果,可应用于程序实现,媒体宣传等领域。虽然目前多数模型厂商在模型设定中加入了针对安全性的保护机制,但若相关机制失效,AI Agent被不当使用,可能产生虚假、有害信息,存在安全方面的风险。


本研报中涉及到未上市公司和未覆盖个股内容,均系对齐客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询