我要投稿

Agent的五重境界

发布日期：2025-03-15 14:09:58 浏览次数： 3084 作者：小研聊AI

从LLM取得突破以来，技术社区对agent的探索从未停步，过去两三年我们不断见证各类agent showcase的出现，每次都引发热烈讨论，大家满怀激情地认为agent奇点已来，但后来又会失望，觉得离实际落地还远，两种声音始终都会并存，这也符合技术发展的规律。今天之所以写这篇文章是因为确实看到agent已经发展到了一个阶段性的milestone，在这个节点上我们需要搞清楚自己今时今日身处何处，以及前方的路。

01 Agent发展的五重境界

第一阶段：工具型agent框架 (Tool-based Agent Frameworks)

工具型agent框架是在ChatGPT横空出世后同时期出现的，当时LLM刚刚展现出强大的文本生成能力，但其应用仍局限于纯文本环境，prompt engineering初步发展。为了实现语言模型与外部工具的基础连接机制，开发者们采用了预定义工具集、简单决策树、基本记忆管理实现了有限的自主性，代表性工作有LangChain、BabyAGI、AutoGPT早期版本等。

局限：LLM被限制在“笼子”里，严重依赖人工定义的工具和流程，灵活性低。

第二阶段：认知型agent (Cognitive Agents)

认知型agent的发展伴随着更强大语言模型如GPT-4的出现。这一阶段的关键驱动因素包括：新一代LLM的推理、规划和反思能力初见端倪，思维链(Chain-of-Thought)技术取得初步突破，使模型能够展示详细推理过程。开发者们通过适当设计的prompt和反馈循环，让LLM展现出初步的语言模型可以展现出初步的规划能力、反思机制、内部思维过程和自我修正。这个时期的典型代表工作有ReAct框架、Reflexion系统、Inner Monologue代理。

局限：环境交互能力有限，主要在思维层面运作，推理深度受限，复杂推理链中仍然存在"走神"和逻辑断裂问题，自我修正能力不稳定难以维持长期目标，在延伸任务中容易偏离原始目标。

第三阶段：环境交互agent (Environment-Interacting Agents)

环境交互agent的发展始于2023年中，这一时期的关键技术驱动包括多模态模型的突破，GPT-4V让agent能够"看见"环境了，浏览器自动化技术提供了与网络环境交互的标准化接口，开发者们开始尝试让agent去做一些界面理解、环境导航、执行复杂操作序列等任务。这个时期的代表工作有AutoGPT高级版、BrowserGPT、Adept ACT-1、Open Interpreter等。

局限：通常专注于特定领域，缺乏跨域集成能力。

第四阶段：自主agent (Autonomous Multimodal Agents)

自主agent的发展始于2024年初，这一阶段的关键驱动因素包括多模态大模型的普及，长上下文窗口的突破，支持数十万甚至数百万token的上下文窗口长度，agent开发工具和平台趋于成熟。开发者们开始探索真正具有自主性的agent系统，能够实现高级规划架构、动态环境适应、长期目标维持和自适应学习。这个时期的代表工作有Devin、OpenHands等。

局限：资源消耗大，稳定性和一致性挑战。

第五阶段：端到端通用agent (End-to-End General Agents)

在发布Deep Research后OpenAI团队在接受采访时提到Deep Research是o3模型的强化微调版本，它是一个端到端agent。o1之后大模型行业全面步入reasoning model时代，基础模型能力持续提升，越来越强大的基础模型内化了更多能力，agent可以无需专门框架支持，完全自主地规划和执行，能持续学习和自我改进能力，能够自主设定和调整目标，它最终将成为AGI的实际应用形式。

02 再谈agent四要素

2023年，前OpenAI应用研究主管Lilian Weng曾在其博文中提出agent定义和四大核心要素，时间来到2025年，AI发展日新月异，四大要素均发生了很大的变化，让我们一起来看看。

1. Planning

Planning目前是四要素中发展最快的能力，o1、R1的突破让大语言模型展现出内生的思维链（Chain-of-Thought）能力，可以针对复杂任务生成多步流程，不依赖于提示工程和模板，以及手工编写规则或有限的决策树。

未来的技术演进方向：1.自适应与动态规划：未来 agent 将朝着能根据环境和任务变化自动进行实时重规划的方向演进，具备自我纠错和动态调整策略的能力。2.层次化Planning：构建多层次规划结构，整合微观决策和宏观规划，实现全局与局部的协同优化。

2. Memory

对大模型在 Memory 方面的研究主要聚焦于RAG和长上下文窗口技术，长上下文在过去两三年里已经取得了显著的进展，不过相对于多模态、agent以及reasoning等高阶能力的迫切需求，目前的窗口长度还是远远不够，不然就不会出现大模型在解决长逻辑链深度推理和视频生成一致性上的捉襟见肘，肉眼可见各大模型厂商在 Memory 领域的投入势必会持续加码。

同时，市场上也出现了一些专注于 Memory 中间件的创业公司，如 Mem0、Letta 等，试图为解决长期记忆提供一些解决方案。未来我们仍需解决长期记忆内嵌与持久化、动态记忆管理与智能检索，以及多模态记忆整合等问题，最佳路径仍是通过模型内化来解决。

3. Tool use & Action

当前的agent系统通常预先集成了一组工具或 API，能根据任务需求调用特定外部服务来完成搜索、数据查询、翻译等任务，还不能够根据任务需求动态选择和灵活组合工具。

衡量模型理解用户意图调用工具执行命令能力的测试集叫TAU-bench，用于评估 AI Agent 在现实世界场景中性能和可靠性的基准测试。TAU-bench 设计了两个领域场景TAU-bench(Airline)，模拟用户在航空业务场景下进行航班查询、预订、改签、退票、机场服务等操作，和TAU-bench(Retail)，模拟在零售场景中进行购物咨询、商品推荐、订单修改、退货换货等操作。目前agentic能力最强的Claude 3.7 在零售领域问题解决率为81%，航空领域只有58%，航空领域一些 case 涉及非常多的查询、匹配航班信息、金额计算、行李/支付/退换多步操作，难度还是很大的。另外这个测试集还定义了一个pass^k 的指标，即多次稳定通过的概率，可以看到每个模型的稳定性都不是很好，所以并不能期望它在复杂的场景、多轮交互中很稳定地理解意图做出正确的行动，这是现状。

在agent四要素中，tool use和take action能力发展确实滞后其他两个要素，让模型发展脑子更容易，让模型长出手和脚更难。大模型的能力发展次序与我们人类是相反的，我们出生后先发展自己的身体，学会走路，学会用手操作，再识字学知识，再发展高层逻辑思维能力。模型是先学知识，然后发展思维能力，然后再学会computer use，最后才是物理世界的具身。

未来的技术演进方向：从目前看模型的tool use和take action能力都是离散和独立的调用，也就是说任务决策和具体执行往往是分开的过程，只有OpenAI Deep Research是连续动态决策，它会根据每一次搜索结果实时调整下一次搜索方向，它是边搜边想、边想边搜，不断接近目标，直至问题解决，这是端到端RL带来的好处。更进一步地，我们希望模型未来能够根据环境反馈实时调整行动策略，能够自主学习和迭代工具调用，甚至能发现并整合新的外部工具接口。

03 Agent构建范式的变化

从LLM取得突破以来，我们就从未停止过对agent的探索，我们希望模型不只是“缸中之脑”，而能成为一个完全自主的系统，在较长时间内独立运行，并能完成复杂任务。在agent的五个发展阶段中，agent的每一次重要进展都是由模型能力迭代带来的。去年12月是一个范式变化的开端，o1发布后OpenAI研究科学家Noam Brown的演讲视频流出，他谈到workflow是all structure-based things，它只有短期价值没有长期价值，最终会被模型inherent capabilities取代，我们要做的就是让模型像人一样思考，to think freely！无独有偶，Anthropic也发布了一篇关于如何建立有效Agent的博客，提到workflow和agent是两种不同的架构，workflow是通过预定义的代码路径编排LLM和工具的系统，而agent是LLM动态指导自己的过程和工具使用的系统，保持对它们如何完成任务的控制。我们不需要构建agent系统，因为这些抽象层可能会掩盖底层的提示和响应，建议开发人员从直接使用LLM API开始。这些都告诉我们，模型能力已经发展到我们可以通过激发它的内在能力去解决实际问题的时候了。其实reasoning model的推理能力就是RL激发出来的，pre-train把知识学进去，post-train把能力激发出来，现在做应用也是把模型能力激发出来。这条路走到底就成了端到端，OpenAI Deep Research就是o3做reinforcement fine-tuning得到的模型，它也是agent，它也是产品。

今天reasoning model的正确使用方式已经不再是借助哪些prompt模板了，你不必再step by step地教它了，你应该描述清楚任务和目标，让模型自己去thinking去输出CoT，也就是说你定义好任务的起点和终点，中间的trajectory让模型自己去搜索。当然这个过程不会那么容易，它会翻车，它会天马行空，它会浪费一堆token最后完不成任务，这个过程会令你沮丧和气馁，然后你又想重新去用回那些框架和模板，就像一个不开窍的熊孩子，怎么也教不会，不如直接把正确答案告诉他让他背下来算了。但是我想说请多一些耐心，don't teach, incentivize，你可以给它一些引导，或者在中间节点给一些reward，或者在关键步骤增加verifier，最终它会既达成你给的objective（目标），又保持相当的generalization（泛化性）。

当然有人会说那这样的话，能力都是模型的，应用层就没有壁垒了呀。你把模型的能力adapt到你的场景里本身就是壁垒呀，不信你试试，现在reasoning model推理能力都这么强了，你不在chat对话框里使用，你直接把它应用到你的场景里做agent，你不用workflow、不用structure，就释放模型本身的智能，你看看它能不能完全满足你的要求。如果未来有一天具备博士能力的模型API唾手可得且价格便宜，你觉得你就有能力用好它了吗？如果你招了个博士进来，你也要花很长时间跟他磨合，跟他align你的目标、愿景、价值观，才能把他的能力为我所用。毕竟我们的工作场景不是数学题，没有标准答案，你的guideline怎么给，你的reward怎么给都是技术活，你还得经常跟它对齐，防止它投机取巧或者跟你目标不一致。你觉得培养一个听话出活的骨干员工容易吗？那你凭什么认为驾驭一个模型就容易呢？

04 2025我们在期待什么

最近引发大家热烈关注的Menus，他们的团队一直在提这个理念：Less structure, more intelligence，这是一种非常美的技术哲学。Monica团队最开始先从chrome浏览器插件开始，在ChatGPT爆火后在web端获得了流量，之后发展成产品矩阵，做了一系列套壳工具，在这个过程中积累了宝贵的数据，之后又尝试了AI浏览器，但因觉得不是AI原生的交互方式而放弃，最终成功转型agent产品。有人说他们的产品是缝合怪，但我觉得最重要的是他们用Qwen post-train了一些小模型，恰好弥补了大模型的一部分能力不足，使得agent在执行端效果上了一个台阶。用大模型+小模型以及multi-agent的方式已经有很多团队在做，但单纯用脚手架或封装的方式提升有限，最终证明agent的能力瓶颈还是模型。Monica团队能做post-train的工作跟之前的数据积累是分不开的，信息搜索、数据整理、图表生成、coding agent都是之前做过的工具，browse use是做AI浏览器时积累下来的功能，如今也都丝滑地整合进了现在的产品里。没有一步路是白走，每一步都算数，所以肖弘说“壳有壳的价值”。他们用自己的小模型补足了大模型目前在tool use和action方面尚存的缺陷，相当于把下一代大模型的一部分能力提前给到我们了，也让我们看到了模型进化的方向，我们有理由相信当大模型将这些能力进一步内化的时候，agent未来可期。

前段时间Jina AI写了一篇文章
《DeepSearch 与 DeepResearch 的设计和实现》，且Jina DeepSearch 前后端均已开源，做技术的同学应该好好看看，文章评论中有这样一段话值得细品。如果你是OpenAI，你当然可以花钱请专家给你标注数据，然后端到端做微调，如果你没有那么多钱，你也可以手搓产品，把它当成数据标注器。如果未来模型再进步，那这些positive practice和failure case数据就是reward呀。

也许有人会说如果我不是deepseek团队，训不了前沿模型，我也不是Monica、Jina团队，做不出好产品，那我该怎么办呢？那你就尽可能地把你的业务数字化、在线化，收集experience data存下来，如果你相信技术的力量，相信模型迭代的速度，那你应该相信迟早有一天它们会有用，那时你只管给reward，剩下的交给模型。关于什么是experience data，“强化学习之父” Richard S. Sutton，也是《A Bitter Lesson》的作者，在演讲中有一段话，

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业