微信扫码
添加专属顾问
我要投稿
探索大语言模型智能体的未来,见证下一代技术的突破。 核心内容: 1. OpenAI DeepResearch和Claude Sonnet 3.7在智能体领域的重大进展 2. 大语言模型智能体与工作流系统的区别及其局限性 3. 智能体研究的历史背景和未来展望
如今,智能体无处不在。然而,在大语言模型智能体研究领域中,一项最为关键的研究进展却几乎未受到关注。
2025 年 1 月,OpenAI 发布了 DeepResearch,这是 O3 的一个专门版本,用于网页和文档搜索。得益于 “针对这些浏览任务的强化学习训练”,DeepResearch 获得了规划搜索策略的能力,能够根据中间反馈对查询内容,交叉参考各种来源信息以及相关的专业知识。Claude Sonnet 3.7 似乎成功地将同样的方法应用于代码领域。仅该模型本身,在处理复杂的编程任务序列时,就超越了以往模型的现有编排方式。
简而言之,正如威廉・布朗(William Brown)所说:“大语言模型智能体能够胜任长时间的多步骤任务。”
这一进展引发了一个问题:大语言模型智能体究竟是什么?去年 12 月,Anthropic 公司公布了一个新的定义:“在这类系统中,大语言模型能够动态地指导自身的处理过程以及工具的使用,并对任务的完成方式保持控制。”
相比之下,更为常见的智能体系统形式被视为工作流,即 “通过预定义的代码路径来编排大语言模型和工具”。最近备受关注的 Manus AI 就完全符合这一定义。我在周末进行的所有测试都显示出工作流系统存在着同样的基本局限性,这些局限性在 AutoGPT 时代就已经很明显了,尤其是在搜索方面表现得尤为突出:
它们无法进行规划,并且常常会在毫无头绪的情况下陷入困境。
它们无法记忆信息,并且很难持续执行任务超过 5 到 10 分钟。
从长远来看,它们无法有效地采取行动。由于错误的累积效应,一系列的行动往往会失败。
这篇文章以大语言模型智能体的一个新的、强有力的定义作为出发点。它在总结我们目前所了解的情况方面尽了最大努力,这些信息综合了来自大型实验室的有限信息、开放研究生态系统中不断涌现的复现成果,以及一些个人推测。
智能体的概念几乎与基础语言模型完全冲突。
在经典的智能体研究中,智能体存在于受限的环境中。比如你在一个迷宫里,你可以朝这个方向移动,但不能朝那个方向移动。而且你不能飞,不能钻到地下,也不能凭空消失。你受到物理规则的限制,并且可能还受到游戏规则的限制。在这种情况下,任何实际的智能体仍然可以享有一定程度的自由,因为解决一个游戏往往不止一种方法。然而,每一步行动都必须在以获胜并获得最终奖励为前提下去构思。高效的智能体会逐渐记住过去的行动,并精心制定行动模式和启发式方法。
这个过程被称为 “搜索”。这是一个非常恰当的比喻:智能体在迷宫中的探索行动,与网络用户在搜索引擎上的点击模式完全类似。关于搜索的研究已有数十年的历史:值得注意的是,曾经有传言称,OpenAI 新一代模型背后的算法 Q-star(目前尚不清楚……),是 1968 年的一种搜索算法 A-Star 的衍生算法。近期,Pufferlib 进行的《宝可梦》训练实验就是这一过程的一个很好的例子:我们看到智能体们在切实地搜索最优路径,不断失败,反复尝试。
PufferLib 进行的《宝可梦》强化学习实验
基础语言模型的工作方式几乎完全相反:
智能体会记住它们所处的环境。基础模型则不会,它们只能对其上下文窗口内的可用信息做出反应。
智能体受到有限理性的约束。基础模型会生成任何可能的文本。虽然这可能会产生实际一致的推理结果,但并不能绝对保证,并且模型在纯粹出于美观的操作下随时可能偏离正确的方向。
智能体可以制定长期策略。如果设计得当,它们可以提前规划行动步骤,或者回溯之前的步骤。语言模型能够执行单步推理任务,但在进行多步推理时很快就会达到饱和状态。总体而言,它们受到文本规则的限制,而不是物理规则或游戏规则的限制。
一种简单的将大语言模型与智能体化相结合的方法,就是通过预先准备好的提示和规则来简单地预定义它们的输出。这是大多数大语言模型智能体系统所采用的方法,但必然会遭遇…… 理查德・萨顿(Richard Sutton)提出的惨痛教训。惨痛教训有时会被误认为是某种预训练语言模型的指南。它实际上主要是关于智能体,以及将知识融入并硬编码到模型中的诱惑。如果你看到一堵墙,就避开它,朝另一个方向走。如果你看到太多的墙,就往回走。短期内,这是不错的方法,你会立即看到改进,而且不必永远运行算法就能看到效果。然而,从长远来看,你必然会总是找到次优的解决方案,或者陷入意想不到的情况:
我们必须吸取这个惨痛的教训,即从长远来看,将我们认为的思考方式内置到模型中是行不通的。这个惨痛教训基于以下历史观察:1)人工智能研究人员常常试图将知识构建到他们的智能体中;2)这在短期内总是有帮助的,并且会让研究人员个人感到满足;但 3)从长远来看,它会达到瓶颈,甚至阻碍进一步的进展;4)最终的突破性进展往往是通过一种相反的方法实现的,即基于通过搜索和学习来扩展计算能力。最终的成功伴随着苦涩的滋味,并且常常没有被完全理解,因为这是对一种受人青睐的、以人类为中心的方法的胜利。
现在,让我们将这个教训应用到目前大语言模型在实际生产中的使用方式上。像 Manus 这样的工作流,或者你常用的大语言模型包装器,目前都在 “构建知识”。它们通过一系列预先准备好的提示来引导模型。这可能是短期内最恰当的解决方案 —— 毕竟你不必重新训练模型。但这并不是最优的解决方案。最终,你创建的是某种生成式人工智能和基于规则的系统的混合体,即一套 “思考思维内容的简单方法,例如思考空间、物体、多个智能体或对称性的简单方法”。
让我们明确一点。如果 Manus AI 无法正确预订机票,或者无法提供徒手与老虎搏斗的建议,这并不是因为它设计得不好。它只是受到了惨痛教训的影响。提示无法扩展。硬编码的规则也无法扩展。你需要从头开始设计能够搜索、规划和行动的系统。你需要设计真正的大语言模型智能体。
这又是一个难题。公开的信息很少。Anthropic、OpenAI、DeepMind 和其他少数几个实验室掌握着相关知识。到目前为止,我们只能依靠少量的官方信息、非官方的传言以及一些有限的开放研究尝试。
以上是基本的组成部分。现在,从这些组成部分到 OpenAI 的 DeepResearch 以及其他能够处理长序列行动的新兴智能体,还有一段距离。请允许我进行一些推测。
开放的强化学习和推理研究大多集中在数学领域,因为事实证明我们拥有大量的数学习题集,其中一些包含在 Common Crawl 数据集中,并由 HuggingFace 通过分类器提取(即 FineMath)。对于许多领域,尤其是搜索领域,我们没有相关数据。因为我们需要实际的行动序列:日志、点击记录、行为模式。不久之前,我曾从事日志分析工作。当时的模型(仍然使用马尔可夫链,不过,嘿,这个领域变化很快……)仍然经常使用 20 世纪 90 年代末美国在线(AOL)泄露的数据进行训练(!)。最近,该领域至少添加了一个关键的开放数据集:维基百科点击流,这是一组经过匿名处理的从一篇维基百科文章到另一篇文章的路径数据。现在,我问你一个简单的问题:这个数据集在 HuggingFace 上有吗?没有。实际上,在 HuggingFace 上几乎没有真正的智能体数据,也就是说这些数据无法赋予模型规划能力。整个领域仍然基于这样一种假设,即大语言模型需要与定制的基于规则的系统进行编排。我不确定 OpenAI 或 Anthropic 是否也拥有足够数量的此类数据。至少在这一领域,传统科技公司拥有强大的优势,而且没有简单的替代方案:你无法购买谷歌用户查询的庞大数据集(除非它在暗网上以某种方式被泄露了)。
有一种解决方法:通过模拟直接生成数据。经典的强化学习模型不需要过去的示例。它们通过广泛而反复的搜索来推断约束条件和全面的策略。一旦将其应用于搜索领域,典型的强化学习方法与游戏强化学习方法不会有太大差异:让模型自由地进行搜索,每当它找到正确答案时就给予奖励。这可能是一个非常漫长的过程。例如,你需要找到存储在 20 世纪 60 年代一篇被遗忘的苏联论文中的一个非常特定的化学实验。通过纯粹的暴力搜索,也许可以强制进行一些语言查询的变化,模型最终会偶然找到正确的结果。然后,如果它能够汇总导致这一结果的所有因素,那么在未来找到类似结果的可能性就会增加。
让我们做一些计算。在典型的强化学习设计中,比如说通用相对策略优化(GRPO),你可以同时处理 16 个草稿 —— 如果大型实验室训练的模型使用了更高数量的草稿迭代,我也不会感到惊讶。每个草稿可能会依次浏览至少 100 个不同的页面。这就意味着有 2000 个潜在的查询,而这仅仅是…… 一步。一个复杂的强化学习训练序列可能需要进行数十万步(我认为这就是为什么现在它接近中等规模训练的原因之一),并且需要各种示例,尤其是对于像通用搜索能力这样复杂的任务。你所看到的是,一个训练序列需要数亿次的单独连接 —— 并且在此过程中可能会对一些热门的学术资源造成分布式拒绝服务(DDoS)攻击。这…… 并不理想。带宽,而不是实际的计算能力,成为了你的主要限制因素。
游戏强化学习也面临着类似的限制。这就是为什么像 Pufferlib 这样的先进方法会 “包装环境,使其从学习库的角度看起来像《雅达利》游戏,而不会失去一般性”:强化学习模型只需要看到它们需要使用的东西。一旦将其应用于搜索领域,这可能涉及利用大型的 Common Crawl 数据集,并像通过网络处理数据一样发送数据,包括网址、应用程序编程接口(API)调用和其他典型的超文本传输协议(HTTP)相关元素。同时,数据已经存在于本地数据帧中,并且具有快速查询的能力。
所以,我预计一个用于搜索的典型大语言模型强化学习智能体可以通过以下方式进行训练:
最终,我们拥有了一个真正的智能体模型。与标准的工作流或模型编排相比,在实际应用中它会带来哪些变化呢?仅仅是整体质量更好吗?还是一种完全不同的范式呢?
让我们回到 Anthropic 公司的定义:大语言模型智能体 “能够动态地指导自身的处理过程以及工具的使用,并对任务的完成方式保持控制”。我将再次以我比较熟悉的一个用例为例:搜索。
关于检索增强生成(RAG)的消亡以及它被具有长上下文的直接大语言模型使用所取代,已经有很多猜测。但由于多种原因,这种情况并没有发生:长上下文在计算上成本高昂,除了相对简单的查找之外并不那么准确,并且输入的可追溯性很差。真正的智能体搜索大语言模型不会淘汰检索增强生成。现实中可能发生的情况是,在很大程度上实现其自动化,并将向量存储、路由、重新排序等所有复杂问题整合在一起。一个典型的搜索过程可能会以以下方式进行:
简而言之,搜索过程是直接设计的。大语言模型智能体接受现有的搜索基础设施,并尽其所能地找到最佳解决方案。无需立即进行额外的数据准备。也无需训练用户与生成式人工智能系统进行交互。正如蒂姆・伯纳斯 - 李(Tim Berners-Lee)十多年前强调的那样:“思考 [智能体] 的一种方式是,在每种情况下,程序都能准确地执行用户在被具体询问时希望它执行的操作。”
现在,为了更清楚地了解实际投入生产的大语言模型智能体,你可以开始将这种方法应用到其他领域。一个真正的网络工程智能体同样能够直接与现有的基础设施进行交互,根据需求(路由器、交换机、防火墙)生成设备配置,分析网络拓扑结构并提出优化建议,或者解析错误日志以确定网络问题的根本原因。一个真正的金融智能体将经过训练,能够无缝且准确地转换相互竞争的数据标准(例如从 ISO 20022 转换为 MT103)。目前,使用一组系统提示无法完成上述任何任务。
目前,只有大型实验室有能力开发真正的大语言模型智能体。它们掌握着所有的关键要素:专业知识、部分数据(或者至少有合成数据的方法),以及将其模型转化为产品的整体愿景。我不确定这种技术集中是否是一件好事,不过,由于资金生态系统不愿意将实际的模型训练视为从长远来看真正的颠覆性力量和价值创造的来源,这在很大程度上助长了这种技术集中的现象。
我一般不喜欢过分夸大事物。然而,鉴于大语言模型智能体在带来变革以及创造价值方面有着巨大的潜力,我确实认为,让真正的大语言模型智能体的训练和部署实现普及化正迅速成为至关重要的事情。所以,开放验证器、通用相对策略优化(GRPO)训练样本,而且或许很快,还会开放复杂的合成管道和模拟器。
2025 年,会是智能体之年吗?仍有可能。让我们拭目以待最终的结果吧。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-30
专利答复3天→3小时!AI神器Claude 3.7如何让审查员秒批你的申请?
2025-03-30
专利看不懂、筛选困难?Claude 3.7/DeepSeek让专利分析效率暴增10倍!
2025-03-30
MCP 很火,来看看我们直接给后台管理系统上一个 MCP?
2025-03-30
多智能体系统:解锁复杂问题的“超级大脑”
2025-03-30
AI大模型如何赋能AI Agent开发与部署
2025-03-29
揭秘MCP:AI大模型的万能接口,开启智能新时代
2025-03-29
代理工作流(Agentic Workflows)解析
2025-03-29
Claude“大脑”被Anthropic扒开了: 让我们一起看看TA是如何思考的~~
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-30
2025-03-30
2025-03-28
2025-03-27
2025-03-27
2025-03-27
2025-03-27
2025-03-26