我要投稿

可被训练的真正的大模型智能体即将问世

发布日期：2025-03-24 21:56:58 浏览次数： 1708 作者：人工智能前线

如今，智能体无处不在。然而，在大语言模型智能体研究领域中，一项最为关键的研究进展却几乎未受到关注。

2025 年 1 月，OpenAI 发布了 DeepResearch，这是 O3 的一个专门版本，用于网页和文档搜索。得益于 “针对这些浏览任务的强化学习训练”，DeepResearch 获得了规划搜索策略的能力，能够根据中间反馈对查询内容，交叉参考各种来源信息以及相关的专业知识。Claude Sonnet 3.7 似乎成功地将同样的方法应用于代码领域。仅该模型本身，在处理复杂的编程任务序列时，就超越了以往模型的现有编排方式。

简而言之，正如威廉・布朗（William Brown）所说：“大语言模型智能体能够胜任长时间的多步骤任务。”

这一进展引发了一个问题：大语言模型智能体究竟是什么？去年 12 月，Anthropic 公司公布了一个新的定义：“在这类系统中，大语言模型能够动态地指导自身的处理过程以及工具的使用，并对任务的完成方式保持控制。”

相比之下，更为常见的智能体系统形式被视为工作流，即 “通过预定义的代码路径来编排大语言模型和工具”。最近备受关注的 Manus AI 就完全符合这一定义。我在周末进行的所有测试都显示出工作流系统存在着同样的基本局限性，这些局限性在 AutoGPT 时代就已经很明显了，尤其是在搜索方面表现得尤为突出：

它们无法进行规划，并且常常会在毫无头绪的情况下陷入困境。
它们无法记忆信息，并且很难持续执行任务超过 5 到 10 分钟。
从长远来看，它们无法有效地采取行动。由于错误的累积效应，一系列的行动往往会失败。

这篇文章以大语言模型智能体的一个新的、强有力的定义作为出发点。它在总结我们目前所了解的情况方面尽了最大努力，这些信息综合了来自大型实验室的有限信息、开放研究生态系统中不断涌现的复现成果，以及一些个人推测。

简单大语言模型智能体的惨痛教训

智能体的概念几乎与基础语言模型完全冲突。

在经典的智能体研究中，智能体存在于受限的环境中。比如你在一个迷宫里，你可以朝这个方向移动，但不能朝那个方向移动。而且你不能飞，不能钻到地下，也不能凭空消失。你受到物理规则的限制，并且可能还受到游戏规则的限制。在这种情况下，任何实际的智能体仍然可以享有一定程度的自由，因为解决一个游戏往往不止一种方法。然而，每一步行动都必须在以获胜并获得最终奖励为前提下去构思。高效的智能体会逐渐记住过去的行动，并精心制定行动模式和启发式方法。

这个过程被称为 “搜索”。这是一个非常恰当的比喻：智能体在迷宫中的探索行动，与网络用户在搜索引擎上的点击模式完全类似。关于搜索的研究已有数十年的历史：值得注意的是，曾经有传言称，OpenAI 新一代模型背后的算法 Q-star（目前尚不清楚……），是 1968 年的一种搜索算法 A-Star 的衍生算法。近期，Pufferlib 进行的《宝可梦》训练实验就是这一过程的一个很好的例子：我们看到智能体们在切实地搜索最优路径，不断失败，反复尝试。

PufferLib 进行的《宝可梦》强化学习实验

基础语言模型的工作方式几乎完全相反：

智能体会记住它们所处的环境。基础模型则不会，它们只能对其上下文窗口内的可用信息做出反应。
智能体受到有限理性的约束。基础模型会生成任何可能的文本。虽然这可能会产生实际一致的推理结果，但并不能绝对保证，并且模型在纯粹出于美观的操作下随时可能偏离正确的方向。
智能体可以制定长期策略。如果设计得当，它们可以提前规划行动步骤，或者回溯之前的步骤。语言模型能够执行单步推理任务，但在进行多步推理时很快就会达到饱和状态。总体而言，它们受到文本规则的限制，而不是物理规则或游戏规则的限制。

一种简单的将大语言模型与智能体化相结合的方法，就是通过预先准备好的提示和规则来简单地预定义它们的输出。这是大多数大语言模型智能体系统所采用的方法，但必然会遭遇…… 理查德・萨顿（Richard Sutton）提出的惨痛教训。惨痛教训有时会被误认为是某种预训练语言模型的指南。它实际上主要是关于智能体，以及将知识融入并硬编码到模型中的诱惑。如果你看到一堵墙，就避开它，朝另一个方向走。如果你看到太多的墙，就往回走。短期内，这是不错的方法，你会立即看到改进，而且不必永远运行算法就能看到效果。然而，从长远来看，你必然会总是找到次优的解决方案，或者陷入意想不到的情况：

我们必须吸取这个惨痛的教训，即从长远来看，将我们认为的思考方式内置到模型中是行不通的。这个惨痛教训基于以下历史观察：1）人工智能研究人员常常试图将知识构建到他们的智能体中；2）这在短期内总是有帮助的，并且会让研究人员个人感到满足；但 3）从长远来看，它会达到瓶颈，甚至阻碍进一步的进展；4）最终的突破性进展往往是通过一种相反的方法实现的，即基于通过搜索和学习来扩展计算能力。最终的成功伴随着苦涩的滋味，并且常常没有被完全理解，因为这是对一种受人青睐的、以人类为中心的方法的胜利。

现在，让我们将这个教训应用到目前大语言模型在实际生产中的使用方式上。像 Manus 这样的工作流，或者你常用的大语言模型包装器，目前都在 “构建知识”。它们通过一系列预先准备好的提示来引导模型。这可能是短期内最恰当的解决方案 —— 毕竟你不必重新训练模型。但这并不是最优的解决方案。最终，你创建的是某种生成式人工智能和基于规则的系统的混合体，即一套 “思考思维内容的简单方法，例如思考空间、物体、多个智能体或对称性的简单方法”。

让我们明确一点。如果 Manus AI 无法正确预订机票，或者无法提供徒手与老虎搏斗的建议，这并不是因为它设计得不好。它只是受到了惨痛教训的影响。提示无法扩展。硬编码的规则也无法扩展。你需要从头开始设计能够搜索、规划和行动的系统。你需要设计真正的大语言模型智能体。

强化学习 + 推理：成功的秘诀

这又是一个难题。公开的信息很少。Anthropic、OpenAI、DeepMind 和其他少数几个实验室掌握着相关知识。到目前为止，我们只能依靠少量的官方信息、非官方的传言以及一些有限的开放研究尝试。

与经典智能体类似，大语言模型智能体是通过强化学习进行训练的。存在一个 “迷宫”：所有可能用来描述某事物的潜在词汇。存在一个最终的出路或 “奖励”。检查是否获得奖励的过程被称为验证器 —— 这正是威廉・布朗新的验证器库的全部目的。目前，验证器最好用于验证形式化的结果，比如数学方程式或编程序列。然而，正如卡洛马兹（Kalomaze）所展示的，通过训练专门的分类器，围绕并非严格可验证的输出构建验证器也是完全可行的。在这方面我们有一个重大的变化：语言模型在评估方面比在创造方面更出色。所以，即使使用小型的大语言模型作为评判器，你也可以在性能和整体奖励设计方面取得显著的提升。
大语言模型智能体是通过生成草稿、对生成的整篇文本进行评估来训练的。这并不是一个简单直接的选择，因为研究最初侧重于将搜索扩展到整个标记序列。计算限制是一个主要因素，同时，最近在开发 “推理” 模型方面取得的突破也起到了重要作用 —— 这些模型或许更适合被称为草稿生成模型。推理模型的典型训练序列包括让模型在假设产生正确答案的逻辑序列更正确的前提下，生成自己的逻辑序列。这可能会产生违反直觉的结果（最好的例子是 DeepSeek R0 模型偶尔会在英语和中文之间切换语言）。然而，以典型的惨痛教训的方式来看，强化学习只关心有效的方法，如果有需要，它会毫不犹豫地采用非正统或未计划的捷径。就像迷失在迷宫中的经典智能体一样，语言模型必须通过纯粹的推理练习找到出路。没有预定义的提示，没有指导方向，只有奖励和获得奖励的方法：这是对惨痛教训的苦涩解决方案。
大语言模型生成的草稿会被预定义为结构化的数据部分，以便于奖励验证，并在一定程度上简化整体推理过程。这是一种规则设计工程，可以直接作为奖励函数进行管理，或者，正如我认为在大型实验室的训练设置中更常见的那样，通过训练后的初始阶段来进行管理。
大语言模型智能体通常需要在大量的草稿上进行多步骤训练。这在搜索方面尤为典型：我们不会一次性评估搜索的结果，而是评估模型访问资源、获取结果、对结果进行阐述、获取另一个资源、再次阐述、改变计划、回溯等能力。出于这个原因，目前训练大语言模型智能体的首选方法是 DeepSeek 的通用相对策略优化（GRPO），尤其是与 vllm 的文本生成相结合。几周前，我基于威廉・布朗的工作发布了一个很受欢迎的代码笔记本，该笔记本成功地在通过谷歌 Colab 提供的一块 A100 GPU 上运行了 GRPO。计算需求的降低是一个重要因素，它将确保在未来几年里强化学习和智能体设计的普及。

等等…… 如何实现规模化呢？

以上是基本的组成部分。现在，从这些组成部分到 OpenAI 的 DeepResearch 以及其他能够处理长序列行动的新兴智能体，还有一段距离。请允许我进行一些推测。

开放的强化学习和推理研究大多集中在数学领域，因为事实证明我们拥有大量的数学习题集，其中一些包含在 Common Crawl 数据集中，并由 HuggingFace 通过分类器提取（即 FineMath）。对于许多领域，尤其是搜索领域，我们没有相关数据。因为我们需要实际的行动序列：日志、点击记录、行为模式。不久之前，我曾从事日志分析工作。当时的模型（仍然使用马尔可夫链，不过，嘿，这个领域变化很快……）仍然经常使用 20 世纪 90 年代末美国在线（AOL）泄露的数据进行训练（！）。最近，该领域至少添加了一个关键的开放数据集：维基百科点击流，这是一组经过匿名处理的从一篇维基百科文章到另一篇文章的路径数据。现在，我问你一个简单的问题：这个数据集在 HuggingFace 上有吗？没有。实际上，在 HuggingFace 上几乎没有真正的智能体数据，也就是说这些数据无法赋予模型规划能力。整个领域仍然基于这样一种假设，即大语言模型需要与定制的基于规则的系统进行编排。我不确定 OpenAI 或 Anthropic 是否也拥有足够数量的此类数据。至少在这一领域，传统科技公司拥有强大的优势，而且没有简单的替代方案：你无法购买谷歌用户查询的庞大数据集（除非它在暗网上以某种方式被泄露了）。

有一种解决方法：通过模拟直接生成数据。经典的强化学习模型不需要过去的示例。它们通过广泛而反复的搜索来推断约束条件和全面的策略。一旦将其应用于搜索领域，典型的强化学习方法与游戏强化学习方法不会有太大差异：让模型自由地进行搜索，每当它找到正确答案时就给予奖励。这可能是一个非常漫长的过程。例如，你需要找到存储在 20 世纪 60 年代一篇被遗忘的苏联论文中的一个非常特定的化学实验。通过纯粹的暴力搜索，也许可以强制进行一些语言查询的变化，模型最终会偶然找到正确的结果。然后，如果它能够汇总导致这一结果的所有因素，那么在未来找到类似结果的可能性就会增加。

让我们做一些计算。在典型的强化学习设计中，比如说通用相对策略优化（GRPO），你可以同时处理 16 个草稿 —— 如果大型实验室训练的模型使用了更高数量的草稿迭代，我也不会感到惊讶。每个草稿可能会依次浏览至少 100 个不同的页面。这就意味着有 2000 个潜在的查询，而这仅仅是…… 一步。一个复杂的强化学习训练序列可能需要进行数十万步（我认为这就是为什么现在它接近中等规模训练的原因之一），并且需要各种示例，尤其是对于像通用搜索能力这样复杂的任务。你所看到的是，一个训练序列需要数亿次的单独连接 —— 并且在此过程中可能会对一些热门的学术资源造成分布式拒绝服务（DDoS）攻击。这…… 并不理想。带宽，而不是实际的计算能力，成为了你的主要限制因素。

游戏强化学习也面临着类似的限制。这就是为什么像 Pufferlib 这样的先进方法会 “包装环境，使其从学习库的角度看起来像《雅达利》游戏，而不会失去一般性”：强化学习模型只需要看到它们需要使用的东西。一旦将其应用于搜索领域，这可能涉及利用大型的 Common Crawl 数据集，并像通过网络处理数据一样发送数据，包括网址、应用程序编程接口（API）调用和其他典型的超文本传输协议（HTTP）相关元素。同时，数据已经存在于本地数据帧中，并且具有快速查询的能力。

所以，我预计一个用于搜索的典型大语言模型强化学习智能体可以通过以下方式进行训练：

使用固定的数据集创建一个大规模的网络搜索模拟，并将数据持续 “转换” 回模型。
使用某种形式的轻量级监督微调（SFT）对模型进行预训练（就像 DeepSeek 的 SFT-RL-SFT-RL 步骤那样），也许可以基于任何能够找到的现有搜索模式。总体思路是对推理和输出进行预格式化，加快实际的强化学习训练速度 —— 这是一种预定义的规则设计工程。
准备或多或少复杂的查询，并将相关的结果作为验证器。我唯一的猜测是，这涉及到一些复杂的合成管道，包括对现有资源进行反向翻译，或者可能只是由博士级别的注释员进行非常昂贵的注释工作。
进行多步骤的实际强化学习训练。模型接收一个查询，启动搜索，接收结果，可以浏览一个页面或重新表述结果，所有这些都是分步骤进行的。从模型的角度来看，就好像它真的在浏览网页，但所有这些数据交换都是由搜索模拟器在后台预先准备好的。
也许一旦模型在搜索方面表现得足够好，就再进行一轮强化学习和监督微调，这次更侧重于编写最终的综合结果。我再次预计这涉及到一些复杂的合成管道，其中输出变成了输入：将原始的长篇报告切割成小块，并进行一些推理来将它们重新联系起来。

你不会再对智能体进行提示

最终，我们拥有了一个真正的智能体模型。与标准的工作流或模型编排相比，在实际应用中它会带来哪些变化呢？仅仅是整体质量更好吗？还是一种完全不同的范式呢？

让我们回到 Anthropic 公司的定义：大语言模型智能体 “能够动态地指导自身的处理过程以及工具的使用，并对任务的完成方式保持控制”。我将再次以我比较熟悉的一个用例为例：搜索。

关于检索增强生成（RAG）的消亡以及它被具有长上下文的直接大语言模型使用所取代，已经有很多猜测。但由于多种原因，这种情况并没有发生：长上下文在计算上成本高昂，除了相对简单的查找之外并不那么准确，并且输入的可追溯性很差。真正的智能体搜索大语言模型不会淘汰检索增强生成。现实中可能发生的情况是，在很大程度上实现其自动化，并将向量存储、路由、重新排序等所有复杂问题整合在一起。一个典型的搜索过程可能会以以下方式进行：

分析查询，对其进行分解，并对用户意图做出一些假设。
如果查询不清楚，可能会立即向用户返回提示（OpenAI 的 DeepResearch 已经在这么做了）。
然后，模型可以进行通用搜索，或者在适当的情况下，立即进行更专业的研究资源搜索。模型已经记住了标准的 API 方案，可以直接调用它们。为了节省推理时间，模型可能会优先依赖现有的 “模拟” 网络版本：API、网站地图以及庞大的网络数据生态系统。
搜索序列是经过学习和训练的。模型可以放弃错误的方向。或者它可以像专业的知识工作者一样采取其他路径。我在 OpenAI 的 DeepResearch 中看到的一些最令人印象深刻的结果就证明了这种能力：通过一系列的内部推理，能够正确定位索引不佳的来源。
这些步骤和过程会被记录为内部推理痕迹，提供一定程度的可解释性。

简而言之，搜索过程是直接设计的。大语言模型智能体接受现有的搜索基础设施，并尽其所能地找到最佳解决方案。无需立即进行额外的数据准备。也无需训练用户与生成式人工智能系统进行交互。正如蒂姆・伯纳斯 - 李（Tim Berners-Lee）十多年前强调的那样：“思考 [智能体] 的一种方式是，在每种情况下，程序都能准确地执行用户在被具体询问时希望它执行的操作。”

现在，为了更清楚地了解实际投入生产的大语言模型智能体，你可以开始将这种方法应用到其他领域。一个真正的网络工程智能体同样能够直接与现有的基础设施进行交互，根据需求（路由器、交换机、防火墙）生成设备配置，分析网络拓扑结构并提出优化建议，或者解析错误日志以确定网络问题的根本原因。一个真正的金融智能体将经过训练，能够无缝且准确地转换相互竞争的数据标准（例如从 ISO 20022 转换为 MT103）。目前，使用一组系统提示无法完成上述任何任务。

目前，只有大型实验室有能力开发真正的大语言模型智能体。它们掌握着所有的关键要素：专业知识、部分数据（或者至少有合成数据的方法），以及将其模型转化为产品的整体愿景。我不确定这种技术集中是否是一件好事，不过，由于资金生态系统不愿意将实际的模型训练视为从长远来看真正的颠覆性力量和价值创造的来源，这在很大程度上助长了这种技术集中的现象。

我一般不喜欢过分夸大事物。然而，鉴于大语言模型智能体在带来变革以及创造价值方面有着巨大的潜力，我确实认为，让真正的大语言模型智能体的训练和部署实现普及化正迅速成为至关重要的事情。所以，开放验证器、通用相对策略优化（GRPO）训练样本，而且或许很快，还会开放复杂的合成管道和模拟器。

2025 年，会是智能体之年吗？仍有可能。让我们拭目以待最终的结果吧。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业