我要投稿

告别Agentic工作流？推理模型+行动链学习=Agent模型

发布日期：2025-03-10 12:45:26 浏览次数： 1763 作者：ADaM应用数据挖掘和机器学习

OpenAI定义了通往AGI路上的五个阶段。第一个阶段chatbot的代表是GPT-3.5/Gpt-4等Large Language Model (LLM)。第二个阶段reasoner的代表是o1/o3等Large Reasoning Model (LRM)。

最近的发布Operator和Deep Research，则标志了第三阶段Agent的到来。值得关注的是，OpenAI开始采用可替代的人类专家工时作为模型能力评估标准。即使模型仅具备平均人类水平的工具使用能力，与AI的信息获取和处理效率结合后，仍可能带来生产力质的飞跃。

Operator和Deep Research背后的技术应该不是简单地将现有的LLM或LRM与ReAct、Reflextion等agentic工作流结合，而是模型能力的进一步升级。

那么，从推理模型到Agent增强了什么能力？OpenAI声称对o3模型的工具使用能力做了端到端的强化学习。我们把这种在推理过程中链式地调用工具的能力称为行动链（Chain-of-Action, CoA），并把这种经过行动链学习的推理模型称为Large Agent Models (LAMs)。

AutoCoA是一种通过CoA学习训练agent模型的方法，其结合了SFT和RL将CoA生成能力内置到模型行为中。在开放域问答任务上的结果表明，经过 AutoCoA 训练的Agent模型在任务完成率上显著优于Agent工作流。

论文、代码和数据集地址：https://github.com/ADaM-BJTU/AutoCoA

1. Agentic工作流 vs. Agent模型

Agent的两个核心能力是任务规划和工具使用。推理模型实现了任务规划的行为内化，在此基础上继续增强和内化了工具使用能力的推理模型就是Agent模型。

结合推理模型的发展来理解agentic工作流和agent模型的关系。Reasoner需要在系统一LLM基础上增加生成思维链CoT(Chain-of-Thought)的能力。一种方法是通过 prompting-based的方法，利用CoT、ToT等in-context learning来“强迫”模型生成多步思考，这类统称为CoT prompting。

另一种是基于学习的方法，无论是只SFT、先SFT再RL，还是直接RL，得到以o1为代表的推理模型。与工作流方法相比，这种方式产生的思维链逻辑性更强，并可以递进式地生成更深入的内容。

同样的，Agent需要进一步增加生成行动链CoA(Chain-of-Action)能力此前的agentic 工作流的方式使用的也是prompting-based的方法，思考和行动的切换依赖预设的工作流，基于提示词框架实现，是一种“被动”的行为。

图片包含网站

AI 生成的内容可能不正确。

而agent模型将耦合的思维链（CoT）和行动链（CoA）模式内化为其行为，模型 “主动”地决定何时以及如何行动，因而可以实现更强思考与行动之间的逻辑连贯性，支撑更长链的思考-行动循环，解决更复杂的任务。

2. Agent模型的定义

Agent 模型是在推理模型基础上通过端到端的面向任务的工具增强训练得到的。它能够自动生成耦合的CoT思维链和CoA行动链序列。其中每个动作调用工具与外部环境交互，交互得到的反馈指导后续的推理和动作，直至任务完成。

Agent 模型增强了使用工具的能力，这要求模型不局限于自身内部的推理行为，而能与外部环境进行交互。Chatbot和Reasoner仅关注人与模型之间的二元交互。

而Agent 模型要求能够同时进行思考与行动，形成了由人、模型和环境构成的三元结构：使用工具与环境进行交互以获得反馈，经过多轮的思考、行动和observation后，最终生成回复。

这里有个问题：如果模型在预训练阶段已经具备了工具使用能力，并继承到了推理模型中，还需要进行专门的CoA学习么？即CoT+A是否可以自然地获得CoA的能力？

当预训练基座模型的工具使用能力和推理模型的推理能力较强时，这是有可能的。

讨论更一般的情况：预训练阶段的工具使用更多的关注的还是单步行动能力，适合处理孤立的任务，有点像对特定技能的学习；而CoA学习面向任务执行端到端训练，学会执行一连串相互依赖的动作，形成逻辑性强、目标导向的行动序列，更像是对技能的综合应用。

用研究生写研究论文打个比方。研究生通过前期训练已经学会了科研和论文写作中的基本技能或工具，比如查阅文献、做实验、绘制图表等。但只有从头到尾完整地完成一篇论文的研究和写作，才能真正掌握如何整合这些单个技能完成一个复杂的任务，比如需要根据导师反馈查阅新的文献、基于新文献修正方法、根据修正的方法重新设计实验等。

3. Agent模型训练的难点

Agent模型通过对推理模型进行端到端的训练，学会在推理过程中序列使用工具与外界互动。这里有两个难题：

问题一：平衡思考与行动

推理模型擅长一步步思考，但在增强其行动能力时，可能会遗忘原有的推理能力。更关键的是，模型需要学会在推理过程中自主判断何时该行动。例如，当判断自己知识不够时，能主动触发搜索工具从外部获取信息，再根据工具反馈继续推理，形成“思考-行动-再思考”的闭环。

问题二：处理与外部环境的交互
让模型通过工具与真实世界交互（如调用搜索引擎）成本高、效率低、甚至有风险。而且环境的动态变化也增加了训练的困难。比如，在线强化学习时，网络延迟、搜索结果波动都会导致训练不稳定。

以OpenAI的Deep Research为例：其核心能力是通过网络搜索完成复杂研究任务，就需要解决上面两个问题：

（1）知识边界的判断：模型需要自主判断“什么时候该查资料”——既不能过度依赖搜索，也不能盲目自信；需要清楚自己的短板，并在合适的时候采取行动

（2）动态环境的适配：调用搜索引擎要花时间和资源，成本高、效率低，而且网络环境一直在变，如何在有外部环境交互的情况下进行高效RL训练？

4. Agent训练框架：AutoCoA

我们以开放领域问答任务为例，限定仅使用网页搜索工具，探索了一种训练Agent模型的方案：AutoCoA。

AutoCoA包括两个阶段：SFT手把手教模型何时以及如何调用工具，RL面向任务目标优化多步思考和行动的整体决策。

为了解决平衡思考与行动的问题，AutoCoA在 SFT 和 RL 阶段均混入不调用工具的纯链式思考（CoT）数据，确保模型不会遗忘自身的推理能力，并能根据任务难度自适应决定是否调用工具。

同时，AutoCoA将when to action和how to action在SFT中分成两个阶段分别教模型：先在step-level设计对比损失训练模型学会何时调用工具，然后在trajectory-level训练模型生成工具参数。

为解决和环境交互的问题，AutoCoA让模型学习一个内置的世界模型来模拟环境。首先在SFT 最后增加了一个阶段，训练策略模型模拟工具调用并生成相应的observation。

然后在 RL 阶段，模型先大量地基于策略模型自行生成observation进行roll out，以快速收敛；然后进行少量实际工具调用与真实环境交互，确保模型能够适应真实场景。

5.实验结果

在6个开放域问答数据集进行了测试，对比了model only、agentic workflow两类baseline。Agent model: SFT和Agent model: RL是AutoCoA的不同变种方案。

经过CoA学习的各种agent模型方案都显著好于agentic workflow。加入step-level对比学习的SFT-stage1也对训练起到了明显的作用。

在RL过程中，通过内置世界模型和真实世界交互的比例是5:1，最终全真实世界交互(表中SFT-1&2+RL-2)的结果要稍优于内置世界模型+真实世界交互(表中SFT-1&2&3 + RL-1&2)。

我们同时分析了AutoCoA在处理需要多步行动的任务中的作用。在工具调用次数(#action)增加时，agent模型经过了面向任务的端到端训练，学习了的思考与行动之间的切换模式，展现出了支持更长思考/行动轮次的能力。

6.结论和未来工作

随着语言建模和逻辑推理能力的提升，Deep Research仅使用网络搜索和文档解析等基本工具就完成了高度复杂的任务。这展示了一种通用的agent训练方法：一旦模型的推理能力超过某个阈值，为其提供一些简单的工具和一个在受控环境内可验证的任务目标，就能实现Claude 3.7官方博客所描述的“action scaling”。

AutoCoA只是训练agent模型的的初步尝试，包括改进的CoA数据合成、纯RL路线、新的融合CoT和CoA的损失设计和RL奖励等都值得继续探索。

从任务上，也要探索如何训练没有明确结果的、开放式任务的agent模型。以及像训练领域推理模型那样，应用强化微调针对特定任务和专业工具，微调通用agent模型获得领域agent模型。

以Deep Research代表的知识研究功能为例，结合之前讨论的agent路线图，下一步发展方向是customized deep research，这要求上述agentRFT技术的成熟。

对研究人员和一般开发者的一个问题是，目前的开源推理模型的工具使用能力、特别是多轮工具使用能力普遍较弱。

如前所述：当预训练基座模型的工具使用能力和推理模型的推理能力较强时，有可能直接RL或者在推理模型中会自然涌现出CoA能力。这也再次体现了预训练和后训练交替增强、共同促进模型能力提升的规律。

Claude3.7提出了混合推理的概念：同一个模型同时具备Level 1: 系统一快思考和Level 2: 系统二慢思考推理的能力。或许在未来，从LLM到LRM再到LAM的演进也是一个平滑的连续谱，不需要再严格区分。

从Level1到Level3，本质上是同样的模型，只是在面对不同功能需求时设计出的不同产品形式。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业