我要投稿

深度解析两种增强的AI Agent反思模式

发布日期：2025-01-16 09:05:52 浏览次数： 3333

作者：AI大模型应用实践

微信搜一搜，关注“AI大模型应用实践”

反思（Reflection），是一种重要的AI Agent工作范式。由于我们不再满足于生成式AI单次响应的能力，而是期望它能像人类一样反思和不断改进，生成更加精准和可靠的结果，这对于扩大生成式AI在高要求生产环境下的应用非常关键。基本的反思模式通过简单的生成和自我反馈循环，不断优化输出：

但这种基础反思模式仅限于内部逻辑与规则的反思及优化，就像考试时候的自我检查，尽管很多时候能发现一些问题，但还是远远不够的。今天我们来介绍两种增强的Agent反思模式。

基于外部验证的增强反思
基于多路径优化的增强反思

基于外部验证的增强反思

这种模式在基本反思模式的基础上，加入了外部工具执行与多源信息验证，成为更强大、更灵活的反思解决方案。

基本工作流程

增强反思模式通过LLM的自我批评、外部工具调用与验证、多轮循环优化，最后生成高质量输出。这是一种借助外部反馈来不断优化的模式。

其工作流程可以用下图表示：

图片来自LangChain

这个流程中涉及的关键节点包括初始响应（Responder）、外部验证（Execute Tools）、响应修订（Revisor）。基本流程为：

用户请求：用户输入查询问题或任务需求
初始生成：初步答案、初步反思结果、以及验证建议。验证建议比如：网络搜索、查询数据库、运行代码查看结果等
调用工具：根据验证建议，执行外部工具获得结果，这些结果用来优化输出
响应修订：根据工具结果对输出进行修订，并再次给出反省与验证建议
多轮优化：经过多轮修订、反思、外部验证的迭代，逐步优化输出
最终输出：返回给用户经过验证和改进的高质量结果

应用场景

显然，这种增强的反思模式非常适合可以借助外部信息验证与优化的复杂场景。这里我们展望一些可能的任务：

1. 代码生成与调试

AI生成代码初稿后，调用工具（如Docker沙盒）来运行代码，捕获错误，并将错误反馈给修订模块用于下一轮的优化，最终生成正确的代码。

2. 专业研究报告辅助撰写

针对某个专业研究专题（如气候变化研究），需要让AI生成部分内容，比如背景阐述与最新研究进展，并引用权威文献与数据。就可以借助网络搜索最新的科学报告，用来对输出结果进行修订，弥补内容缺失、修订错误数据、增加可信度，并增加文献引用说明等。

3. 企业内财务报告生成

在基于企业内部财务数据生成初步的财务报告后，可以借助网络搜索获得行业基准数据、市场趋势、竞争对手统计数据等，从而修订与整合到已有的财务报告中，用来发现可能的数据异常，丰富报告内容，提升报告价值。

与普通反思模式的对比

与普通反思的对比如下：

基于多路径优化的增强反思

尽管前面介绍的反思模式已经为一些复杂任务的输出增大了正确性与可信度，但仍然存在一个问题：

专注于单一行动路径的优化，没考虑多路径的全局最优性。

简单的说，在生成-反思-优化这个过程中，有时候会存在多种可能优化选择，而你需要尝试这些不同路径，以获得最优答案。比如这样的任务：

“生成一个满足特定性能指标与要求的函数代码。”

在每次反思与优化时，你可能存在多种不同的优化版本选择。你可能需要对这些不同的选择进行评估，选择最优路径；然后在此基础上再次迭代与优化，直到获得最佳版本。

LATS（Language Agent Tree Search）就是针对这种优化需要的一种方法。

基本工作流程

LATS借助类似蒙特卡洛树搜索（Monte Carlo Tree Search）的算法，结合生成、反思与回溯评估，能够高效探索任务的多种可能解决方案，显著提升任务完成的整体表现。这种模式不再局限于单路径的逐步改进，而是通过全局探索找到真正最佳的解决路径。

LATS中的“Search”是指在一种决策树结构中找到最优路径的过程，也可以理解为在大量可能的决策选项中探索和优化。与互联网搜索没有关系。

LATS的工作流程如下：

LATS也是一个生成(Generate)与反思(Reflect）不断迭代的过程，所不一样的是，它每次的迭代优化会生成多个可能的候选路径。整个探索过程解释如下：

1. 初始响应与评估

开始时，借助LLM（与外部工具）生成一个初始的响应结果。并对响应结果进行反思与评估得分。

2. 扩展优化

从初始响应生成多个候选的优化结果，并也对每个结果进行反思与评估得分。

3. 选择下一个扩展节点

由于此时有了多个优化结果，则采用一定的算法来选择下一个最优路径（比如上图中，选择从0.8得分的这个结果继续优化）。

注意这里不是简单的选择本轮评估得分最高的节点，而是会考虑整个行动路径的累积行动得分：将当前节点的得分反馈到父节点，更新整个路径的奖励值。通过这种方式，可以选择下一步的最佳行动路径。在蒙特卡洛树搜索中，会使用UCT（Upper Confidence Bound for Trees）算法来选择下一个行动节点。

此处你只需要理解为，在当前最优的路径上继续优化。

4. 迭代进行2-3步，直到答案最优。

从选择的最优路径上，重复上面的2-3步：生成多个候选优化结果-->评估结果-->选择最优路径->....。整个过程直到评估结果认为已经找到了最优答案，或者达到最大迭代次数。

应用场景

LATS适合对输出结果要求较高、并愿意用时间换输出质量的任务场景：通过多路径的不断选择与优化，直到找到最佳结果。比如：

1. 生成复杂代码片段

在初始代码版本基础上，生成多个优化版本，并借助每个代码版本的执行结果进行评估，进而选择最优的版本做迭代优化。

2. 游戏AI

在一些游戏AI智能体中，借助类似的方法探索，在每一次迭代中对多个候选步骤进行模拟与评估，然后选择最优决策路径。

2. 复杂任务规划推理

在一些复杂任务步骤的推理中（比如物流最优路径等），你可以借助这种方法，不断评估多种候选方案的成本、时间等计算得分，最后选择出一条最佳的任务方案。

与普通反思模式的对比