我要投稿

大语言模型智能体规划能力综述: 分类、任务分解、选择、反思、记忆增强

发布日期：2024-04-20 11:51:14 浏览次数： 5564

作者：旺知识

微信搜一搜，关注“旺知识”

随着大型语言模型（LLM）展现出显著的智能，利用LLM作为自主Agent规划模块的进展受到了更多关注。本调查提供了基于LLMAgent规划的首个系统性视角，涵盖了旨在提高规划能力的最新工作。本文提供了现有LLM-Agent规划工作的分类，可以归类为任务分解、计划选择、外部模块、反思和记忆。本文对每个方向进行了全面分析，并讨论了该研究领域的进一步挑战。

张长旺，旺知识

1 引言

自主Agent被认为是能够通过感知环境、规划和执行动作来完成特定任务的智能实体。规划作为Agent最关键的能力之一，需要复杂的理解、推理和决策进程[Ghallab等人，2004]。尽管规划的概念很抽象，但规划任务的一般公式可以描述如下。给定时间步t，环境表示为E，动作空间为A，任务目标为g，步骤t的动作为at ∈ A，规划过程可以表示为动作序列的生成：p = (a0, a1, ···, at) = plan(E, g; Θ, P)。其中Θ和P分别代表LLM的参数和任务的提示。传统的工作主要依赖于符号方法或基于强化学习的方法，如规划领域定义语言（PDDL）[Aeronautiques等人，1998; Haslum等人，2019]或策略学习[He等人，2015; Yao等人，2020a]。然而，这些传统方法有几个局限性。符号方法需要将灵活的自然语言描述问题转换为符号建模，这可能需要人类专家的努力。通常，这种方法缺乏容错性，即使只有几个错误也可能导致失败。强化学习（RL）方法通常与深度模型结合使用，作为策略网络或奖励模型。虽然RL算法通常需要大量的样本（与环境的交互）来学习有效的策略，但在收集数据耗时或成本高昂的情况下，这可能是不切实际或成本高昂的。近年来，大型语言模型（LLM）的出现标志着一个范式的转变。LLM在各个领域取得了显著的成功，展示了在推理、工具使用、规划和指令遵循方面的显著智能。LLM的惊人智能为将LLM作为Agent的认知核心提供了可能性，从而提高了规划能力。已经开发了多种方法来利用LLM的潜力进行Agent规划。虽然现有的调查试图总结LLM的技术[Zhao等人，2023a]，LLM用于决策制定[Yang等人，2023a]，推理[Sun等人，2023]，工具学习[Qin等人，2023]，和自主Agent[Wang等人，2023a]，它们通常缺乏对文献中规划能力的详细分析。在本调查中，我们分析了最新的研究工作并讨论了优势和局限性，旨在提供对基于LLM的Agent规划能力的系统性视角。现有方法进一步归类为五个代表性方向，每个方向都进行了全面分析。此外，我们在四个基准上评估了几个代表性方法。据我们所知，这是第一项全面分析基于LLM的Agent规划能力的工作。本文的后续部分组织如下。在第2节中，我们将工作归类为五个主流方向，并分析了它们关于规划能力的观点。第3至7节提供了每个方向的详细讨论和分析。最后，第9节总结了调查，提供了该领域未来方向的见解。

2 分类法

由于基于LLM的Agent规划的研究呈现出繁荣景象，已经提出了各种方法来开发规划能力的上限。为了更好地鸟瞰现有的先进工作，我们挑选了一些代表性和有影响力的工作，分析了它们的动机和基本思想。为了更好地理解，我们在表1中说明了分析。根据表格，我们为基于LLM的Agent规划提出了一种新颖和系统的分类法，将现有工作分为五个重要类别，涵盖了任务分解、多计划选择、外部模块辅助规划、反思和提炼以及记忆增强规划，如图1所示。这里我们简要总结以下五个方向。

任务分解。现实生活的任务通常是复杂和多步骤的，为规划带来了严重的难度。这种方法采用了分而治之的思想，将复杂的分解为几个子任务，然后依次为每个子任务规划。该过程可以表示如下：

g0, g1, ···, gn = decompose(E, g; Θ, P);

pi = (ai 0, ai 1, ··· ai m) = sub-plan(E, gi; Θ, P)。

多计划选择。这种方法专注于引导LLM“思考”更多，为任务生成各种替代计划。然后使用与任务相关的搜索算法来选择一个计划执行。该过程可以表示如下：

P = p1, p2, ···, pn = plan(E, g; Θ, P);

p* = select(E, g, P; Θ, F)。

其中F代表搜索策略，例如一些树搜索算法[Yao等人，2023; Zhao等人，2023b]。

外部规划器辅助规划。这种方法旨在利用外部规划器提升规划过程，旨在解决生成计划的效率和可行性问题，而LLM主要扮演规范化任务的角色。该过程可以表示如下：

h = formalize(E, g; Θ, P);

p = plan(E, g, h; Φ)。

其中Φ表示外部规划器模块，h代表规范化信息。

反思和提炼。这种方法强调通过反思和提炼来提高规划能力。

它鼓励LLM反思失败，然后改进计划。该过程可以表示如下：

p0 = plan(E, g; Θ, P); ri = reflect(E, g, pi; Θ, P);

pi+1 = refine(E, g, pi, ri; Θ, P);

记忆增强规划。这种方法通过额外的记忆模块增强规划，在其中存储有价值信息，例如常识知识、过去的经历、特定领域的知识等。在规划时检索信息，作为辅助信号。该过程可以表示如下：

m = retrieve(E, g; M); p = plan(E, g, m; Θ, P)。

其中M代表记忆模块。

这五个方向是相互联系而不是相互排斥的，通常涉及同时采用多种技术。在后续部分，我们将深入探讨有关LLMAgent规划的五个研究方向，阐明它们的动机，提出代表性解决方案，并解决固有局限性。

3 任务分解

在现实世界场景中，环境通常以复杂性和可变性为特征，因此通过单步规划过程解决复杂任务是一个巨大的挑战。

这种将复杂任务简化为几个更简单的子任务的过程是人类的一个显著能力，体现在将一个任务分解为几个更简单的子任务上 [Schraagen 等人，2000]，这类似于众所周知的算法策略“分而治之”，如图 (1) 所示。任务分解通常涉及两个关键步骤：首先，将复杂任务分解为“子任务”，称为“分解”步骤；其次，为子任务规划，称为“子计划”步骤。在该领域中，当前的任务分解方法通常分为两类：首先分解和交错分解，如图 2 所示。

3.1 首先分解方法

首先分解方法首先将任务分解为子目标，然后依次为每个子目标规划，如图 2(a) 所示。代表性方法包括HuggingGPT [Shen 等人，2023], Plan-and-Solve [Wang 等人，2023b], ProgPrompt [Singh 等人，2023], 等。HuggingGPT [Shen 等人，2023] 利用 Huggingface Hub 中的各种多模态模型构建了一个智能Agent，用于多模态任务。它能够处理如图像生成、图像分类、对象识别、视频注释、语音转文本等任务。为了促进不同模型之间的协作，LLM 充当控制器，负责将人类输入的任务分解为子任务，选择模型并生成最终响应。最关键的阶段是初始任务分解，HuggingGPT 明确指示 LLM 将给定任务分解为子任务，并提供任务之间的依赖关系。Plan-and-Solve [Wang 等人，2023b] 通过将原始的“让我们逐步思考”转变为两步提示指令：“我们首先制定一个计划”和“让我们执行该计划”，改进了零样本链式思考 [Kojima 等人，2022]。这种零样本方法在数学推理、常识推理和符号推理方面取得了改进。ProgPrompt [Singh 等人，2023] 将自然语言描述的任务转化为编程问题。它通过代码将Agent的动作空间和环境中的对象符号化，每个动作被形式化为一个函数，每个对象被表示为一个变量。因此，任务规划自然转化为函数生成。在执行任务时，Agent首先以函数调用的形式生成一个计划，然后逐步执行它们。

表 1: 现有 LLM-Agent规划工作的分类法。

3.2 交错分解方法

交错分解涉及交错的任务分解和子任务规划，其中每次分解只揭示当前状态下的一到两个子任务，如图 2(b) 所示。这一类别的代表性方法包括链式思考 (CoT) 系列 [Wei 等人，2022; Kojima 等人，2022]，ReAct [Yao 等人，2022]，PAL [Gao 等人，2023]，程序化思考 (PoT) [Chen 等人，2022]，视觉聊天 GTP [Wu 等人，2023]，等。链式思考 (CoT) [Wei 等人，2022] 揭示了 LLM 的少量学习能力。CoT 指导 LLM 通过一些构建的轨迹推理复杂问题，利用 LLM 的推理能力进行任务分解。随后，零样本 CoT [Kojima 等人，2022] 使用神奇的指令“让我们逐步思考”解锁了 LLM 的零样本推理能力。与 CoT 将推理嵌入规划过程不同，ReAct [Yao 等人，2022] 将推理和规划解耦。它在推理（思考步骤）和规划（行动步骤）之间交替进行，展示了在规划能力方面的显著改进。视觉聊天 GTP [Wu 等人，2023] 利用 ReAct 的机制，使用 LLM 作为Agent的大脑，配备了一系列视觉模型，从而形成了具有图像处理能力的Agent。PAL [Gao 等人，2023] 通过利用 LLM 的编码能力改进 CoT，指导 LLM 在推理过程中生成代码。最后，使用代码解释器（如 Python）全面执行代码以获得解决方案。这种方法对于Agent解决数学和符号推理问题很有帮助。程序化思考 (PoT) [Chen 等人，2022] 将推理过程完全形式化为编程。作者还利用在代码相关数据上训练的 CodeX [Chen 等人，2021b] 模型，提高了在数学和金融问题上的性能。

3.3 讨论

对于首先分解方法，其优点在于在子任务和原始任务之间创建了更强的关联，减少了任务遗忘和幻觉的风险 [Touvron 等人，2023]。然而，由于子任务在开始时就已确定，需要额外的调整机制，否则某个步骤中的错误将导致失败，这将在第 6 节中讨论。另一方面，交错分解和子规划根据环境反馈动态调整分解，提高了容错能力。然而，对于复杂的任务，过长的轨迹可能导致 LLM 在后续子任务和子规划中出现幻觉，偏离原始目标。尽管任务分解显著提高了 LLM-Agent解决复杂任务的能力，但挑战依然存在。第一个挑战是任务分解引入的额外开销。将任务分解为多个子任务需要更多的推理和生成，增加了额外的时间和计算成本。另一方面，对于分解为数十个子任务的高度复杂任务，规划受到 LLM 上下文长度的限制，导致规划轨迹的遗忘。

4 多计划选择

由于任务的复杂性和LLM固有的不确定性，LLMAgent为给定任务生成的计划可能是多样化的。尽管LLM拥有强大的推理能力，但LLM生成的单一计划可能是次优的，甚至不可行。更自然的方法是多计划选择，包括两个主要步骤：多计划生成和最优计划选择。

4.1 多计划生成

多计划生成涉及生成多个计划路径以构成候选计划集。主流方法考虑使用生成模型解码过程中的不确定性。自洽性 [Wang 等人，2022b] 采用了一个简单的直觉：复杂问题的解决方案很少是唯一的。与 CoT 不同，CoT 生成一个路径，自洽性通过解码过程中的采样策略（如温度采样、top-k 采样）获得多个不同的推理路径。思维树 (ToT) [Yao 等人，2023] 提出了两种生成计划（即思维）的策略：采样和提议。采样策略与自洽性一致，LLM 在解码过程中会采样多个计划。提议策略通过提示中的少量示例明确指示 LLM 生成各种计划。思维图 (GoT) [Besta 等人，2023] 通过添加思维的转换来扩展 ToT，支持任意思维聚合。LLM-MCTS [Zhao 等人，2023b] 和 RAP [Hao 等人，2023] 利用 LLM 作为蒙特卡洛树搜索 (MCTS) 的启发式策略函数，通过多次调用获得多个潜在动作。

4.2 最优计划选择

为了在候选计划中选择最优计划，采用了多种策略作为启发式搜索算法。自洽性 [Wang 等人，2022b] 应用了简单的多数投票策略，将得票最多的计划视为最优选择。得益于树状结构，思维树 (ToT) [Yao 等人，2023] 支持树搜索算法，如传统的 BFS 和 DFS。在选择要扩展的节点时，它使用 LLM 评估多个动作并选择最优的。与 ToT 类似，LLM-MCTS [Zhao 等人，2023b] 和 RAP [Hao 等人，2023] 也采用树结构来协助多计划搜索。与 ToT 不同，它们采用蒙特卡洛树搜索 (MCTS) 算法进行搜索。LLM A* [Xiao 和 Wang，2023] 利用人工智能中的经典 A* 算法来协助 LLM 进行搜索。从当前位置到目标位置的切比雪夫距离作为选择最优路径的启发式成本函数。

4.3 讨论

多计划选择的可扩展性显著有利，提供了在广阔搜索空间中探索潜在解决方案的更广泛视野。然而，这种优势带来了固有的权衡。增加的计算需求，特别是对于具有大量标记计数或计算的模型，构成了实际挑战。这种成本考虑变得至关重要，特别是在资源限制是重要因素的场景中，如在线服务。此外，依赖 LLM 对计划进行评估引入了新挑战。由于 LLM 在排名任务方面的性能仍在审查中，因此需要进一步验证和微调其在特定上下文中的能力。LLM 的随机性质为选择增添了随机性，可能影响所选计划的一致性和可靠性。

5 外部规划器辅助规划

尽管大型语言模型 (LLM) 展示了强大的推理和任务分解能力，但在面对具有复杂约束的环境时，例如数学问题解决或生成可接受动作时，会出现挑战。为了应对这些挑战，一些方法将 LLM 与外部规划器集成。这些方法可以根据引入的规划器分为符号规划器和神经规划器。

5.1 符号规划器

符号规划器在自动规划领域中作为基础组件已有数十年的历史。这些方法基于建立良好的符号形式化模型，如 PDDL 模型 [Aeronautiques 等人，1998; Haslum 等人，2019]，采用符号推理来识别从初始状态到期望目标状态的最优路径。LLM+P [Liu 等人，2023a] 通过结合基于 PDDL 的符号规划器来增强 LLM 的规划能力。利用 LLM 的语义理解和编码能力，作者将问题组织成输入到 LLM 的文本语言提示。这提示 LLM 在环境中组织动作，并将指定任务规范化为 PDDL 语言的格式。随后，获得规范化描述后，作者使用 Fast-Downward 1 求解器进行规划过程。在 LLM+P 的基础上，LLM-DP [Dagan 等人，2023] 专门为动态交互环境设计。在接收到环境的反馈后，LLM 处理信息，将其规范化为 PDDL 语言，然后使用 BFS [Lipovetzky 等人，2014] 求解器生成计划。LLM+PDDL [Guan 等人，2023] 也使用 PDDL 语言来规范化任务，增加了一个手动验证步骤，以检查 LLM 生成的 PDDL 模型中可能存在的问题。在规划过程中，作者建议使用 LLM 生成的计划作为局部搜索规划器（如 LPG [Gerevini 和 Serina，2002]）的初始启发式解决方案，以加速搜索过程。LLM+ASP [Yang 等人，2023b] 将 LLM 描述的问题转换为原子事实，将任务转换为 ASP 问题。随后，使用 ASP 求解器 CLINGO 生成计划。

5.2 神经规划器

神经规划器是使用强化学习或模仿学习技术在收集的规划数据上训练的深度模型，在特定领域内展示了有效的规划能力。例如，DRRN [He 等人，2015] 通过强化学习将规划过程建模为马尔可夫决策过程，训练策略网络以获得深度决策模型。决策变换器 (DT) [Chen 等人，2021a] 使变换器模型通过规划数据克隆人类决策行为。训练良好的神经规划器在各自领域内展示了卓越的规划能力，并由于其较小的参数尺寸表现出优越的规划效率。然而，面对复杂且较少遇到的、训练数据稀缺的问题时，这些小模型往往会因为泛化能力不足而表现不佳。因此，一些工作探索将 LLM 与轻量级神经规划器结合起来，以进一步增强规划能力。CALM [Yao 等人，2020a] 提出了一个早期方法，将语言模型与基于 RL 的神经规划器结合起来。一个语言模型处理文本环境信息，基于环境信息生成一组候选动作作为先验。然后使用 DRRN 策略网络对这些候选动作进行重新排序，最终选择最优动作。SwiftSage [Lin 等人，2023] 利用认知心理学中的双过程理论，将规划过程分为慢思考和快思考。慢思考过程涉及复杂的推理和理性决策，而快思考类似于通过长期训练发展起来的本能反应。作者使用通过模仿学习训练的 DT 模型作为快速思考模型，用于快速计划生成。当计划执行期间发生错误，表明问题更复杂时，Agent切换到慢思考过程，LLM 根据当前状态进行推理和规划。快速和慢速思考的结合在效率方面已被证明非常有效。

5.3 讨论

对于那些利用额外规划器协助的策略，LLM 主要扮演支持角色。其主要功能涉及解析文本反馈并提供额外的推理信息以协助规划，特别是在解决复杂问题时。具体来说，LLM 在代码生成能力方面的增强为处理更通用的任务提供了潜力，这些任务适用于符号人工智能。实际上，传统符号 AI 系统的一个重大缺点在于构建符号模型的复杂性和对人类专家的重度依赖，而 LLM 加速了这一过程，促进了符号模型的更快和更优建立。符号系统的优势包括理论完整性、稳定性和可解释性。统计 AI 与 LLM 的结合有望成为未来人工智能发展的主要趋势。

6 反思和提炼

反思和提炼是规划过程中不可或缺的组成部分。它们增强了 LLM-Agent规划的容错和错误纠正能力。由于现有的幻觉问题和对复杂问题的推理能力不足，LLM-Agent在规划期间可能会犯错误并陷入“思维循环”中，由于反馈有限。反思和总结失败有助于Agent纠正错误并在随后的尝试中打破这些循环。自我提炼 [Madaan 等人，2023] 利用迭代的过程，包括生成、反馈和提炼。每次生成后，LLM 为计划生成反馈，促进根据反馈进行调整。Reflexion [Shinn 等人，2023] 通过将评估器纳入以评估轨迹，扩展了 ReAct。LLM 在检测到错误时生成自我反思，有助于错误纠正。CRITIC [Gou 等人，2023] 使用外部工具，如知识库和搜索引擎，验证 LLM 生成的动作。然后利用外部知识进行自我纠正，显著减少事实错误。InteRecAgent [Huang 等人，2023b] 采用了一种名为 ReChain 的自我纠正机制。LLM 用于评估交互式推荐Agent生成的响应和工具使用计划，总结错误的反馈，并决定是否重新规划。LEMA [An 等人，2023] 首先收集错误的规划样本，然后使用更强大的 GPT-4 进行纠正。这些已纠正的样本随后用于微调 LLM-Agent，从而在各种规模的 LLaMA 模型上显著提高了性能。特别是，自我反思策略类似于强化学习的原理，其中Agent扮演决策者的角色，如策略网络。环境反馈触发了策略网络的更新。然而，与通过修改模型参数实现更新的深度强化学习不同，在 LLM Agent中，这种更新通过 LLM 本身的自我反思发生，最终形成文本形式的反馈。这些文本反馈可以作为长期和短期记忆，通过提示影响Agent后续规划输出。然而，目前这种文本形式的更新缺乏保证收敛的证明，表明无法证明持续的反思最终能够引导 LLM Agent达到指定目标。

7 记忆增强规划

对于Agent来说，记忆是增强规划能力和潜在成长的关键途径。关于 LLM-Agent中的记忆机制，目前有两种主要方法通过记忆增强规划能力：基于 RAG 的记忆和体现记忆。

7.1 基于 RAG 的记忆

检索增强生成（RAG）[Lewis 等人，2020; Mao 等人，2020; Cai 等人，2022] 技术被提出以辅助文本生成与检索信息。它能够增强 LLM 的最新知识，如 New Bing2 和 Google Bard3。对于 LLM Agent，过去的经历可以存储在记忆中，并在需要时检索。这些方法的核心思想是在任务规划期间从记忆中检索与任务相关的经验。在这些方法中，记忆通常存储在附加存储中，形式多样，如文本 [Park 等人，2023; Liu 等人，2023b; Packer 等人，2023; Wang 等人，2023c; Zhong 等人，2023]，表格形式 [Zhang 等人，2023a]，知识图谱 [Pan 等人，2024] 等。Generative Agents [Park 等人，2023] 以文本形式存储类似人类的Agent的日常经历，并根据当前情况的相关性和时效性综合评分来检索记忆。同样，MemoryBank [Zhong 等人，2023]，TiM [Liu 等人，2023b] 和 RecMind [Wang 等人，2023c] 使用文本编码模型将每个记忆编码为向量，并建立索引结构，如 FAISS 库 [Johnson 等人，2019]。在检索期间，当前状态的描述被用作查询，以从记忆池中检索记忆。三者的区别在于记忆的更新方式。MemGPT [Packer 等人，2023] 利用计算机架构中的多级存储概念，将 LLM 的上下文抽象为 RAM，并将附加的存储结构视为磁盘。LLM 可以自发地决定检索历史记忆或将当前上下文保存到存储中。REMEMBER [Zhang 等人，2023a] 以 Q 值表的形式存储历史记忆，其中每条记录是 (环境，任务，动作，Q 值)-元组。在检索期间，同时检索正面和负面记忆，以便 LLM 根据环境和任务的相似性生成计划。

7.2 具身记忆

具身记忆涉及使用Agent的历史经验样本对 LLM 进行微调，将记忆嵌入到模型参数中。通常，这些经验样本是从Agent与环境的交互中收集的，可能包括关于环境的常识知识、与任务相关的先验知识以及成功或失败的经验。虽然训练一个具有数十亿参数的语言模型的成本是巨大的，但通过使用参数高效微调（PEFT）技术来降低成本并加快速度，例如 LoRA，QLoRA，P-调整等。CALM [Yao 等人，2020b] 使用从文本世界环境中收集的地面真实动作轨迹来使用下一个标记预测任务对 GPT-2 进行微调，使其能够记住与规划相关的信息并在规划任务上很好地泛化。同样，TDT [Wang 等人，2022a] 使用收集的马尔可夫决策过程数据来微调文本决策变换器（TDT）。它在更具挑战性的 ScienceWorld [Wang 等人，2022a] 任务上取得了更好的成功率。AgentTuning [Zeng 等人，2023] 将各种任务的计划轨迹组织成对话形式以微调 LLaMA 模型，在未见过的规划任务上显示出显著的性能提升。

7.3 讨论

基于 RAG 的和基于微调的记忆方法增强了 LLM-Agent的规划能力，每种方法都有其独特的优势和局限性。基于 RAG 的方法提供了实时、低成本的外部记忆更新，主要是自然语言文本，但依赖于检索算法的准确性。微调通过参数修改提供了更大的记忆容量，但记忆更新成本高，并且在保留细节方面存在困难。记忆增强的 LLM-Agent在规划中表现出增强的增长和容错能力，但记忆的生成严重依赖于 LLM 的生成能力。通过自我生成的记忆提高较弱 LLM-Agent的性能仍然是一个具有挑战性的领域。

8 评估

评估Agent的规划能力是研究领域的关键问题。在这里，我们调查了几种主流的基准测试方法，将它们归类为以下类型。交互式游戏环境：游戏环境可以根据Agent的行动提供实时的多模态反馈，包括文本和视觉反馈。目前最广泛使用的游戏环境是 Minecraft 4，其中Agent需要收集材料来创建工具以获得更多奖励。Agent创建的工具数量通常用作评估指标。另一个流行的类别是基于文本的交互环境，如 ALFWorld [Shridhar 等人，2020]，ScienceWorld [Wang 等人，2022a] 等，其中Agent位于用自然语言描述的环境中，行动和位置有限。成功率或获得的奖励通常用作评估指标。与 Minecraft 相比，这些基于文本的交互环境通常更简单，反馈更直接，可行的行动更少。交互式检索环境：交互式检索环境模拟了人类在现实生活中进行信息检索和推理的过程。在这些环境中，Agent通常被允许与搜索引擎和其他网络服务进行交互，使用搜索关键词或执行点击、前进和后退操作等行动来获取更多信息，从而获得问题的答案或完成信息检索任务。常用的检索环境包括基于 Wikipedia 引擎的问答任务 [Yao 等人，2022]（如 HotPotQA [Yang 等人，2018] 和 Fever [Thorne 等人，2018]）和网络浏览任务以查找特定信息，包括 WebShop、Mind2Web [Deng 等人，2023] 和 WebArena [Zhou 等人，2023]。任务成功率通常用作指标。交互式编程环境：交互式编程环境模拟了程序员与计算机之间的交互，测试Agent在解决计算机相关问题方面的规划能力。在这些环境中，Agent需要与计算机交互，通过编写代码或指令来解决问题。它们会收到各种反馈，包括编译和运行时错误消息以及执行结果。流行的交互式编程环境涉及操作系统、数据库等问题，如 Agent Bench [Liu 等人，2023c]，MiniWoB++ [Kim 等人，2023]。这些现有的交互环境大多缺乏细粒度评估，其中性能主要通过最终成功率来评估。此外，与现实世界场景通常有多种完成任务的路径不同，由于注释成本高昂，大多数模拟环境中通常只有一条“黄金”路径。实验。我们在四个基准上进行了实验，以验证代表性工作的性能，如表 2 所示。由于预算有限，我们实现了六种基于提示的方法，涵盖了任务分解、多路径选择和反思。至于基准，采用了 ALFWorld、ScienceWorld、HotPotQA 和 FEVER，涉及交互式游戏和问答基准。由于 ALFWorld 和 ScienceWorld 涉及较大的行动空间，零样本方法，即 ZeroShot-CoT，由于不了解行动空间而不适用。SayCan 通过将输出动作定位到行动空间中的价值函数来改进 CoT，这在 QA 任务中不适用，因为只有两个动作：SEARCH[KEYWORD] 和 LOOKUP[KEYWORD]。我们将价值函数设置为文本嵌入模型 bgesmall-en-v1.5 [Xiao 等人，2023]。我们为 CoT-SC 在每个步骤中获得了 3 个动作和 5 个答案。在 Reflexion 中重试的轮数设置为 1。我们使用 OpenAI 的 text-davinci-003 API 作为 LLM。

(i) 随着费用的增加，性能提高。由于 CoTSC、ReAct 和 Reflexion 分别涉及多个计划、额外的思考和反思，它们的费用超过了它们的骨干方法。直观地看，更多的标记代表更详细的思考，导致性能提升。

(ii) 对于复杂的任务，建议使用少量示例。尽管“让我们逐步思考”的神奇指令可以带来更多的推理，但在两个 QA 基准中，ZeroShot-CoT 表现出严重的性能下降，这表明 LLM 需要示例来进一步理解任务。

(iii) 反思在提高成功率方面发挥了关键作用，尤其是在复杂任务中。尽管 Reflexion 消耗的标记大约是 ReAct 的两倍，但在复杂任务中的改进是有希望的，例如 ALFWorld 和 ScienceWorld，这表明 LLM 具有错误纠正能力。

9 结论和未来方向

自从大型语言模型（LLM）显示出智能的迹象以来，利用LLM增强Agent规划能力的关注度日益增加。本文总结了主要方向，并在第3至7节中详细比较和分析了各种方法。我们还对四个基准进行了实验，比较了几种代表性方法的有效性，并表明随着费用的增加，性能也有所提高。尽管这些工作在规划能力方面取得了进步，但仍存在一些重大挑战。

幻觉问题。在规划过程中，LLM经常遭受幻觉的困扰，导致不合理的计划、不忠实于任务提示或未能遵循复杂指令。例如，计划可能包括与环境中不存在的项目交互的动作。尽管这些问题可以通过精心设计的提示工程来缓解，但它们反映了LLM的根本缺陷[Zhang等人，2023b; Huang等人，2023a]。

生成计划的可行性。LLM本质上是基于统计学习的，通过大量数据优化下一个词的概率。与符号人工智能相比，这种方法在遵守复杂约束方面存在困难，尤其是在处理LLM训练期间遇到的不常见约束时。因此，LLM生成的计划可能缺乏可行性，没有考虑足够的先决条件。将LLM与符号规划模型连接起来，而不改变LLM本身，是一个有前景的未来方向。

生成计划的效率。生成高效计划是规划中的一个关键问题。然而，在现有的LLMAgent中，规划是基于LLM输出的生成计划进行的，没有考虑生成计划的效率。因此，未来的开发可能需要引入额外的效率评估模块，与LLM协同工作，以实现更高效的计划。

多模态环境反馈。LLM最初设计用于处理文本输入，但现实世界的环境反馈通常是多模态的，包括图像、音频等，这些在自然语言中难以描述。因此，LLMAgent在处理此类场景时面临限制。未来的考虑可能涉及整合多模态大型模型的发展，并重新审视相关的规划策略。

细粒度评估。如第8节所述，现有的基准测试大多依赖于任务的最终完成状态，缺乏细粒度的逐步评估。此外，环境反馈通常是基于规则的、简单的，并且与现实世界场景相距甚远。一个潜在的未来方向是利用像LLM这样的高智能模型来设计更现实的评估环境。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业