我要投稿

TRAD：通过步骤级示范检索和决策对齐来增强大型语言模型Agent的性能

发布日期：2024-04-12 21:47:05 浏览次数： 2087

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

许多大型语言模型（LLM）Agent已经被构建出来，用于执行不同的任务，如网页导航和在线购物，这得益于LLM广泛的知识和文本理解能力。在这些工作中，许多都利用上下文示例来实现泛化，而无需进行微调，但很少有研究考虑了如何选择和有效利用这些示例的问题。最近，基于轨迹级检索和使用轨迹作为上下文示例的方法被提出，以改善Agent在一些顺序决策任务中的总体性能。然而，这些方法可能会因为检索到的示例缺乏特定于任务的状态转换动态，以及长输入中包含大量不相关的上下文而出现问题。

为解决上述问题，提出了一个新颖的框架TRAD（Thought Retrieval and Aligned Decision），它首先进行思考检索（Thought Retrieval），通过思考匹配实现步骤级的示范选择，从而获得更有帮助的示范和更少的不相关输入噪声。然后，TRAD引入了对齐决策（Aligned Decision），通过补充检索到的示范步骤的前一步或后一步，使得对不完美的思考具有容忍性，并在更多上下文和更少噪声之间提供了平衡的选择。这种方法特别适用于需要顺序决策的任务，如网页导航和在线购物。

图1：TRAD Agent（在ALFWorld环境中）的整体示意图。TRAD首先对专家轨迹进行预处理，为每个步骤标记高质量的思考。在推理时，TRAD首先进行思考检索，该检索使用轨迹级别的检索示范作为查询和键值，以实现更精确的步骤级示范检索。给定检索到的步骤，TRAD使用对齐决策模块来补充它们的时间邻近步骤和相应的位置信息（见图2）。最后，根据增强的示范生成下一个动作。

图2：对齐决策方法的一个示例，其中? = ? = 1，且第?个检索到的步骤在其轨迹中位于时间??。对齐决策方法包括对检索到的步骤示范和提示的三个子过程：1）时间扩展：为每个检索到的步骤收集最多?个之前的步骤和?个后续步骤，并将每个步骤转换为从??−?到??+?的长度为?+?+1的序列；2）相对顺序标记：对于一个示范步骤序列中的每个步骤，我们标记其相对于该序列中检索到的步骤的相对位置，即前一个步骤（??−1）标记为[Step -1]，下一个步骤（??+1）标记为[Step 1]；3）历史对齐：对于当前情节，我们用?+?个之前的步骤（可选还包括思考）来补充当前观察，以丰富信息并与示范对齐。

在ALFWorld和Mind2Web基准测试上的广泛实验表明，TRAD不仅超越了最先进的模型，而且还有效地帮助减少了噪声并促进了泛化。此外，TRAD已经在一家全球商业保险公司的实际场景中部署，并提高了机器人流程自动化的成功率。

ALFWorld与Mind2Web评测结果

比较Synapse基于任务元数据的轨迹级检索与TRAD基于思考的步骤级检索。 (a) Synapse的轨迹级检索仅考虑任务指令中的“搜索”，检索到的轨迹完全无关。然而，通过使用这些无关的轨迹生成思考，思考检索找到了与婴儿（幼儿）和导航相关的更相关的步骤级示范。(b) Synapse的轨迹级检索检索到的看似合理的例子并没有使用任务元数据在文本框中输入。尽管思考是不完美的，思考检索找到了更相关的示范，并且TRAD学会了输入“纽约”。

TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision https://arxiv.org/pdf/2403.06221.pdfhttps://github.com/skyriver-2000/TRAD-Official