微信扫码
与创始人交个朋友
我要投稿
图2:对齐决策方法的一个示例,其中? = ? = 1,且第?个检索到的步骤在其轨迹中位于时间??。对齐决策方法包括对检索到的步骤示范和提示的三个子过程:1)时间扩展:为每个检索到的步骤收集最多?个之前的步骤和?个后续步骤,并将每个步骤转换为从??−?到??+?的长度为?+?+1的序列;2)相对顺序标记:对于一个示范步骤序列中的每个步骤,我们标记其相对于该序列中检索到的步骤的相对位置,即前一个步骤(??−1)标记为[Step -1],下一个步骤(??+1)标记为[Step 1];3)历史对齐:对于当前情节,我们用?+?个之前的步骤(可选还包括思考)来补充当前观察,以丰富信息并与示范对齐。
ALFWorld与Mind2Web评测结果
比较Synapse基于任务元数据的轨迹级检索与TRAD基于思考的步骤级检索。 (a) Synapse的轨迹级检索仅考虑任务指令中的“搜索”,检索到的轨迹完全无关。然而,通过使用这些无关的轨迹生成思考,思考检索找到了与婴儿(幼儿)和导航相关的更相关的步骤级示范。(b) Synapse的轨迹级检索检索到的看似合理的例子并没有使用任务元数据在文本框中输入。尽管思考是不完美的,思考检索找到了更相关的示范,并且TRAD学会了输入“纽约”。
TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision
https://arxiv.org/pdf/2403.06221.pdf
https://github.com/skyriver-2000/TRAD-Official
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-08-13
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19