微信扫码
与创始人交个朋友
我要投稿
一、结论写在前面
论文来自复旦自然语言处理实验室 & 复旦视觉与学习实验室
项目网站:https://lagentgym.github.io
AGENTGYM仓库:https://github.com/WooooDyy/AgentGym
二、论文的简单介绍
2.1 论文的背景
类似于人类学习,agent通过模仿开始获取基础知识和技能。随着发展,agent应能通过与不同环境的互动持续学习和适应未见任务。此外,它可能从自身及他人的经验中汲取丰富洞见和智慧,发展出一定程度的泛化能力。图1展示了这一演化过程。
图1:本文中基于通用能力LLM的agent自我进化示意图。agent首先根据人类监督进行行为克隆,然后跨环境和任务进行探索和学习,以实现自我进化
图2:AGENTGYM框架概览。该框架涵盖了跨越多个类别的十四个环境。每个环境都部署为HTTP服务,客户端提供封装的统一接口供agent使用,便于与环境交互。论文从多样化的环境中收集专家标注的轨迹,称为AGENTTRAJ。随后,论文让agent在该集合上进行行为克隆,以获得一个基础的通用能力agent。通过论文的AGENTEVOL方法,论文探索agent在不同环境和任务中的进化。最后,论文使用提出的基准套件AGENTEVAL对agent进行全面评估
2.2 AGENTGYM:平台、基准套件与轨迹集
以用户友好的方式为每个环境部署独立的服务,以防止冲突。客户端可以通过HTTP协议与环境通信。该架构的核心是控制器,它作为agent与环境服务之间交互的通道,为agent提供了一个封装的、统一的环境功能或操作接口。此外,论文还实现了诸如评估器、训练器和数据收集管道等用户友好的组件,以支持社区发展。
指令收集与基准构建。论文收集了跨环境和任务的20509条指令和查询。对于已有大量指令的任务,如WebShop和ALFWorld,论文主要依赖其原始来源。对于指令较少的任务,如使用工具的任务,论文通过自指导和指令进化方法进行扩展,特别是通过提示GPT-4生成新指令[33; 34]。详情见附录C。然后,论文从每个环境中提取一个多样且具有挑战性的子集${\cal Q}_{eval}$,包含1160条指令,以构建基准套件AGENTEVAL,该套件能全面评估基于LLM的agent。剩余的指令集表示为Q = Uees Qe,其中表示环境e的剩余指令。
AGENTGYM是一个框架,旨在帮助社区轻松评估和开发基于大型语言模型(LLM)的通用能力agent。它具有多种交互环境及任务,采用统一的格式,即ReAct格式[35]。该框架支持实时反馈和并发处理,并易于扩展。论文包含了14个环境和89个任务,涵盖网页浏览、文字游戏、家务任务、数字游戏、具身任务、工具使用和编程等领域。这些任务对当前的LLM基agent具有挑战性。
•对于网页浏览任务,论文引入了WebArena(WA)和WebShop(WS)。
•在文字游戏中,论文包括了MAZE(MZ)和Wordle(WD)。论文选择ALFWorld(ALF)用于家务任务。
•在具身任务中,论文包含了Sci-World(Sci)和BabyAI(Baby)。论文选择TextCraft(TC)用于数字游戏。
•论文获取了Tool-Weather(WT)、Tool-Movie(MV)、Tool-Academia(AM)、Tool-Sheet(ST)和Tool-TODOList(TL)用于工具使用任务。论文建立了BIRD(BD)用于编程任务。
平台架构和组件。认识到不同agent环境固有的多样化依赖性,AGENTGYM以用户友好的方式为每个环境部署单独的服务,以防止冲突。客户端可以使用HTTP协议与环境通信。该架构的核心是控制器,它充当agent和环境服务之间交互的管道,为agent提供封装统一的环境功能或操作接口以供调用。此外,论文实现了用户友好的组件,如评估器、训练器和数据收集管道,以支持社区发展。
表1:AGENTGYM与其他agent框架的比较涵盖了几个方面:环境数量、交互平台的可用性及其使用、轨迹集的可用性、进化的支持及其模式
表2:AGENTGYM的统计数据,包括任务类型数量、指令集大小、评估集大小、轨迹集大小(AGENTTRAJ和AGENTTRAJ-L)以及每个环境的平均回合数
轨迹收集与过滤。在AGENTGYM中,服务器提供包括任务描述、环境设置和问题在内的指令给agent。接下来,agent以ReAct风格与环境交互,直至任务完成。论文收集了SOTA模型(如GPT-4-Turbo)和众包注释的轨迹。
论文严格过滤轨迹,根据奖励或正确性确保数据质量,并获得一组6130个轨迹。这一集合,命名为AGENTTRAJ。为公平比较,论文使用相同的流程对所有指令进行注释和过滤,得到AGENTTRAJ-L以展示BC的性能上限。
表2展示了AGENTGYM框架的详细统计数据。
2.3 AGENTEVOL:通用LLM基础agent的综合演化
这里论文首先通过行为克隆训练一个基础的通用能力agent,使其具备在agent任务中的基本交互能力。在此基础上,论文初步探索了LLM基础agent在多个环境和任务中的全面演化。论文将算法总结在算法1中。
2.3.1 基于收集轨迹的行为克隆
行为克隆通过让LLM基础agent逐步模仿收集的专家轨迹来微调它们。实践中,论文期望agent能够完成适当的内部思考h和行动a。论文使用AGENTTRAJ(表示为)来训练一个具有基本指令遵循能力和先验知识的基础通用能力agent。
2.3.2 通过探索和学习的演化
在AGENTEVOL算法中,论文将这两个步骤称为探索步骤和学习步骤。
2.4 实验与讨论
2.4.1 实验设置
2.4.2主要结果
表3中的实验结果表明:
2.4.3 讨论与分析
关于数据合并策略和迭代次数 的消融研究。在论文的实验中,论文将每次迭代中采样的轨迹与初始轨迹合并来训练agent,而不是将其与前一次迭代生成的轨迹合并。这里,论文进行了一项消融研究,以展示这种合并策略和迭代次数 的影响。实验结果如图 3 所示,与初始数据合并提供了更稳定的改进,而与前一次迭代轨迹合并导致性能波动,可能是由于过拟合。此外,随着 的增加,性能趋向于改善,但在后期的迭代中逐渐收敛。因此,论文选择 以平衡性能和效率。
关于样本数量 的消融研究。在探索步骤中,论文每迭代一次对每个指令进行一次采样。这里,论文对样本数量 进行了四项任务的消融研究。表 中的结果显示,性能随着 的增加而增加,但改进并不显著。因此,论文选择 以提高计算效率。
图3:数据合并策略和迭代次数的消融研究。策略1表示将当前agent生成的轨迹与初始轨迹集合合并;策略2表示将当前轨迹与上一迭代生成的轨迹合并
表6:成功和失败轨迹的进化实验
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-05-28
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-09-23
2024-07-09
2024-07-01
2024-07-18