微信扫码
与创始人交个朋友
我要投稿
训练任务不足:离线数据集通常提供了人类注释的轨迹,便于在预定义任务上训练和评估智能体。但像WebArena这样的在线网页环境通常只提供有限的测试集用于评估。这种缺乏预定义训练任务和训练数据的情况显著阻碍了在这些环境中对智能体的有效训练。
反馈信号的稀疏性:在没有任务特定评估函数的情况下,评估任意网页浏览任务的成功与否较为困难。此外,不同于某些图形用户界面数据集中的任务(如 AITW 和 WebShop),WebArena中的任务通常具有较长的步骤序列,最优解平均需要约10步。这一特点在在线探索过程中导致了反馈信号的严重稀疏性。
在线学习中的策略分布漂移:由于缺乏预定义的训练集,在线探索成为必要,然而这不可避免地导致智能体策略的分布漂移。这一现象可能会引发灾难性遗忘,并导致性能随时间下降。
Llama3.1-8B 在 WebRL 训练下,平均准确率达到 42.4%,超越所有基线方法,尤其在Gitlab(46.7%)和CMS(54.3%)等复杂任务上表现出色。
WebRL 在不同模型架构中效果一致,如 GLM-4-9B 也展现了相似的性能提升,达到了 43% 的平均准确率,证明了 WebRL 的鲁棒性和适应性。
WebRL 在更大规模模型上仍具有有效性。Llama3.1-70B 在 WebRL 训练后的平均准确率达到了 49.1%。
在具有各种数量的步骤需求的任务上,WebRL 都有优秀的表现。尤其在需要更长步骤数量的任务上(步骤数 >= 6),WebRL 的表现明显优于其他方法。WebRL 通过课程学习逐步增加任务难度,提高了对复杂任务的处理能力,在需要长期规划的任务上表现优于其他方法。
WebRL 在不同复杂度的指令上表现良好,尤其在更复杂的指令上表现出色。WebRL 采用的自我进化课程学习策略能够基于模型能力逐步提升任务复杂度,从而在复杂任务上表现更佳,展现了其适应不同复杂度指令的有效性。
相比基线方法,使用 WebRL 训练的模型在“中途卡住(Get Stuck Midway)”错误上表现更好,成功减少了陷入重复操作的循环的情况。
WebRL 通过课程学习提升了模型应对“无法恢复错误(Fail to Recover)”的能力,使其在遭遇失败时能更灵活地调整操作。
WebRL 训练的模型在“错误页面停留”和“未尝试合理行动”错误上表现最优,表现出对任务与网页之间关系的更深层理解。这使模型能够更准确地识别完成特定任务所需的正确页面,从而减少误停错误页面或导航至不相关页面的概率。
WebRL 与 DigiRL 对比,证明了通过自我进化的课程学习策略可以实现更加持续的性能提升。
WebRL w/o replay buffer 与 WebRL w/o KL & replay buffer 对比,证明了 KL 散度约束的策略更新算法在减轻知识遗忘上的有效性。
WebRL 与 WebRL w/o replay buffer 对比,证明了重放缓冲区在实现模型能力稳定提升上的有效性。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-21
2024-04-11
2024-08-13
2024-07-09
2024-07-18
2024-10-25
2024-07-01
2024-06-17