AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


智能网络导航代理的工作流记忆(AWM):提升适应性和效率的前沿技术
发布日期:2024-11-06 12:06:18 浏览次数: 1639 来源:Halo咯咯



01

概述 

在快速发展的人工智能领域,网络导航代理的作用愈发重要。这些代理旨在自主执行诸如搜索、购物和信息获取等任务,利用高级语言模型解释指令,并在复杂的数字环境中做出决策。然而,尽管在这方面已经取得了显著进展,现有的代理系统在处理复杂、长期的任务时仍面临许多挑战。这些任务需要代理具备尚未完全实现的适应性和学习能力。

02

现有代理系统的挑战 

网络导航代理的核心挑战之一是其缺乏从先前任务中学习的能力。虽然这些代理在处理特定的训练示例时表现出色,但在面对全新或未见过的任务时,效率往往较低。代理系统通常孤立地解决每个任务,而不利用过去的经验来优化未来的决策。这种局限性不仅降低了其在多领域任务环境中的效率,也限制了其适应性。
传统上,解决这一问题的工具和方法依赖于固定的训练示例或上下文学习。这些方法使代理能够执行预定义的动作序列,但在处理新的情况或与训练数据不符的任务时却显得无力。例如,一个专注于特定购物任务的代理,在面对浏览新网站或预订航班等任务时可能会失败。这种刚性使得代理在不同任务和环境中的泛化能力受限。

03

代理工作流记忆(AWM)的创新解决方案 

为了解决这些挑战,卡内基梅隆大学和麻省理工学院的研究团队提出了一种名为代理工作流记忆(AWM)的新方法。这一创新方法的核心在于帮助代理从过去的经验中学习可重用的任务工作流,并将其应用于未来的任务。这种方法使代理能够生成并存储解决任务的常见动作序列,从而在不同的上下文中进行重用。
AWM 的工作原理是通过分析代理的历史经验,并从成功完成的任务中提取工作流。这些工作流由一系列目标导向的例程组成,并存储在代理的记忆中以备将来使用。例如,代理可能学会了一个基础的工作流,如通过地图搜索名称来定位某个地点。随后,它可以基于此基础上学习更复杂的工作流,例如检索该地点的邮政编码。这种基于记忆的方法允许代理在面对越来越复杂的任务时,利用先前学习的工作流来指导未来的行动,从而提升适应性和效率。

04

AWM 的性能提升 

AWM 在两个主要基准测试——Mind2Web 和 WebArena 上进行了评估,这两个基准测试涵盖了200多个领域的1000多个任务,包括旅行、购物和社交媒体。测试结果显示,AWM 显著提高了任务的成功率。在 Mind2Web 基准测试中,任务的成功率提高了 24.6%,而在 WebArena 中,相对成功率提高了 51.1%。此外,AWM 在 WebArena 上减少了完成任务所需的步骤数,处理仅数十个示例后,比传统方法提高了多达 22.5 个百分点。这些结果证明了 AWM 在各种数字任务中提高代理效率和适应性的能力。


04

泛化能力的突破 

研究人员还发现,AWM 在跨任务、网站和领域的泛化能力方面表现出色。在跨任务和跨领域评估中,AWM 的表现比其他基线方法高出 8.9 至 14.0 个百分点。这种泛化能力尤其值得关注,因为它表明 AWM 能够适应与代理最初训练时显著不同的任务。例如,一个接受过购物网站任务训练的代理能够有效地转移到社交媒体或旅行等领域,而无需额外的特定领域训练数据。

05

结语

代理工作流记忆的引入,为现有网络导航代理的局限性提供了一个有希望的解决方案。通过使代理能够从过去的经验中学习并重用工作流,AWM 大幅提升了任务的效率和适应性,使这些系统在处理复杂、长期任务时变得更加多功能。在 Mind2Web 和 WebArena 上的测试结果清晰地展示了 AWM 在网络导航方面的潜力,让代理能够以更高的性能和更少的步骤处理更广泛的任务范围。这一创新方法标志着在开发更智能、更灵活的数字代理方面迈出了重要一步,为未来的网络导航和任务处理提供了新的方向。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询