AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


西湖大学&腾讯:一个多模态Web Agent的开源框架
发布日期:2024-11-15 10:44:59 浏览次数: 1804 来源:苏哲管理咨询


-OpenWebVoyager:通过迭代式的实际探索、反馈和优化构建多模态Web智能体。

Hongliang He1,3*, Wenlin Yao2, Kaixin Ma2, Wenhao Yu2, Hongming Zhang2,Tianqing Fang2, Zhenzhong Lan3, Dong Yu2123 

浙江大学,腾讯AI Lab(西雅图),西湖大学



编者:OpenWebVoyager采用了开源的多摸视频模型MANTIS  idefics2-8b-instruct



摘要  


大规模语言和多模态模型的快速发展引起了人们对使用专有模型,如GPT4o,开发能够处理像网页导航这样的现实场景的自主智能体的浓厚兴趣。尽管最近的开源努力试图使智能体能够在环境中进行探索并随着时间不断改进,但它们仅仅在合成环境中构建了仅处理文本的智能体,那里的奖励信号是明确定义的。这样的智能体在需要多模态感知能力并缺乏地面真实信号的真实情境中很难泛化。在本文中,我们介绍了一个旨在促进多模态Web智能体开发的开源框架,它可以自主进行现实世界的探索和改进。我们首先通过模仿学习训练基本模型以获得基本能力。然后我们让智能体探索开放网络,并收集其轨迹的反馈。之后,它通过从另一个通用模型判断的效果良好的轨迹中学习来进一步改进其策略。这种探索-反馈-优化的循环可以继续进行多次迭代。实验结果表明,我们的网络智能体在每次迭代后成功地改进自身,在多个测试集上展现出强大的性能。


目录

1介绍



2相关工作



2.1多模态网络智能体



2.2自我提升的网络智能体



3方法



3.1任务制定



3.2 OpenWebVoyager概述



3.3Web任务查询收集



3.4模仿学习



3.5迭代优化



4实验



4.1数据集和评估指标



4.2实验细节



4.3主要结果



4.4讨论



5.结论



限制条件



伦理声明



参考文献



A环境和提示



B算法



C模仿学习的查询准备



D示例轨迹



1介绍


软件开发能够完成诸如网络导航等复杂任务的自主智能体是AI社区面临的重大挑战(Zhou等,2023年;Gur等,2023年;Deng等,2024年;Koh等,2024年)。最近,大型语言和多模态模型(如Claude(Anthropic,2024年)和GPT-4o(OpenAI,2024年))的进展已经。


利用提示工程使得构建这样的智能体成为可能(He等,2024年;Zheng等,2024年b;Ma等,2023年)。然而,这些智能体由于依赖闭源模型而难以进一步改进。另一方面,研究探索了通过从较弱的开源模型开始构建智能体的替代方式,并通过迭代地探索环境、收集反馈信号和更新策略模型来逐渐提高模型性能(Xi等,2024年;Putta等,2024年;Patel等,2024年)。然而,现有研究仅关注在合成环境中构建仅文本智能体(Song等,2024年)。合成环境提供了明确定义的奖励信号的好处,使得智能体能够有效区分轨迹的质量并相应地学习。然而,合成环境无法捕捉实际场景的复杂性,导致在应用于实际任务时可能存在潜在的泛化问题。此外,实际环境通常没有内置的奖励信号,这给智能体的学习和改进过程带来另一个挑战(He等,2024年)。此外,实际网页是基于人类视觉偏好设计的,忽视视觉输入可能导致重要信息的丢失,影响智能体的性能。


 1OpenWebVoyager 的整个过程,包括模仿学习阶段和探索反馈优化周期。Agent通过 有限学习基本的多模态 Web 导航技能,并继续探索现实世界的 Web 环境。GPT-4o 提供有关探索的多模态轨迹的反馈,为Agent留下成功的改进轨迹。



为了解决上述局限性并在实际环境中探索开源模型,我们提出了OpenWebVoyager,一个通过迭代的真实世界探索、反馈和优化来构建多模态Web智能体的开源框架。我们展示了OpenWebVoyager可以通过初始的模仿学习(IL)阶段,然后是多个探索-反馈-优化循环,学习执行真实世界的网络导航任务。为此,我们首先编制了一组多样化的网络任务。


查询和收集相应智能体轨迹,使用基于GPT-4o的最先进多模态智能体WebVoyager(He等人,2024年),我们将其称为WebVoyager-4o在模仿学习阶段,我们训练OpenWebVoyager在WebVoyager-4o成功完成任务的轨迹上,教导智能体基本技能来执行网络导航随后,在探索-反馈-优化周期内,我们继续合成新的网络任务,让我们的智能体探索和收集更多轨迹。在这个阶段,我们遵循He等人(2024年)并利用GPT-4o自动评估OpenWebVoyager产生的轨迹的正确性。收集反馈后,我们保留成功的轨迹,并将它们与模仿学习阶段的数据合并,进行下一轮训练以改进OpenWebVoyager。然后改进后的智能体用于在下一次迭代中采样新的轨迹。这种简化而有效的设计使我们摆脱手动收集轨迹的限制和陈旧,更多地依赖GPT-4o的监督,从而实现持续优化的可行性。在我们的实验中,我们将idefics2-8binstruct(Laurençon等人,2024年)作为我们的骨干模型,并从WebVoyager和Mind2Web数据集中选择了48个常见的网站来收集轨迹。整个过程包括一个模仿学习阶段和三个探索-反馈-优化周期。对于每个阶段,我们利用self-instruct(Wang等人,2022年)生成新的网络查询。我们使用WebVoyager和Mind2Web测试集上的任务成功率来评估智能体的性能。结果表明,在WebVoyager测试集的四个阶段中,任务成功率逐渐从19.9%上升到25.8%,在Mind2Web跨任务集上从6.3%上升到19.6%,显示了多模态网络智能体中迭代优化的潜力。此外,在Mind2Web跨网络(未见网站)集上也观察到轻微的改善,从6.6%提高到10.4%,表明探索-反馈-优化周期在某种程度上可以推广到未见网站。


2相关工作


2.1多模态Web智能体


最近,人们对构建多模态Web智能体的兴趣日益增长,特别是那些结合了视觉和文本理解能力的智能体。与传统的基于HTML的LLM智能体(Lutz等,2024年;Zhou等,2023年;Gur等,2023年;Nakano等,2021年;Ma等,2023年)不同,基于大型多模态模型(LMM)的智能体可以执行更广泛的Web任务,并适应更复杂的Web环境。主要区别在于观察空间。为了获取多模态输入信号,SeeAct(Zheng等,2024a年)专注于使用边界框和候选Web元素的索引标签对Web页面的图像进行注释。WebVoyager(He等,2024年)和VisualWebArena(Koh等,2024年)都使用JavaScript工具从屏幕截图中提取Web元素并以Set-of-Mark(Yang等,2023年)格式对其进行注释。DUAL-VCR(Kil等,2024年)将每个Web元素与其在屏幕截图中的邻居进行关联。SCAFFOLD(Lei等,2024年)引入点阵和图像上的坐标以增强视觉基础。大多数前述的多模态Web智能体依赖于提示封闭源多模态模型,如GPT-4V(OpenAI,2023年),Claude(Anthropic,2024年)和Gemini(团队等,2023年)。这些模型强大的视觉基础和理解能力使它们能够正确解释网页截图并使用像ReAct(Yao等,2022年)或Chain-of-Thought(Wei等,2022)的范式进行适当规划。虽然一些先前的研究尝试利用开源视觉语言模型构建Web智能体(Zheng等,2024a年;Koh等,2024年),但他们发现像BLIP-2-T5(简氏等人,2024年)、LLaVA(刘等人,2024年)和Idefics(洛朗松等人,2023年)很难达到令人满意的性能。主要原因是这些开源的视觉语言模型的预训练主要集中在对齐图像文本特征和视觉问答,而不是图像文本交错的智能体轨迹。

在这项工作中,我们提出了一个建立在开源模型基础上的智能体,能够自动收集轨迹以持续改进自身,从而在性能上取得显著的增益。


2.2自我提升的Web智能体


研究人员还试图通过自我改进来提升智能体,并使它们适应复杂环境。AgentGYM(Xi等,2024年)提出了一个框架,统一了一系列环境,用于实时探索和演化基于LLM的智能体。AgentQ(Putta等,2024年)集成了蒙特卡洛树搜索(MCTS)和直接偏好优化(DPO;Rafailov等,2024年)算法,根据成功和失败的网络轨迹迭代地更新基于LLM的网络智能体的策略。Patel等人(2024年)建议通过利用网络智能体收集和过滤域内轨迹,加上域外任务以及假设解决方案轨迹来改进。然而,目前对如何利用多模态网络信号实现自我改进的研究还不足。我们的目标是使多模态网络智能体能够适应复杂和动态的在线环境,增强它们的通用性和在许多在线网站上运行的能力。


3方法


在这一部分,我们介绍了OpenWebVoyager,这是一种创新的网页智能体,为基于LMM的Web智能体提供了一条迭代优化的路径,以处理复杂的在线网络任务。首先,我们让智能体在第一阶段学习WebVoyager-4o的网络导航轨迹,以获得基本的网络知识和导航技能,即模仿学习(IL)。随后,智能体会根据来自GPT-4o的反馈进行迭代性地探索和改进。


3.1 任务制定


在互联网网络浏览环境E中,将网页导航过程视为部分可观察马尔可夫决策过程(POMDP)。设置由元组(S,O,A,T,R)定义,其中S表示状态空间,O代表观察空间,A是动作空间。 T是确定性转换函数,在浏览器中执行网页操作以促进过程。在这种环境下的奖励R通常是指示成功或失败的稀疏信号,分别为1或0。


给定一个任务查询 q 及其对应的网站 w,我们可以通过将状态 s1 设置为该网页来初始化 web 环境 E,并获得第一步观察 o1 ∈ O。 在这项工作中,我们采用了视觉语言设置,即每一步的观察将包括一个可访问性树和一个屏幕截图,即,让 θ 表示大型多模态模型(LMMs)的参数。 遵循 ReAct 范式,我们使用 LMMs 推导思考和行动:


在这里,我表示系统提示,包括答案格式、网络操作介绍和一些指南。然后将转移函数T应用于解析动作并在网页上执行,获得下一个状态s2。因此,在时间步骤t,我们有:



, where T is the ,其中 T 是网页导航中的迭代次数,即轨迹的长度。


3.2 OpenWebVoyager 概述


我们采用WebVoyager提供的基于Selenium的在线网络导航环境(He et al.,2024)。与WebVoyager相比,我们不采用一组标记方法。


我们只保留最近的可访问性树。为了标记截屏元素,因为开源学习型多模态系统在识别截屏中的数字标签方面面临重要的视觉基础问题。我们修改了网页的观察,包括可访问性树及其对应的未标记截屏。附录A的图4显示了观察空间的一个具体示例。


图 2:我们的多模式 Web Agent的模型架构。我们使用最近的 3 个 Web 截图来演示执行 Web 操作后的页面变化,并在辅助功能树中标记 Web 元素,以方便Agent进行选择和响应。考虑到序列长度的限制,为避免混淆,我们只保留最新的可访问性树。


我们采用Idefics2(Laurençon等人,2024)作为构建OpenWebVoyager的骨干LMM。Idefics2非常适合我们的任务,因为在训练过程中它包含了交叉的图像文本文档,提升了模型的多图像推理和长上下文理解能力。此外,Idefics2支持编码高达980x980像素的高分辨率图像,这对于保留网页截图中的细粒度视觉细节是必要的。在图2中,我们阐述了如何调整Idefics2架构来构建OpenWebVoyager。类似于输入到GPT-4o中的消息,我们将<image>标记嵌入到上下文中的相应位置,并将其与可访问性树对齐。基于包含多模态信息的观察结果,基于Idefics2的智能体将做出决策。图1展示了IL和探索-反馈-优化循环的完整过程:通过WebVoyager-4o收集强化学习的轨迹,训练基础智能体,然后持续探索新的轨迹。根据来自GPT-4o的反馈,成功的轨迹被用于优化。


3.3Web任务查询收集


IL阶段的查询是至关重要的,因为它为后续的改进奠定了基础。我们的目标是收集各种难度的网络任务,使得GPT-4o能够生成多样化的轨迹。我们选择48个流行网站,然后在模仿学习之前从多个角度选择和综合查询QIL。QIL收集的详细信息请参见附录C。继续使用自指导(Wang等人,2022年)方法生成新的查询,这些查询类似但并非基于现有查询的复制。在每个探索-反馈-优化周期中,我们自动为48个网站生成480个查询,每个网站10个查询。然后智能体根据这些任务进行网络探索。

3.4模仿学习


收集轨迹。 我们利用 GPT-4o 以及 WebVoyager 范例(He 等人,2024年)来生成与上述查询对应的网络导航轨迹。该智能体被命名为 WebVoyager-4o,并配置为接收包含最新k步的观测结果,包括可访问性树和屏幕截图。即,对于每个qi ∈ QIL,τi ∼ πθg(τ|I,qi),当 t > k 时,我们会裁剪长上下文 ct 以避免性能退化:




我们值得注意的是,我们保留每一步的思考和行动,以保持完整的推理过程,而不占用过多的上下文。收集到的轨迹分为三个预定义的类别:未完成的(超出导航的最大迭代次数)、完成但不成功的,以及完成和成功的。在这个阶段,为了更好地从GPT-4o中提炼知识,我们筛选掉未完成的轨迹,仅保留其他的轨迹进行模仿学习训练。同时,我们重新对未完成的任务进行采样一次,以提高查询的利用率,并减少由于采样随机性导致的导航失败问题。采用 Idefics2 进行学习(Laurençon等人)。 2024年)学习通过WebVoyager-4o收集的轨迹。在Idefics2中,屏幕截图被编码为64个视觉令牌。然而,每个可访问性树的长度通常远远大于64个令牌。考虑到序列长度的问题,我们必须进一步截断上下文和图像数量,保留最新的k个图像,同时只保留当前页面的一个可访问性树。也就是说,在方程3中移除k−1个可访问性树。


让DIL代表收集到的轨迹,θ代表Idefics2模型的参数。我们的目标是最大化以下目标函数:



通过模仿学习,智能体已经学会了基本的操作逻辑和响应格式,因此不再提供系统提示I,因为其长度相当大。


3.5迭代优化


在模仿学习阶段之后,经过训练的智能体πθb将继续探索网站并进行多轮探索-反馈-优化循环。我们继续使用自我指导来生成更多的查询。智能体不再依赖于WebVoyager-4o来收集轨迹,而是自己收集轨迹。在每个探索-反馈-优化循环中,我们利用GPT-4o进行轨迹级别的拒绝抽样,以确保质量轨迹。设为第j次优化的查询集合,对于每一个,我们从模型πθj−1中抽样几条轨迹,GPT-4o充当自动评估器,只接受GPT-4o认为成功导航的轨迹。我们认为这种自动评估方法是可靠的,因为评估轨迹的正确性比获得正确轨迹要容易得多。何等人 (2024) 还展示了GPT-4o与人类之间高水平的评估一致性。


表示在第j次优化中采用拒绝抽样后收集到的轨迹集合。我们将这些收集到的轨迹集合与DIL混合,并通过最大化以下目标来继续微调πθj−1:



j = 1,...,m表示优化的次数,DSI = DIL∪Devj表示混合轨迹集合,πθ0设置为πθb。完整的流程在附录B的算法1中显示。


4实验


4.1 数据集和评估指标


在§3.4中,我们已经概述了在模仿学习阶段查询集QIL的构成,其中包括《Mind2Web》(Deng等人,2024年)和《WebVoyager》(He等人,2024年)中提到的48个网站,以及收集的1516个相关任务查询。我们使用WebVoyager4o为它们收集相应的轨迹,每个查询最多有2个轨迹。然后我们保留了1165条完成的(包括成功和失败)轨迹,共7253轮交互。在第j次探索-反馈-优化周期中,我们为选择的48个网站消耗了480个查询。轨迹经过πθj−1采样,最大重采样次数设置为5。


评估数据集为了评估我们的智能体的性能,我们使用以下数据集:1) WebVoyager(He等,2024年)测试集,包括在训练期间见过的15个网站和643个任务查询;2) Mind2Web(Deng等,2024年)跨任务测试集,其中包括在训练期间见过的33个网站和总共112个查询。3) Mind2Web跨网站测试集,我们从中选择2个网站。


表格1:WebVoyager测试集(643个查询)的任务成功率。所有网站在训练过程中均可见。'IL'、'iter-1'、'iter-2'和'iter-3'代表IL后的智能体、第1次、第2次和第3次优化后的智能体。'dgs'和'dgs-g'表示难度引导采样,即对于采样准确率低的网站采集更多轨迹,前者通过添加智能体自身采样的轨迹,后者通过添加GPT-4o采样的轨迹。Mind2Web跨任务(未见任务)Mind2Web跨网站(未见网站)智能体 娱乐 购物 旅行 总体 娱乐 购物 旅行 总体OpenWebVoyagerIL


表格2:Mind2Web跨任务和跨网站测试集的任务成功率。在跨任务集中,相同网站的查询在训练过程中可见。在跨网站集中,网站在训练过程中未见,但仍属于娱乐、购物和旅行领域。"娱乐","购物"和"旅行"领域,在训练过程中未见过这些网站,但它们属于相同的领域,总共有106个查询。


在WebVoyager之后,我们采用由GPT-4o自动评估的任务成功率作为主要指标。为了查看探索-反馈-优化循环中的探索效率,我们定义成功@K (S@K)为在K个样本内成功完成任务的比例。此外,我们关注完成率 (F@1),其中只要智能体在最大导航步数内选择了'ANSWER',任务就被视为已完成。表3显示了在探索-反馈-优化循环中的查询集和收集到的轨迹的详细信息。


4.2实验细节


为了收集数据用于模仿学习阶段,我们采用了最先进的模型GPT-4o与WebVoyager框架(WebVoyager-4o)来采样网络导航轨迹。我们设置k = 3,即上下文最多包含3个屏幕截图和相应的可访问性树,但保留了GPT-4o在每一步生成的思考和行动。我们的Agent基于具有出色的视觉语言能力的Idefics2-8b-instruct来完成模仿学习和探索反馈优化循环。在微调过程中,最大序列长度设置为8192。我们不再使用系统提示,并进一步裁剪上下文以接受最多3个屏幕截图和1个可访问性树。屏幕截图的原始分辨率为1024*768,并调整大小,使较长的边不大于。



图3:OpenWebVoyager在从模仿学习阶段到第三次探索-反馈-优化循环中在WebVoyager和Mind2Web测试集上的性能增长。


在将数据输入Idefics2之前,在每个阶段我们将批量大小设定为64,并进行300次迭代训练,大约2-3个epochs。在探索反馈优化阶段,我们通过总共m=3次迭代来反复训练我们的智能体。当智能体执行探索时,我们将温度设定为1.2以改善随机性。智能体为每个给定的任务查询采样最多5条轨迹。我们仍然选择GPT-4o作为反馈模型,并对得到积极反馈的轨迹进行进一步优化。


4.3主要结果


在整个模仿学习和探索-反馈-优化周期的过程中,我们训练了四个模型:OpenWebVoyagerIL、OpenWebVoyageriter-1、OpenWebVoyageriter-2和OpenWebVoyageriter-3。



表1显示了这些模型在WebVoyager测试集上的性能。表2展示了这些模型在Mind2Web跨任务和跨网站测试集上的结果。我们展示了我们的智能体在这些数据集上从模仿学习阶段到第三次探索-反馈-优化循环的性能变化,如图3所示。


从表1和表2的结果可以看出,在优化过程中,无论是在WebVoyager测试集还是Mind2Web跨任务测试集中,任务成功率都有一般性的改善。这表明了当测试集中的网页在训练阶段进行了训练或探索时,我们的方法是有效的。在Mind2Web跨网站测试集中,探索-反馈-优化循环也在一定程度上提高了模型的性能,尽管不像在跨任务集中那样显著。另外,在这些未探索的网站上改进是不稳定的,智能体受到抽样随机性的影响,在网页导航过程中更容易陷入困境。


表3显示了GPT-4o对探索阶段智能体采样的轨迹的反馈结果。我们发现,尽管有5次重新采样的机会,智能体在许多网站上仍表现不佳。因此,我们考虑在探索-反馈-优化阶段特别增加这些“困难”网站的轨迹数量。为了研究这种难度引导采样(DGS)策略的有效性,我们训练了OpenWebVoyageriter-3-dgs-g和OpenWebVoyageriter-3-dgs。前者涉及在第三次迭代期间添加由WebVoyager4o对S@5低于40%的网站进行采样的一些轨迹,而后者添加了智能体自己采样的一些轨迹。与OpenWebVoyageriter-3相比,对“困难”网站添加探索轨迹可以提高某些网站的性能,如Google Flights。然而,受采样随机性的影响,优化结果并不稳定,如在Booking、GitHub等网站中所见。另外,在探索阶段整合WebVoyager-4o采样的轨迹已经带来了一些整体性能的提升。


4.4讨论


在推断过程中,我们记录轨迹的平均长度(即当智能体提供答案时)以及成功的长度。Web导航轨迹的平均长度变化如表4所示。


在我们的实验中,我们观察到随着迭代优化的进行,智能体器倾向于在更少的交互步骤中完成任务,并在熟悉的网站上更快地导航。这种现象创造了一个循环,即在探索-反馈阶段获得的轨迹变得更短,导致模型在优化过程中更加集中于从较短的轨迹中学习。


幻觉限制了智能体的表现。我们发现,智能体经常直接产生在导航过程中并未出现的答案。轨迹长度的减少可能增加了此问题的发生频率。智能体倾向于在一定长度的轨迹后直接终止导航,而不是继续搜索。



表3: 在探索 - 反馈 - 优化循环中查询集和轨迹集的详细信息。任务成功与否的反馈由 GPT-4o 提供。F@1 表示第一次探索的完成率。S@K 表示在K次探索中的任务成功率。每个任务将采样轨迹,直到成功或失败5次,成功的轨迹将被保留以改进我们的智能体程序。


表4:不同优化周期内在各种测试集上轨迹的平均长度。'完成'和'成功'表示我们分别对完成或成功的轨迹计算平均长度。



表5:智能体使用重新开始动作的频率:让R表示具有重新开始的轨迹数,RS表示具有重新开始的成功轨迹数,S表示成功轨迹的总数。


根据表3所示,我们还可以观察到F@1的结果很高,但S@1相对较低。这表明agent认为已完成任务,但实际上是失败的。而在GPT-4o采样轨迹中,完成率和成功率接近。这种观点表明在未来的探索中,我们可以通过增加采样的多样性,改变任务难度和轨迹长度。重新启动搜索引擎并解决任务。


WebVoyager的范例,在遇到困难时,重启导航回搜索引擎是一个重要的网络行动。在本文中,“重启”行动也在模仿学习阶段的数据中提供。我们观察智能体程序使用重启行动的频率,计算其成功率,以及使用重启的成功任务与总成功任务的比率,如表5所示。我们可以从结果中推断。



表6:研究是否在探索-反馈-优化循环中使用来自先前阶段数据混合(OpenWebVoyageriter-1 → OpenWebVoyageriter-2)。


在WebVoyager测试集中,随着智能体经历迭代优化过程,它们越来越倾向于使用搜索引擎。成功路径中通过使用搜索引擎实现的成功轨迹比例正在不断上升,解决了部分导航失败的问题。


其他设置和参数。轨迹收集非常耗时,特别是在探索阶段,每个查询需要重新采样最多5条轨迹来解决相对困难的导航任务。因此,在强化学习阶段我们主要调整超参数,如学习率和全局批量大小。然而,我们最终发现这并没有太大意义,因为与网页导航和采样随机性带来的挑战相比,误差要小得多。


在探测-反馈-优化循环中,我们还尝试通过GPT-4o的反馈混合考虑成功的所有轨迹,例如,使用DIL ∪ Diter-1 ∪ Diter-2来改进OpenWebVoyageriter-1。我们选择了120个WebVoyager查询,并在表6中比较任务成功率。


5. 结论


在这篇论文中,我们通过迭代探索、反馈和优化来探讨如何构建一个多模态Web智能体。我们采用idefics2-8b-instruct作为骨干LMM模型,并从众多网站收集网络任务查询。最初,我们的智能体通过模仿学习学习了GPT-4o的网络操作逻辑。然后进入探索-反馈-优化循环,根据新的网络任务探索和收集轨迹,保留GPT-4o认为正确的轨迹以供进一步学习、更新和优化。我们专注于构建基于LMM的迭代优化网络智能体,具有多图像理解能力,使其能够适应复杂和动态的在线网络环境。整个过程主要涉及智能体的自我探索和GPT-4o的监督,减少人类干预并允许持续扩展,以确保智能体的普适性。


限制条件


首先,我们只考虑在模拟环境中最常见的可执行的网络操作,包括点击、输入和滚动,而不涉及更高级的操作,如拖动和缩放。此外,我们的方法基于一个参数较小的LMM Idefics2,有 8B 个参数,这可能限制了Agent有效地浏览未知领域的网站并响应复杂的用户查询。在复杂网站上的低性能可能进一步影响探索效率,在探索-反馈-优化过程中导致改进很小且耗时。最后,我们的模型仍然主要依赖于可访问性树,我们希望改进视觉基础和多图像推理能力,以便像 GPT-4o 一样直接使用网页截图进行规划。


伦理声明


考虑到在线网络浏览所带来的潜在风险,我们所有的实验严格遵守伦理指南。我们的方法包括人类监督以及GPT-4对内容违规的监控。在对所有网络任务轨迹进行抽样时,并未检测到智能体的任何违规行为。由于新闻网站上的广告或内容的敏感性,一小部分任务被过滤。这些任务不涉及个人姓名、账号密码等私人信息。任务通常包括信息搜索活动,不涉及实际预订或支付交易。在我们的工作中,网络智能体的抽样轨迹仅用于研究目的。该智能体以模拟人类的方式运作,采样频率较慢,确保不对探索的网站施加任何压力。


参考文献  


略。。。。。。


A 环境和提示


我们采用WebVoyager框架进行在线真实世界的网络Web浏览。所使用的网络操作是最基本的点击、输入和滚动操作,如表7所示。与WebVoyager不同的是,我们不使用Mark集合方法来标记屏幕截图。相反,我们将屏幕截图和可访问性树结合起来作为智能体的观察来做决策。图4展示了一个观察的示例。


根据观察结果的变化,我们在模仿学习阶段对WebVoyager(He 等人,2024年)的系统提示进行了轻微修改,以适应无障碍树+ 屏幕截图的范式。在 Web 操作实施方面,无障碍树中的每个元素都有预先保存的属性信息,其中“union_bound”标记了元素的位置信息。我们使用 Selenium 定位出现在该位置的元素,再访问它。


在WebVoyager框架中,除了系统提示,作者设计了错误反馈功能来确保效率。当某个操作失败时,会有一个提示,上面写着:“您选择的操作无法执行。请仔细检查是否选择了正确的元素或使用了正确的操作格式,然后提供修改后的思想和行动。”这个提示旨在提醒智能体人纠正错误。在训练我们自己的智能体人时,尽管我们不再使用系统提示,但仍保留错误反馈机制。

B算法


在算法1中,我们展示了OpenWebVoyager的完整算法它主要由模仿学习(IL)阶段和多个探索反馈优化循环组成。在IL阶段中,GPT-4o(πθg)作为专家通过WebVoyager框架采样轨迹,需要大量的OpenAI API调用。在探索反馈优化循环中,GPT-4o充当专家评估轨迹,每个轨迹仅需要一个API调用。因此,在算法执行过程中,存在一个折衷。一方面,我们的目标是在增强学习阶段增加采样,以提升模型的能力并获得强大的基础模型 (πθb),从而改善探索效率。然而,如果在增强学习阶段的改进不显Algorithm 1 OpenWebVoyager在这种情况下,使用额外的GPT-4o调用进行IL阶段可能不具有成本效益。在这种情况下,让智能体自己探索,同时GPT-4o作为辅助监督可能会更有益。数据集的详细信息。

在模仿学习阶段和探索-反馈-优化周期中,我们从48个网站收集任务查询进行探索。我们利用来自WebVoyager的15个网站和来自Mind2Web的37个网站,总共48个网站(包括4个重复)。表8显示了在训练阶段使用的具体网站名称。在推断期间,我们使用来自WebVoyager测试集的所有任务查询,并从Mind2Web跨任务和跨网站测试集中选择一些任务查询,包括已学习和未学习的网站。为了便于测试,我们更新了一些任务的时间信息,但没有更改它们的任务表达。表9展示了关于测试集的详细统计信息。

C模仿学习的查询准备


在模仿学习阶段的学习效果不仅与GPT-4o的专业知识有关,还与所使用的任务查询的丰富程度有关。为了在模仿学习阶段尽可能使轨迹多样化。


从以下几个角度收集任务查询:


1.来自Mind2Web训练数据的查询。我们选择了37个可用网站以及它们对应的查询,更新了旅行相关任务的日期信息,总共有516个查询。


2.通过自我指导合成查询。使用WebVoyager中提到的基于自我指导的方法(Wang等,2022年),我们为每个网站生成了20个查询,总共生成了300个查询。句子嵌入模型all-mpnetbase-v2用于计算查询相似度并过滤出与任务多样性高度相关的查询。在WebVoyager和Mind2Web之间有4个网站重叠,总计48个网站人类编写的查询。认识到上述任务的随机性和复杂性,我们借鉴了课程学习的思想。(Soviany等人,2022)并为每个网站手动设计了5个更容易的任务查询,可以由人类在2-6步之间完成,共计240个任务。


3.一般用户的查询。为了增强泛化性,我们收集了由张等人(2024)提供的460个查询,并标准化它们以从搜索引擎开始导航。这种方法使智能体能够探索更广泛的网站范围,并帮助其意识到在导航失败的情况下,可以尝试使用搜索引擎。


图 4:反馈到智能体中的观察结果示例,其中屏幕截图由浏览器呈现,辅助功能树从 HTML 中提取并从 '[1]' 开始编号。


D 示例轨迹


在图5和图6中,我们呈现了两个ex-成功的网页导航示例


OpenWebVoyageriter-3。如图5所示,智能体程序直接在Google Flights网页上导航并成功。智能体程序基于辅助树中的屏幕截图和特定文本信息进行决策。在图6中,智能体程序错误地认为需要登录才能在GitHub上搜索,然后选择从Google搜索重新开始并找到答案。


我们还提供一个示例,说明当智能体无法找到答案时会产生幻觉。如图 7 所示,在浏览 Allrecipes 网站时,智能体无法找到符合任务要求的巧克力曲奇食谱。然而,它提供了一个名为“经典巧克力曲奇饼干”的答案。这种差异可能归因于智能体在无障碍树中将“经典”解释为食谱,甚至在没有相关性的情况下产生了烹饪时间的幻觉。


表7:本文中使用的Web操作。


表8:在模仿学习和探索反馈优化循环中,共选择了48个网站,其中包括来自WebVoyager的15个和来自Mind2Web的37个(4个重复)。



表9:测试数据集的详细统计信息。在训练过程中,已经见过来自WebVoyager和Mind2Web跨任务的网站,而来自Mind2Web跨网站的网站尚未遇到。





53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询