微信扫码
与创始人交个朋友
我要投稿
“手机端Agent一直是近年来的热点话题,阿里先后推出的Mobile Agent v1与Mobile Agent v2更是将其推向了顶峰。虽然利用静态演示进行训练的方法已经显示出一些应用前景,但是这种方法在控制真实GUI时是不满足需求的,因为它们无法处理静态观测数据中没有捕捉到的真实世界的随机性信息。本文介绍了一种新的自主RL方法,称为DigiRL。它通过分两个阶段微调预先训练的VLM来训练设备控制代理:即初始化离线RL模型和离线到在线RL。为此,作者构建了一个可扩展且可并行的安卓学习环境,配备了一个基于VLM的评估器,并开发了一种简单有效的RL方法来进行该领域的学习。”
项目主页-https://digirl-agent.github.io/
代码链接-https://github.com/DigiRL-agent/digirl
论文链接-https://arxiv.org/abs/2406.11896
01-视觉语言模型简介
视觉语言模型(Visual Language Models,VLM)是一类能够同时从图像和文本中学习的多模态模型,广泛应用于视觉问答、图像字幕、文档理解等多种任务。
视觉语言模型的基本定义已经清晰地表明了其多模态特性。这类模型可以处理来自图像和文本的信息,从而执行多种复杂任务。这种能力来源于它们的生成式模型设计,可以接受图像和文本输入并生成文本输出。
在实际应用中,不同的视觉语言模型具有不同的架构和训练方法。例如,CLIP模型通过对比学习算法在大规模图像和文本数据集上进行预训练,学习图像和文本之间的对应关系。BLIP模型则是一种双语视觉语言模型,能够在图像和文本之间建立双语对应关系,实现跨模态交互。这些模型的设计旨在提升跨模态理解和生成的能力,使得它们在各种任务中都能表现优异。
综上所述,视觉语言模型通过融合视觉和语言信息,实现了多模态交互和推理的强大功能。随着技术的不断进步,未来的VLM将在更多领域展示其独特价值,推动人工智能技术的发展。
02-设备端GUI Agent发展历程
2024年6月,Junyang Wang, Haiyang Xu等人提出“Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration”算法。本文提出Mobile-Agent-v2,这是一种用于移动设备操作辅助的多智能体架构。该体系结构包括三个agent:规划agent、决策agent和纠错agent。规划agent将冗长的、交错的图像-文本历史操作和屏幕摘要浓缩为纯文本任务进度,然后将其传递给决策代理。上下文长度的减少使得决策agent更容易导航任务进度。为了保留焦点内容,作者设计了一个内存单元,通过决策agent随任务进度进行更新。此外,为了纠正错误的操作,纠错agent会观察每个操作的结果,并快速处理任何错误。大量的实验结果表明,与单agent架构的移动代理相比,Mobile-Agent-v2的任务完成率提高了30%以上。
这些结果不仅显著超过了先前的最佳代理,包括具有GPT-4V的AppAgent(8.3%的成功率)和使用AitW数据训练的17B-CogAgent(14.4%),而且还显著超过了基于过滤行为克隆的先前最佳自主RL方法(57.8%),从而建立了一种用于设备控制的数字代理的新方法。
最后,代理使用来自真实世界的图形用户界面数据来执行在线强化学习,并通过在线RL和自主性能评估不断提高其性能。
上图展示了环境细节信息。顶部表示的是动作空间和环境动力学。底部表示的是阅读世界环境的非平稳性和动态性案例。真实世界的设备控制带来了模拟环境中不存在的随机性的挑战,例如:1)网站和应用程序的非平稳性,它们会频繁更新,导致在线观察与过时的离线数据不同;2)各种不可预测的干扰因素,如弹出广告、登录请求和搜索结果的随机顺序;3) 技术挑战和故障,如网页加载不完整或对某些网站的临时访问限制。通过观察与分析上图,我们可以发现:这些随机元素对预先训练的VLM构成了重大挑战,甚至包括那些对设备控制数据进行微调的VLM。
受到最近一些工作的启发,像transformer这样的现代深度学习架构可以更好地使用交叉熵损失而不是均方损失进行训练,作者利用基于轨迹奖励的蒙特卡罗估计的交叉熵目标来训练两个值函数。DigiRL由两个步骤组成:
首先,使用离线RL来充分利用潜在的次优现有离线数据集。
然后,使用离线到在线RL来鼓励代理从自己的尝试和错误中学习。
DigiRL为设备控制代理问题确定了最简单但有效的RL设计选择策略。与最先进的替代方案(如拒绝采样(或过滤行为克隆))相比,RL算法框架具有以下优势:作者利用指令级值函数隐式构建自动课程,优先考虑对代理信息最丰富的任务。作者使用阶跃值函数来挑选轨迹中的有利动作(标记朝着目标前进的动作),同时留下有噪声的动作(对目标没有贡献的动作)。
05.03-创建并行环境
整体的设计架构如上图所示,这种设计可以很容易地放大到多机设置。一台配备GPU加速器的主机具有当前策略πt的本地副本,并将该策略分发给所有仅配备一个GPU和多个CPU的工作机。然后,每个工作机器将使用πt收集不同任务的轨迹。在所有收集过程同步后,主机将所有轨迹收集在一起,将策略更新为πt+1。这个过程不断迭代,直到策略收敛。
上图展示了在自动评估器和人类判断间的关联性。主要结果是用Gemini-1.5-Pro自主评估的。除此之外,作者还对一些子集进行了手动评估,发现自主评估结果与手动评估高度一致,平均差异小于3%。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-21
2024-08-13
2024-04-11
2024-07-09
2024-07-18
2024-10-25
2024-07-01
2024-06-16