微信扫码
添加专属顾问
我要投稿
“ 基于多模式大型语言模型(MLLM)的移动设备代理正在成为一种流行的应用。Mobile Agent首先利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知的视觉上下文,它自主规划和分解复杂的操作任务,并逐步导航移动应用程序进行操作。但是它的性能并不能满足实际需要,阿里推出Mobile Agent v2,这是一种用于移动设备操作辅助的多智能体架构。该体系结构包括三个agent:规划agent、决策agent和纠错agent。规划agent将冗长的、交错的图像-文本历史操作和屏幕摘要浓缩为纯文本任务进度,然后将其传递给决策代理。上下文长度的减少使得决策agent更容易导航任务进度。为了纠正错误的操作,纠错agent会观察每个操作的结果,并快速处理任何错误。”
代码链接-https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent-v2/
论文链接-https://arxiv.org/pdf/2406.01014
在这些模块中,配置模块影响记忆和规划模块,而这三个模块共同影响行动模块。
02-Mobile-Agent算法简介
基于多模式大型语言模型(MLLM)的移动设备代理正在成为一种流行的应用。Mobile Agent是一种自主的多模式移动设备代理。Mobile Agent首先利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知的视觉上下文,它自主规划和分解复杂的操作任务,并逐步导航移动应用程序进行操作。与以前依赖应用程序的XML文件或移动系统元数据的解决方案不同,mobile Agent以视觉为中心,在不同的移动操作环境中提供了更大的适应性,从而消除了系统特定定制的必要性。Mobile Agent利用视觉感知工具进行操作本地化。它可以自我规划每一步,完成自我反思。Mobile Agent完全依赖于设备屏幕截图,而不需要任何系统代码,这是一个纯粹基于视觉的解决方案。
03-Mobile-Agent-v2算法简介
最后,纠错代理在操作之前和之后观察屏幕,以确定操作是否符合预期。
05-Mobile-Agent-v2算法应用案例
最后,按照同样的逻辑,Agent理解并针对第二个未读消息进行了回复。而第二个未读消息的内容是“介绍下马斯克”,通过观察第二行第一列的输出,我们可以得知它输出了准确的结果。
最后,进入到马斯克的个人主页之后,需要准确识别到Follow所在的具体位置,才能完成关注他的目标。实际效果如第二行第二列所示。
上图展示了Mobile-Agent-V2在TikTok上搜索某个名人的视频,并在评论下添加评论的整个过程。用户的输入指令是“在TikTok上打开与马斯克相关的视频,并在下面添加评论”详细的步骤如下所述:
首先,Agent需要准确找到手机主界面上TikTok所在的具体位置,实际效果如第一行第一列的图片所示。
然后,Agent需要找到搜索框,并输入Musk的字样,实际效果如第一行第二列与第三列的图片所示。
接着,Agent需要点击进入该视频,并找到视频页面中添加评论的位置,实际效果如第二行第四列和第五列所示。
最后,进入了评论区之后,Agent需要理解该视频的内容,才能增加适当的评论。实际效果如第二行第二列和第三列所示。
05.04-在小红书上搜索特定内容博客
上图展示了Mobile-Agent-V2在小红书上面搜索一个机器学习有关的贴子,并添加相关评论的样例的整个过程。详细的步骤如下所述:
首先,Agent需要在手机页面中准确找到小红书App所在的具体位置,实际效果如图中第一行第一列所示。
然后,Agent需要找到搜索框的准确位置,并输入机器学习的字样,实际效果如图中第一行第二列和第四列所示。
接着,Agent点击进入搜索到的内容,并开始查找评论框所在的位置,实际效果如图中第二行第四列所示。
05.05-评论微博首页的帖子
上图展示了Mobile-Agent-V2在B站上检索并关注雷军的整个过程。图片上面的输入指令有些问题!详细的步骤如下所述:
首先,Agent需要在手机界面上找到B站App的精准位置,并点击进入,实际效果如图中第一行第一列所示。
然后,Agent需要准确找到检索框的位置,并输入雷军的字样,实际效果如图中第一行第二列和第二行第三列所示。
上图展示了Mobile-agent-v2中Agent角色的操作过程和交互说明细节。图中分别展示了规划agent、决策agent、反思agent所对应的规划阶段、决策阶段和反思阶段。
规划agent--它的目标是通过雇佣一个独立的agent来减少决策过程中对长期历史操作的依赖。它接收用户的输入指令、上一次的操作结果、完整的任务等信息。经过处理之后,它会输出相应的规划步骤。作者观察到,尽管每一轮操作都发生在不同的页面上,而且不同,但多次操作的目标往往是相同的。
决策agent--它在决策阶段进行操作,生成操作O并在设备上实现它们,同时还负责更新存储器单元中的焦点内容FC。如图中将想法输入到决策agent中,决策agent会输出结论,并将其应用在下一个截屏上面。同时会更新内存单元。
上图展示了Mobile-agent-v2在一个需要操作多个App的复杂样例上面的详细执行过程。用户的输入是“在微信中查找xxx,退出微信,并在B站中寻找一个相关的视频”。详细的步骤如下所述:
首先,Agent需要找到手机界面中微信的准确位置,并点击进入微信。
然后,Agent需要寻找到xxx的聊天信息,理解该聊天信息,并退出微信。
接着,Agent需要找到手机界面中B站App的准确位置,并点击进入B站。
最后,Agent需要找到B站的搜索窗口位置,并输出理解的微信内容。
整个过程中需要规划agent、决策agent和反思agent协同工作,涉及到在多个App中执行复杂操作。更多的细节请看上面的图片。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-03
Open R1 项目进展第三期
2025-04-03
最好用的OCR来了?Mistral AI OCR介绍
2025-04-03
2个百度T11推出超级智能体火爆硅谷!免费使用无需邀请码,靠AI搜索功底估值已破38亿
2025-04-02
Transformer到底解决什么问题?
2025-04-02
AI大模型的2种模型能力Function call 和ReAct
2025-04-02
Playwright + DeepSeek实战:如何让AI“看懂”网站页面内容?自动定位页面元素?
2025-04-02
AI Agents的未来是事件驱动的
2025-04-02
MCP 之后,软件行业的新蛋糕与新危机
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-02
2025-04-02
2025-04-01
2025-04-01
2025-04-01
2025-03-30
2025-03-30
2025-03-28