导读 本次分享将介绍阿里通义实验室最新的多模态手机智能体 Mobile-Agent 的相关工作。
1. 大模型智能体背景
2. 多模态手机智能体 Mobile-Agent-V1
3. 多模态手机智能体 Mobile-Agent-V2
4. Mobile-Agent 开源实战
分享嘉宾|徐海洋 阿里通义实验室 高级算法专家
编辑整理|王甲君
内容校对|李瑶
出品社区|DataFun
大模型智能体背景
随着大模型的快速发展,大模型智能体被认为是 AI 应用的未来。相比之前的深度学习和机器学习阶段,人们更多地将模型视为工具。而大模型智能体则展示了基于大模型可以开发出很多有趣的应用。
智能体的概念由来已久,早期主要与强化学习相关,像 OpenAI 和 DeepMind 有很多这方面的研究。之前的智能体工作主要在特定环境和任务上进行优化。而现在的大模型智能体吸引关注并能实现许多创新应用,主要原因在于:- 大模型智能体基于海量数据训练,具备丰富的世界知识。
- 它还具备调用工具的能力,如检索、代码生成和上下文学习等。
什么是大模型智能体系统呢?其实 AI 智能体不仅仅是工具或模型层面的概念,它能根据观察周围环境,进行思考并采取行动,从而自主完成任务。
- 个性化领域,需要定义一个 profile,包含智能体的背景、人设、人物经历、话术和情感。
- 功能层面,具备记忆能力(长期或短期记忆),能够对任务进行整体规划和拆解,不是像工具那样只处理输入和输出,而是通过结合 profile、memory 和 planning 来做出决策。
在 ChatGPT 发布后,AI Agent 领域出现了多种类型的模型、框架和应用,呈现井喷式增长的趋势,包括知名的开源框架 Meta GPT、Auto GPT 和 HuggingGPT,以及 ModelScope-Agent 都在业界具有显著影响。
我们团队目前专注于大模型智能体的开发,围绕几大赛道展开工作:
- 一是助手效率型智能体,能够快速协助开发者或用户完成任务。
- 三是多模态智能体,涵盖各种操作终端,包括 Mobile 和 PC,满足多种使用场景的需求。
- 助手类智能体,如开源框架 ModelScope-Agent,无论是单智能体还是多智能体都可以使用。
- 多模态领域的 Mobile-Agent,这是本次介绍的重点,它是一个可以通过指令操作手机的智能体,无论是单 APP 还是多 APP 的 UI 交互,类似于苹果近期发布的 Siri。
多模态大模型智能体相较于基于文本的智能体,能在多模态环境中与现实世界进行交互(我们接触到的环境和世界是多模态的,所以需要在现实世界进行多模态环境交互)。当前已有一些有趣的多模态智能体,例如打游戏、视频生成以及 UI 操作的智能体(操作 Mobile 和 PC)。在大模型出现之前,这类应用非常少见。
多模态手机智能体 Mobile-Agent-V1
我们从今年 1 月开始开展多模态手机智能体 V1 版本的工作,最近发布了 V2 版本,两个版本都已在 GitHub 上开源。Mobile-Agent-V1 能够通过一句指令自动操作手机。我们的 Mobile-Agent 有三个特点:
- 采用纯视觉方案,不依赖系统数据,区别于之前依赖系统数据的工作;
- 可以进行整体感知、规划和反思,即理解手机 UI 界面,进行任务规划,以及判断每一步的完成情况和正确性。
V1 版本主要完成单指令和单 APP 操作,而 V2 版本实现复杂指令和多 APP 操作。V1 版本基于安卓模拟器实现,已展示了诸如天气查询、视频浏览、视频搜索和导航等全自动手机操作。
我们也提供了快速接入手机进行实测的方法,给出指令后,智能体可以从手机桌面多步完成任务。这与苹果前段时间发布的 Siri 比较类似,但我们的工作比他们早很多,且他们也引用了 Mobile-Agent-V1 的工作。
这是多模态手机智能体 Mobile-Agent-V1 在手机斗地主游戏上的一个测试案例。
下面具体介绍一下 Mobile-Agent 的工作原理。我们的纯视觉方案使用截屏数据和历史操作记录作为输入。用户给出全局指令,如“搜索今天湖人的比赛结果并在笔记本上记录分析”,然后将当前屏幕截图作为输入。Agent 首先观察页面情况,思考下一步操作,并在行动过程中使用工具完成操作。图中展示的就是 Mobile-Agent 整体的工作流程。
我们的行为空间目前包括七类操作:点击文本、点击图标、打字、上划&下划、返回上一页面、返回桌面和结束,主要提升在于多模态大模型的精确 grounding 能力。操作手机难在于精确定位指令的位置,即使最强的 GPT-4o 和 GPT-4v 在 grounding 能力上仍不足。
Grounding 是指将文本指令在视觉上进行定位,例如点击红色爱心或 star 图标,需要精确定位坐标。我们使用了具有 grounding 能力的 OCR 和图标分割工具。在操作过程中,多模态大模型根据页面情况给出可能操作的位置或图标描述,然后 OCR 和图标分割工具提供潜在选项,多模态大模型再做选择,这样比直接端到端回复更简单。这是 Mobile-Agent 在技术上的一个亮点。
这是一个关于搜索湖人比分的案例,其中第二步和第三步尤为有趣。图中第二步点错了,如果 Agent 不知道自己做错了,就会一直卡在这个界面上。因此,反思能力对于 Agent 来说非常关键。在第三步时,模型意识到错误后,重新思考并做出新决策。每一步操作与当前通用的Agent 方法类似,先观察页面描述,再进行思考,最后做出特定决策。
以上是 Mobile-Agent-V1 的工作,相关论文和代码已开源。
多模态手机智能体 Mobile-Agent-V2
接下来介绍 Mobile-Agent-V2 的工作。之所以开发 V2,是因为 V1 在单指令和单 APP 操作上表现良好,但在处理更复杂的指令和中文设置时遇到了问题。这是因为无论多模态大模型还是文本大模型,处理长序列操作都存在难度。因此,现在的趋势是使用 Multi Agent,因为它能将 Single Agent 的复杂操作拆分成多个 Agent,降低任务难度。
此外,操作手机涉及图文交互的操作历史,这对多模态大模型来说更难处理。相比于文本,多模态大模型处理长序列的问题更复杂。我们给出了一个案例,比如操作七步截屏,token 数量已达到 12K。准确率测试显示,Multi Agent 在处理复杂指令时,准确率明显高于 Single Agent。
这是我们在打车场景上适配的案例,图中给出的案例是通过高德打车到浙大,右侧的命令行操作过程是基于安卓手机模拟器。在 V2 中我们将 V1 的 Single
Agent 转换成了 Multi Agent,同时延续了纯视觉方案。转换成 Multi Agent 的好处在于,操作手机本身较为复杂,常常超过十步,让 Single
Agent 既做决策反思,又处理长序列,压力很大。因此,我们采用 Multi Agent,更有效地追踪任务进度,记录关键信息,拆解复杂指令,支持跨 APP 和多语言操作。
这是 Mobile-Agent-V2 的展示案例。你会发现,与 V1 相比,V2 具有许多进阶能力,包括中文操作,无论是微信、小红书,比如处理未读消息,转发视频,这些都可以很好地完成。同时,无论是在 YouTube 搜索视频,还是在 Twitter 上评论消息, V2 都能很好地完成。相比 V1,V2 能完成更多高级的操作和应用。
Mobile-Agent-V2 采用了 Multi
Agent 的框架,主要包括 Planning Agent、Decision
Agent 和 Reflection Agent。Planning
Agent 负责记录任务完成进度和上一步操作,以及必要的关键信息,然后据此制定计划。Decision
Agent 根据 Planning Agent 提供的指令和已完成的任务,决定具体操作,如点击特定位置,上划或下划,或者返回上一步。操作完成后,结果反馈给 Reflection Agent,Reflection Agent 评估当前步骤是否正确,任务是否结束,来决定是否返回上一步或结束当前任务。
这样的 Multi Agent 框架可以减轻 Single Agent 的任务压力,拆分成 Multi Agent 后,无论效率还是效果都有明显提升。Mobile-Agent-V2 的论文也已开源。
我们进行了动态评测,包括 5 个系统内置应用和 5 个第三方应用,单 APP 和多 APP 各有 2 条基础指令和进阶指令。结果显示,Mobile-Agent-V2 相比 V1 有明显提升。
一个有趣的问题是,我们的任务往往依赖于多模态大模型或文本大模型的预存知识。但对于新 APP 或复杂操作,可能超出模型能力。此时,开发者或用户可以自定义操作指南,遇到问题或个性化需求时,通过指令或说明书方式将知识输入到 Mobile-Agent 智能体中,以完成更复杂的任务。
我们的评测指标包括:是否完成任务(SR),完成步骤的比例,决策和反思的准确率。在论文中提供了结果,并区分了纯英文和中文两种语言设置的效果。
我们还进行了 Ablation Setting 和长序列评测。右侧的图展示了在任务更长更难时的效果差距。可以看到,Mobile-Agent-V1 在长序列任务中的完成度和准确率下降,符合我们的预期,因为它是单智能体。而 Mobile-Agent-V2 不受序列长度影响,表现更稳定。我们还分析了 backbone,发现手机操作仍然是非常难的任务,目前表现最好的仍是 GPT-4v 和 GPT-4o。
图中展示了 Mobile-Agent-V2 整体操作过程。相比 V1,操作过程更复杂,因为包含了计划、决策和记忆。在每步操作中,需要决定哪些信息需要记忆。在过程中,计划、决策和反思都是重要的能力。
我们也在探索将 Mobile-Agent-V2 扩展到更多终端,例如电脑。我们提供了几个案例,包括在电脑端搜索下载论文,编辑和保存 Word 文档,搜索论文并通过钉钉发送等。这些都显示了多模态智能体在各终端都有极大的潜力,无论是在电脑端提升效率,还是在手机端提供娱乐,都有着巨大的潜力。
多模态手机智能体 Mobile-Agent 开源实战
最后,介绍一下多模态手机智能体 Mobile-Agent 的开源和实战。Mobile-Agent 已在 GitHub 上开源,包含 demo 和部署方法。图中展示的是 ModelScope-Agent,它是阿里魔搭开发的中文开源社区,类似于 Hugging Face。ModelScope-Agent 也已将 Mobile-Agent 集成在内,大家可以在我们的仓库中体验提到的 demo 和相关功能。
具体操作非常简单,主要通过安卓模拟器进行。安装好相关依赖环境后,将安卓模拟器连接到电脑即可。操作过程中需安装安卓模拟器的键盘,因为许多操作需要打字。
运行方式方面,无论是 OCR 还是图片分割,都需在本地部署相应模型。如果本地电脑性能足够,可以直接部署;如果不够,可以通过 API 访问通义千问等模型,或者在 GitHub 上找到已部署的模型。如果本地无法部署,也可以使用 API。
为了加快操作,可以暂时关闭反思和记忆功能,因为对简单操作反思和记忆并不重要,但对复杂操作则需要。详细操作过程可参考 Mobile-Agent 开源项目的 README 文件,有兴趣的朋友可以试用。
我们也提供了另一种体验方式。原本通过真机实测,只需电脑连接手机并通过命令行操作。但由于 Mobile-Agent 基于安卓,很多 iOS 用户无法体验。
Mobile-Agent-V2 在 ModelScope 上提供了另一种方式,即通过手机截图体验。每次上传手机截图到 demo,智能体会框出当前需要的操作,如点击哪里,或是上划&下划。这种模拟体验方式适合不愿插手机或觉得操作麻烦的用户。此外,Hugging
Face 上也开放了 Mobile-Agent-V1 和 V2 的 demo,供大家体验。
目前我们正在与魔搭社区紧密合作建设 Mobile-Agent 开发者社区,未来将扩展至 iOS 系统和更多有趣的应用场景,如游戏和个性化服务等等。此外,社区活动还将涵盖数据收集、模型训练、评测和比赛等。
目前,我们正基于 GPT-4v 和 GPT-4o 开发 Mobile-Agent-V3,探索纯开源和自主研发模型。欢迎大家参与并为 Mobile-Agent 项目做出贡献。
最后介绍一下通义 mPLUG。我负责整个通义 mPLUG 的多模态体系。我们从 2019 年就开始了多模态预训练,从最早的两阶段预训练,到端到端预训练,再到 2021、2022 年的大一统预训练,直至去年的类 GPT-4v 多模态大模型。我们在多模态文档大模型和多模态智能体方面也做了很多工作。这些成果都在 GitHub 上开源,感兴趣的朋友可以体验。
我们在 GitHub 上开源了整个通义 mPLUG 模块化的多模态体系,包括前述的 Mobile-Agent、多模态文档大模型 mPLUG-DocOwl、角色化工作、多智能体工作、对话大模型 mPLUG-Owl,以及幻觉模块等。