AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


微软 OmniParser:如何让机器 “看懂” 手机电脑界面?
发布日期:2024-12-26 20:27:18 浏览次数: 1541 来源:小兵的AI视界


在当今人工智能飞速发展的时代,如何让AI更好地理解和操作图形用户界面(GUI)成为了研究的热点。前段时间,微软开源的OmniParser为这一领域带来了重大突破,它作为一款纯视觉基础的AI工具,正引领着智能GUI自动化迈向新的台阶.

一、项目背景

OmniParser 是微软研究院推出的一款屏幕解析工具,它专门设计用于将用户界面的屏幕截图转换成结构化数据。这个工具的主要目的是为了提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,通过准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。

传统的自动化方法往往依赖于解析HTML或视图层次结构,这在很大程度上限制了其在非网络环境中的应用范围。而现有的视觉语言模型,如GPT-4V等,在解读复杂GUI元素以及准确定位动作方面存在不足,难以满足实际应用中对高精度界面理解和操作的需求。微软正是看到了这一技术短板,推出了OmniParser,旨在填补当前屏幕解析技术中的空白,为智能GUI自动化提供更强大的支持.

二、技术原理

1.精准探测交互区域:收集流行网页DOM树衍生的67k带标注截图,训练基于YOLOv8模型,使其能于繁杂界面锁定图标、按钮等可交互元素,精准勾勒边界框,明确其位置与轮廓。

2.萃取整合文字信息:凭借先进OCR模块识别屏幕文字,生成对应边界框,再与图标框细致比对、融合去重,完整呈现界面元素布局。

3.嵌入功能语义赋能:利用7000对图标描述样本微调BLIP - v2模型,为图标生成专属功能描述,与OCR文字一并提供给下游模型,助其聚焦操作预测,提升决策精准度。

4.结构化整合输出:整合图标、文字、边界框及语义标签为类似DOM结构,清晰展现元素逻辑关联,附功能标注,为智能体指明行动方向。

三、功能特点

1.跨平台适配佳:摆脱对HTML等底层依赖,在桌面(Windows、MacOS等)、移动端(iOS、Android)及网页均能精准解析,拓宽智能体“行动范围”

2.解析精度高:对比传统依赖HTML解析模型,在ScreenSpot等数据集测试中表现卓越,输出结构化数据更准确,筑牢智能体决策根基。

3.增效智能体:与GPT - 4V协同,将图标正确标记率从70.5%提至93.8%,攻克GUI交互难题,使智能体指令契合界面场景。

四、测试表现

OmniParser 在多基准测试里尽显卓越性能,强力支撑其于智能 GUI 自动化领域应用。
1.SeeAssign 任务评估
构建含 112 个多平台任务数据集,任务指向特定界面元素,由 GPT - 4V 依截图与描述预测边界框 ID。未用 OmniParser 局部语义时,GPT - 4V 错误频出;引入后,图标准确率从 0.705 跃升至 0.938,凸显其助 GPT - 4V 理解界面的高效能。

2.ScreenSpot 基准测试
该数据集涵盖多平台 600 余个截图与手动任务指令。OmniParser 不仅远超 GPT - 4V 基线性能,于各平台提准确率,还超 SeeClick、CogAgent 等微调模型;融入局部语义后更优,其微调检测模型比 Grounding DINO 模型准确性还高 4.3%,对提升 UI 理解贡献卓越。

3.Mind2Web 评估
聚焦网页导航,测试集含多类任务。OmniParser 结合解析、操作历史与截图输入 GPT - 4V。在多数类别表现佳,跨网站、跨域类别分别提升 +4.1%、+5.2%,仅跨任务类别略逊于 GPT - 4V + 文本选择( -0.8%),整体证实在网页导航的优势。

4.AITW 基准测试
针对移动导航,含大量指令与轨迹。OmniParser 比 GPT - 4V + 历史记录基线总体得分升 4.7%,多子类别改进明显,彰显其在移动自动化操作的有效与通用。

五、应用场景

  • 无障碍交互:与辅助技术结合,将屏幕视觉元素转化为语音或触觉反馈,方便视障人士在电商、社交、学习场景无障碍使用。

  • 用户辅助:日常使用时,实时解析界面,依用户习惯与情境给操作建议,如手机快捷功能开启、电脑隐藏功能调用,优化交互体验。

  • 软件测试:软件开发测试环节,依脚本模拟用户操作,排查UI漏洞,保障软件稳定可靠。

  • 虚拟助手赋能:为虚拟助手植入“智慧”,助其精准执行预订票务、查询信息、填写表单等任务,提升服务质量。

  • UI设计验证:审视设计稿,校验交互元素功能与语义,提前揪出问题,确保产品交互体验良好。

六、快速使用

以下为您介绍 OmniParser 的快速使用步骤,助您高效开启智能 GUI 自动化之旅:

1.克隆代码

克隆OmniParser仓库代码到本地

git clone https://github.com/microsoft/OmniParser.git

2.安装依赖

本地环境借助 conda 或 venv 工具创建 Python 3.12 虚拟环境,命名为“omni”并激活,隔离外部依赖干扰

conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

3.下载模型

在 https://huggingface.co/microsoft/OmniParser 中下载模型 ckpts 文件,并将它们放在 weights/ 下,默认文件夹结构为:weights/icon_detect、weights/icon_caption_florence、weights/icon_caption_blip2。

最后,将 safetensor 转换为 .pt 文件。

python weights/convert_safetensor_to_pt.py

4.启动运行

要运行 gradio demo,只需运行:

python gradio_demo.py

其他代码样例可参考:https://github.com/microsoft/OmniParser/blob/master/demo.ipynb

七、结语

微软开源的 OmniParser 在智能 GUI 自动化领域已迈出关键一步。它通过先进技术原理、强大功能、出色测试表现和广泛应用场景,展现出提升人机交互体验的巨大潜力。虽面临挑战,但随技术发展,OmniParser 必将在未来持续发挥重要作用,为用户创造更优交互环境,推动多领域创新,引领智能 GUI 自动化走向新高度,值得期待。

八、项目资料

模型地址:https://huggingface.co/microsoft/OmniParser

论文地址:https://arxiv.org/abs/2408.00203

项目地址:https://github.com/microsoft/OmniParser

推荐阅读
1.简单到爆!Llama - OCR 仅需 3 步,小白也能完成高质量 OCR 识别!
2.Surya:荣获 13.7K Star,支持 90 + 种语言识别的卓越开源 OCR 利器
3.GOT-OCR 2.0:革命性端到端通用 OCR 模型

点亮“关注”,设为“星标”,精彩不迷路!我们携手探索AI的无限可能,精彩内容,持续为您更新!        


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询