微信扫码
与创始人交个朋友
我要投稿
OmniParser 是微软研究院推出的一款屏幕解析工具,它专门设计用于将用户界面的屏幕截图转换成结构化数据。这个工具的主要目的是为了提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,通过准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。
传统的自动化方法往往依赖于解析HTML或视图层次结构,这在很大程度上限制了其在非网络环境中的应用范围。而现有的视觉语言模型,如GPT-4V等,在解读复杂GUI元素以及准确定位动作方面存在不足,难以满足实际应用中对高精度界面理解和操作的需求。微软正是看到了这一技术短板,推出了OmniParser,旨在填补当前屏幕解析技术中的空白,为智能GUI自动化提供更强大的支持.
1.精准探测交互区域:收集流行网页DOM树衍生的67k带标注截图,训练基于YOLOv8模型,使其能于繁杂界面锁定图标、按钮等可交互元素,精准勾勒边界框,明确其位置与轮廓。
2.萃取整合文字信息:凭借先进OCR模块识别屏幕文字,生成对应边界框,再与图标框细致比对、融合去重,完整呈现界面元素布局。
3.嵌入功能语义赋能:利用7000对图标描述样本微调BLIP - v2模型,为图标生成专属功能描述,与OCR文字一并提供给下游模型,助其聚焦操作预测,提升决策精准度。
4.结构化整合输出:整合图标、文字、边界框及语义标签为类似DOM结构,清晰展现元素逻辑关联,附功能标注,为智能体指明行动方向。
1.跨平台适配佳:摆脱对HTML等底层依赖,在桌面(Windows、MacOS等)、移动端(iOS、Android)及网页均能精准解析,拓宽智能体“行动范围”。
2.解析精度高:对比传统依赖HTML解析模型,在ScreenSpot等数据集测试中表现卓越,输出结构化数据更准确,筑牢智能体决策根基。
3.增效智能体:与GPT - 4V协同,将图标正确标记率从70.5%提至93.8%,攻克GUI交互难题,使智能体指令契合界面场景。
无障碍交互:与辅助技术结合,将屏幕视觉元素转化为语音或触觉反馈,方便视障人士在电商、社交、学习场景无障碍使用。
用户辅助:日常使用时,实时解析界面,依用户习惯与情境给操作建议,如手机快捷功能开启、电脑隐藏功能调用,优化交互体验。
软件测试:软件开发测试环节,依脚本模拟用户操作,排查UI漏洞,保障软件稳定可靠。
虚拟助手赋能:为虚拟助手植入“智慧”,助其精准执行预订票务、查询信息、填写表单等任务,提升服务质量。
UI设计验证:审视设计稿,校验交互元素功能与语义,提前揪出问题,确保产品交互体验良好。
git clone https://github.com/microsoft/OmniParser.git
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
python weights/convert_safetensor_to_pt.py
python gradio_demo.py
其他代码样例可参考:https://github.com/microsoft/OmniParser/blob/master/demo.ipynb
微软开源的 OmniParser 在智能 GUI 自动化领域已迈出关键一步。它通过先进技术原理、强大功能、出色测试表现和广泛应用场景,展现出提升人机交互体验的巨大潜力。虽面临挑战,但随技术发展,OmniParser 必将在未来持续发挥重要作用,为用户创造更优交互环境,推动多领域创新,引领智能 GUI 自动化走向新高度,值得期待。
模型地址:https://huggingface.co/microsoft/OmniParser
论文地址:https://arxiv.org/abs/2408.00203
项目地址:https://github.com/microsoft/OmniParser
点亮“关注”,设为“星标”,精彩不迷路!我们携手探索AI的无限可能,精彩内容,持续为您更新!
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-27
我这样读懂了Transformer中的位置编码
2024-12-26
AGI前夜!别再卷技术了,快来拯救世界!
2024-12-26
Token已死?AI认知的新范式正在崛起
2024-12-26
字节和BAT,谁能缚住AI苍龙?
2024-12-26
大模型语义分析之嵌入(Embedding)模型
2024-12-26
Anthropic:高效构建AI Agent的最佳实践范式
2024-12-26
微软CEO纳德拉给出AI时代的关键答案:先有组织进化,才有技术突破(附视频)
2024-12-26
10分钟了解大模型应用全貌 : 大模型应用架构(LLM application architecture)
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01