支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


微软开源OmniParser V2,直接将DeepSeek-R1变成使用电脑的 AI Agents~

发布日期:2025-03-16 11:51:01 浏览次数: 1563 来源:PaperIdea
推荐语

微软最新技术,将任何LLM变成AI操作能手。

核心内容:
1. OmniParser V2开源,使LLM变身AI Agents
2. 支持DeepSeek R1等模型,优化UI Agent性能
3. 性能提升显著,延迟降低60%

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

微软在其官网上发布并开源OmniParser V2它可以将任何 LLM 变成能够使用计算机的Agent。可以启用 GPT-4o、DeepSeek R1、Sonnet 3.5、Qwen等来了解屏幕上的内容并采取相关操作。

screen spot pro performance



OmniParser 是一款通用屏幕解析工具,可将 UI 屏幕截图解释/转换为结构化格式,以改进现有的基于 LLM 的 UI Agent
训练数据集包括:
  • 可交互图标检测数据集,该数据集来自热门网页,并自动注释以突出显示可点击和可操作区域;
  • 图标描述数据集,旨在将每个 UI 元素与其相应的功能关联起来。
该模型中心分别包含基于上述数据集的 YOLOv8 微调版本和 Florence-2 微调基础模型。
OmniParserV2 有什么新功能?
  • 更大、更清晰的图标标题 + 基础数据集与 V1 相比,延迟改善了 60%。
  • 平均延迟:A100 上为 0.6 秒/帧,单个 4090 上为 0.8 秒。
  • 性能强劲: ScreenSpot Pro上的平均准确率为 39.6
  • Agents只需要一个工具:OmniTool。使用 OmniParser + 选择的视觉模型控制 Windows 11 VM。OmniTool 开箱即用地支持以下大型语言模型 - OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。
https://huggingface.co/microsoft/OmniParser-v2.0https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/https://github.com/microsoft/OmniParser/tree/masterdemo: http://hf.co/spaces/microsoft/OmniParser-v2


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询