支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


字节开源 GUI Agent 工具:UI-TARS 全解析,又一Manus平替

发布日期:2025-03-22 12:46:40 浏览次数: 1773 来源:未来交互趋势
推荐语

字节跳动开源的UI-TARS,开启GUI自动化新纪元,探索AI人机交互新境界。

核心内容:
1. 字节跳动开源GUI Agent模型UI-TARS的背景与意义
2. UI-TARS的核心特性:感知能力、行动能力和推理能力
3. UI-TARS在技术突破上的亮点:增强的GUI截图感知、统一行动建模等

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家



Dev Agent
网传字节内部 Dev Infra 团队开发了一款公司内部使用的 Dev Agent 智能体产品功能类似 Manus,该 Agent 通过集成内网知识库和多种内部工具实现调研、开发、数据分析等任务。
目前该项目处于实验阶段,仅面向该部门员工进行内测,属于内部工具,不支持外部用户使用。


图片


UI-TARS

今天来说一下字节开源的另外一个项目 UI-TARS

UI-TARS 是由字节推出的一款开源 GUI Agent 模型,能够通过自然语言理解和处理来控制计算机界面。这款工具代表了人工智能与人机交互领域的重大突破,为用户提供了一种全新的、更加自然的方式来操作计算机系统。
什么是 UI-TARS?
UI-TARS 的全称是 User Interface - Task Automation and Reasoning System(用户界面-任务自动化和推理系统)。它是一个创新的原生 GUI 代理模型,设计用于通过先进的 AI 能力增强与图形用户界面的交互。与传统的模块化系统不同,UI-TARS 将感知、推理、接地和记忆等基本元素整合到一个统一的视觉-语言模型 (VLM) 中,实现了无需依赖预先建立的工作流或人工干预的全面任务自动化。


核心特性

感知能力
  • 全面的 GUI 理解:UI-TARS 能解释各种类型的输入,如文本和图像,形成对用户界面的完整理解。

  • 动态交互:模型能够主动观察并实时响应不断变化的 GUI 环境中的变化。

  • 高密度信息处理:有效处理复杂布局和多元素界面,提取精确元数据。


行动能力

  • 统一的行动空间:跨平台(桌面、移动和网络)的标准化动作定义。

  • 精确定位与互动:通过大规模行动轨迹训练,实现对特定 GUI 元素的精确定位和交互。

  • 平台特定动作:支持热键、长按和平台特定手势等额外动作。



Send a twitter with the content "hello world"

推理能力
  • 系统 1 和系统 2 推理:结合快速、直觉的响应与深思熟虑的高级规划,用于处理复杂任务。

  • 任务分解与反思:支持多步规划、反思和错误修正,确保任务执行的稳健性。

  • 基于"思考"的决策:在每个行动前生成明确的"思考"过程,将感知和行动与深思熟虑的决策联系起来。


记忆能力
  • 短期记忆:捕获任务特定上下文,增强情境感知能力。

  • 长期记忆:保留历史交互和知识,改进决策过程。


技术突破
UI-TARS 在多个领域实现了技术突破:
1. 增强的 GUI 截图感知:通过大规模数据集训练,专门用于提取元素类型、边界框和文本内容等元数据。
2. 统一行动建模:标准化跨平台语义等效动作,提高多步执行能力。
3. 系统2推理:注入各种推理模式(如任务分解、长期一致性、里程碑识别、试错和反思)到模型中。

4. 反思性在线痕迹学习:通过自动收集、过滤和反思性精炼新的交互轨迹,解决数据瓶颈问题。


Get the current weather in SF using the web browser

性能表现
在多项评估中,UI-TARS 展现了卓越的性能:
  • 在 OSWorld 基准测试中,UI-TARS-72B 在 50 步中取得了 24.6 的得分,在 15 步中取得了 22.7 的得分,优于 Claude 的 22.0 和 14.9。

  • 在 AndroidWorld 中,UI-TARS 取得了 46.6 的得分,超过了 GPT-4o 的 34.5。

  • 在 VisualWebBench 中,UI-TARS-72B 得分 82.8,高于 GPT-4o 的 78.5。

  • 在 ScreenSpot Pro 上取得了 38.1(SOTA)的成绩。


这些结果证明了 UI-TARS 在感知、接地和 GUI 任务执行方面的卓越能力。

使用 UI-TARS Desktop
字节跳动为用户提供了 UI-TARS Desktop 应用,这是一个基于 UI-TARS(视觉-语言模型)的 GUI 代理应用程序,允许用户使用自然语言控制计算机。

UI-TARS Desktop 使用前可以做一些配置

开源资源
UI-TARS 相关资源全部开源:
GitHub 仓库:
[UI-TARS](https://github.com/bytedance/UI-TARS) 
 [UI-TARS-desktop](https://github.com/bytedance/UI-TARS-desktop)

虽然 UI-TARS 代表了 GUI 代理领域的重大进步,但未来发展方向指向集成主动和终身学习,让代理能够通过持续的真实世界交互自主驱动自己的学习。这将最小化人类干预,同时最大化泛化能力。
UI-TARS 是字节跳动在 GUI 代理领域的革命性创新,通过整合感知、行动、推理和记忆能力到一个可扩展和自适应的框架中,实现了超越现有系统的性能。它的开源发布不仅推动了 AI 驱动自动化的边界,也使其成为进一步探索和开发的可访问资源。UI-TARS 代表了从基于规则的系统向自适应原生模型的转变,为未来 GUI Agent的发展奠定了坚实基础。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询