微信扫码
添加专属顾问
我要投稿
Home[1] | GitHub[2] | Twitter[3] | Youtube[4] | Bilibili[5]
本文介绍来自 HKU & Salesforce 的 Aguvis。如我之前所说,这篇论文(数据、代码都会开源)至少值 2 个算法工程师 1 个月的工资。论文里面有很多细节都值得深挖,属于外行看热闹,内行看门道的那种。
本文是视频 UI Agent 论文分享:Aguvis-来自 HKU & Salesforce 的大一统训练数据和训练框架[6] 对应的文字版,建议与视频对照着看。
Aguvis 相关资料:
Aguvis 这个词应该是作者造的,没查到什么意思。发现这个工作的作者跟 OS-Copilot[10] 还有耦合,而 OS-Copilot[11] 跟 OS-Atlas[12] 是相同的一作。
Aguvis 基于 Qwen2-VL-7B 和 Qwen2-VL-72B 进行全量微调(只 freeze ViT 部分),设置最大序列长度为 8192,max pixels 为 1280 x 720。
本文主要贡献:
比较标准的两阶段训练方式。第一阶段主要针对 grounding 能力,第二阶段主要针对 planning & reasoning 能力。
Inner Monologue(内心独白,简称 IM)包括 3 个部分:
决策过程可以分为 2 步完成:Planner 生成 IM 内容,然后 Grounder 按照 产生具体的 grounding 信息。
把动作执行统一成了函数调用(可以借力 base 模型的 function call 能力):
类似函数调用的方式在 prompt 中告知有哪些函数是可调用的。
Aguvis Collection 数据集是作者汇总其他数据集构建的训练数据集;包括以下 2 部分,顾名思义,对应上面的两阶段训练;后续会开源
以下是 grounding 阶段训练使用的数据格式:
⁉️ 疑问:
1. 对于 grounding 数据,Prompt 中的 overall_goal
和previous_actions
分别是什么?2. <|diff_marker|>
这个标记的用途是什么?
模型可以利用这个标记来识别需要关注的特定部分,从而生成更加相关和准确的内容。例如,在进行内容编辑或补全时,模型能够基于此标记理解上下文中的变化。
效率提升了 5 倍,效果还稍微有点提升。
⛔ "We train AGUVIS on a cluster of H100-80G GPUs: AGUVIS-7Buses8 nodesand completes the grounding training within5 hoursandplanning & reasoning trainingwithin1 hour.AGUVIS-72B uses 16 nodesand completes the grounding training within30 hoursandplanning & reasoning trainingwithin6 hours."
IM 是用户自己通过 GPT-4o 构造出来的。
使用 GPT-4o 生成 planning & reasoning 数据,以下是 prompt 和示例:
上面获得的增强数据需要满足以下条件才被认为是成功的:
在抽样的数据当中,作者发现 86.7% 展现出了与真实动作和总体目标的动作意图相一致的中间推理。剩下的 7.8% 的案例受到数据集噪声的影响(任务中的不相关或不必要动作),5.5% 的案例则是由于在干净数据下对动作意图的误读。
作者分析发现,训练数据中的非必要动作可能致使 VLM 无法在这些多余动作和总体目标之间建立关联,最终造成不正确的推理和规划。
以下是此阶段训练使用的数据格式:
<|recipient|>all
:预测 IM;<|recipient|>os
:预测具体动作
作为对比,以下是上面给出的 Grounding 阶段的数据格式:
一些注意点:
<|recipient|>all
:预测 IM;<|recipient|>os
:预测具体动作Enforced Plan: employ the <|recipient|>all\nThought
prompt to compel the model to first generate a planning phase, and then a pyautogui command.
Self Plan: do not add any word after <|recipient|>
, so the model can choose to generate os
to directly produce a pyautogui command, or generate all
to first create natural language reasoning and then generate a pyautogui command.
作者发现使用 Enforced Plan 能获得更好的效果,把 grounding Error 降低 20%。
Grounding 能力:
Planning 能力:
省略第二阶段(规划和推理)对模型的步骤成功率有更显著的负面影响,表明规划训练对于提高代理处理复杂 GUI 任务的能力至关重要。
提升可归因于两个关键因素:使用 IM 让模型能够引出对当前步骤的推理,同时推理作为背景也有助于为后续步骤进行更有效的规划。
另外,将训练数据中的 low-level instructions 纳入进来提高了模型动作执行的准确性。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-29
Qwen3 一手实测
2025-04-29
MCP、RAG、Function Calling、Agent与微调如何重塑未来应用
2025-04-28
Al代码审查实践:从构想到快速落地
2025-04-28
Trae 新版本增加 MCP、Agent、Rules 等多项功能,立即体验
2025-04-28
通用LLM插件系统——简化工具集成,提升2025年AI的灵活性
2025-04-27
演讲实录:中小企业如何快速构建AI应用?
2025-04-27
Cherry Studio v1.2.9:新增多个MCP特性
2025-04-27
为什么新手比专家更想做垂直领域SFT微调?
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-27
2025-04-27
2025-04-23
2025-04-20
2025-04-01
2025-03-31
2025-03-20
2025-03-16