微信扫码
与创始人交个朋友
我要投稿
Home[1] | GitHub[2] | Twitter[3] | Youtube[4] | Bilibili[5]
本文介绍来自 HKU & Salesforce 的 Aguvis。如我之前所说,这篇论文(数据、代码都会开源)至少值 2 个算法工程师 1 个月的工资。论文里面有很多细节都值得深挖,属于外行看热闹,内行看门道的那种。
本文是视频 UI Agent 论文分享:Aguvis-来自 HKU & Salesforce 的大一统训练数据和训练框架[6] 对应的文字版,建议与视频对照着看。
Aguvis 相关资料:
Aguvis 这个词应该是作者造的,没查到什么意思。发现这个工作的作者跟 OS-Copilot[10] 还有耦合,而 OS-Copilot[11] 跟 OS-Atlas[12] 是相同的一作。
Aguvis 基于 Qwen2-VL-7B 和 Qwen2-VL-72B 进行全量微调(只 freeze ViT 部分),设置最大序列长度为 8192,max pixels 为 1280 x 720。
本文主要贡献:
比较标准的两阶段训练方式。第一阶段主要针对 grounding 能力,第二阶段主要针对 planning & reasoning 能力。
Inner Monologue(内心独白,简称 IM)包括 3 个部分:
决策过程可以分为 2 步完成:Planner 生成 IM 内容,然后 Grounder 按照 产生具体的 grounding 信息。
把动作执行统一成了函数调用(可以借力 base 模型的 function call 能力):
类似函数调用的方式在 prompt 中告知有哪些函数是可调用的。
Aguvis Collection 数据集是作者汇总其他数据集构建的训练数据集;包括以下 2 部分,顾名思义,对应上面的两阶段训练;后续会开源
以下是 grounding 阶段训练使用的数据格式:
⁉️ 疑问:
1. 对于 grounding 数据,Prompt 中的 overall_goal
和previous_actions
分别是什么?2. <|diff_marker|>
这个标记的用途是什么?
模型可以利用这个标记来识别需要关注的特定部分,从而生成更加相关和准确的内容。例如,在进行内容编辑或补全时,模型能够基于此标记理解上下文中的变化。
效率提升了 5 倍,效果还稍微有点提升。
⛔ "We train AGUVIS on a cluster of H100-80G GPUs: AGUVIS-7Buses8 nodesand completes the grounding training within5 hoursandplanning & reasoning trainingwithin1 hour.AGUVIS-72B uses 16 nodesand completes the grounding training within30 hoursandplanning & reasoning trainingwithin6 hours."
IM 是用户自己通过 GPT-4o 构造出来的。
使用 GPT-4o 生成 planning & reasoning 数据,以下是 prompt 和示例:
上面获得的增强数据需要满足以下条件才被认为是成功的:
在抽样的数据当中,作者发现 86.7% 展现出了与真实动作和总体目标的动作意图相一致的中间推理。剩下的 7.8% 的案例受到数据集噪声的影响(任务中的不相关或不必要动作),5.5% 的案例则是由于在干净数据下对动作意图的误读。
作者分析发现,训练数据中的非必要动作可能致使 VLM 无法在这些多余动作和总体目标之间建立关联,最终造成不正确的推理和规划。
以下是此阶段训练使用的数据格式:
<|recipient|>all
:预测 IM;<|recipient|>os
:预测具体动作
作为对比,以下是上面给出的 Grounding 阶段的数据格式:
一些注意点:
<|recipient|>all
:预测 IM;<|recipient|>os
:预测具体动作Enforced Plan: employ the <|recipient|>all\nThought
prompt to compel the model to first generate a planning phase, and then a pyautogui command.
Self Plan: do not add any word after <|recipient|>
, so the model can choose to generate os
to directly produce a pyautogui command, or generate all
to first create natural language reasoning and then generate a pyautogui command.
作者发现使用 Enforced Plan 能获得更好的效果,把 grounding Error 降低 20%。
Grounding 能力:
Planning 能力:
省略第二阶段(规划和推理)对模型的步骤成功率有更显著的负面影响,表明规划训练对于提高代理处理复杂 GUI 任务的能力至关重要。
提升可归因于两个关键因素:使用 IM 让模型能够引出对当前步骤的推理,同时推理作为背景也有助于为后续步骤进行更有效的规划。
另外,将训练数据中的 low-level instructions 纳入进来提高了模型动作执行的准确性。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-23
AWS Bedrock:面向 AI 应用的端到端解决方案
2024-12-23
大模型应用系列:从MLOps到LLMOps
2024-12-22
Hugging Face 发布免费开放课程,微调本地LLMs模型
2024-12-22
我对Multi-Agent集成业务场景设计
2024-12-21
一文回顾OpenAI系列发布会:从工具到AGI,OpenAI的12天进化论
2024-12-19
强化微调技术详解:开启AI模型定制的新篇章
2024-12-18
OpenAI 年底「百亿补贴」来了,满血 o1 API 开放,成本暴跌,定制升级
2024-12-18
腾讯AI团队:用Ray分布式计算效率提升800%
2024-09-18
2024-07-11
2024-07-11
2024-07-09
2024-06-11
2024-10-20
2024-07-23
2024-07-20
2024-07-26
2024-07-12