支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


STEVE:用AI训练AI,打造更聪明的电脑操作助手帮你操控UI界面

发布日期:2025-03-24 21:23:51 浏览次数: 1551 来源:Chal1ceAI
推荐语

用AI训练AI,打造更聪明的电脑操作助手帮你操控UI界面!

核心内容:
1. AI代理操作计算机图形界面(GUI)的难点分析
2. STEVE:一种新的训练方法,用GPT-4o评估AI代理操作
3. 数据收集:从网页DOM元素提取UI组件、OCR验证文本内容等

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

 

最近,我读了一篇相当有意思的论文,名字叫《STEVE: A Step Verification Pipeline for Computer-use Agent Training》。

相信这几个月大家也见到了不少AI操控电脑,帮我们搞好工作的案例,像智谱、manus等等,但是绝大部分是通过调用api的方式来指挥AI操作,那如果没有api的话,是不是图形界面也可以作为ai理解的一部分呢。

这篇论文讲的是如何让AI代理更好地操作计算机图形界面(GUI),就像人类一样点击、输入、拖拽。AI在这方面的进展很快,但训练它们依然是个大问题,数据贵、动作复杂、评估难。

在现实场景还是有很多人不会用api,或者没有网络api的时候,这时候gui操作就成了自动化操作的另一个选项。

这篇论文的贡献就是提出了一种新的训练方法——STEVE,可以高效地提高AI代理的能力。

为什么 GUI 操作代理这么难?

让 AI 在 GUI 里操作,说白了就是让它看着屏幕,然后像人一样去点击、输入、滚动。这看似简单,但实际上有几个大难点:

  1. 1. UI 元素识别难:现代软件界面千变万化,传统的OCR或检测方法很难精准理解按钮、菜单等组件,尤其是在不同应用程序之间切换时,可能会遇到不规则的UI设计。
  2. 2. 多步任务规划:有些操作,比如“把文件 A 移动到文件夹 B”,需要分好几步来完成,AI 要懂得长期规划。这不仅仅是简单的“点一下”操作,而是涉及路径规划、界面识别等多个环节。
  3. 3. 训练数据昂贵:之前的方法靠“行为克隆”(Behavior Cloning),就是让 AI 模仿人类的操作轨迹。但这些数据很贵,而且有很多不完美的操作,人类的操作轨迹里可能存在错误或者无效的步骤,导致 AI 学习效果不稳定。
  4. 4. 环境复杂性:不同的计算机系统、软件界面、显示分辨率等都会影响 AI 的表现,一个在 Windows 10 上训练的 AI 可能在 Windows 11 上就会出错。

他们提出了什么新东西?

STEVE 的核心思想是:用GPT-4o作为“裁判”,一步步评估 AI 代理的操作。

整个流程是这样的:

  1. 1. 数据收集:他们先让一些次优的AI代理收集操作数据,覆盖各种任务(图的左中部分)。

 

STEVE 需要大量高质量的 GUI 交互数据,数据的丰富性和准确性直接影响到最终代理的能力。整个数据收集部分有下面几种数据:

首先是从网页的dom元素里面提取所有UI组件和UI边界,然后用OCR(光学字符识别) 模型验证这些UI元素的文本内容(清洗过滤一遍数据),确保数据准确。

除了网页的数据之外,还有在Windows虚拟机环境中,利用现有的UI 解析工具来获取桌面应用程序的界面截图,并收集UI元素的可访问性(A11y)数据,例如文件夹、txt文件、word、excel等等,还有一些截图标注,都用来确保模型能够正确识别计算机上的各种交互组件。

 

仅仅理解界面元素是不够的,STEVE 还需要 AI 代理学会如何操作计算机。因此,研究团队让一些性能较弱的“次优代理”(suboptimal agents)在 Windows 桌面上执行各种任务,并记录它们的操作轨迹。这些任务包括:

  • • 文件操作(重命名、移动、删除)
  • • 浏览器任务(搜索、点击、滚动)
  • • 应用程序操作(打开软件、调整设置)

这些次优代理并不是完美的,它们在执行任务时经常会犯错误。这正是 STEVE 需要的,因为它的目标是教 AI 代理如何区分正确和错误的操作。

 

最后总的收集了这些类型的数据:


 

  1. 2. 步骤验证:4o负责检查每一步操作的正确性,然后打上“对/错”的标签(图的右边部分)。

 

具体过程如下:

  • • AI 代理执行某个操作(比如点击一个按钮)。
  • • 记录操作前后的屏幕截图,并将其提供给 GPT-4o。
  • • GPT-4o 评估这一步操作是否正确,并给出 “正确” 或 “错误” 的二元标签。

这样,每一条轨迹都被拆解成一系列带有标签的操作步骤,这让AI代理可以更精准地学习任务执行过程,而不是只依赖最终的任务完成情况。

 

  1. 3. KTO 训练:利用 Kahneman-Tversky Optimization(KTO)优化方法,让 AI 代理能够利用“对”和“错”两种反馈进行学习,而不是只用正确的示例。

相比于传统的强化学习(RL)方法,STEVE不需要手工设计复杂的奖励函数,而是通过4o直接判断操作的好坏,这就大大降低了训练难度。同时,4o的视觉能力可以帮助AI代理更精准地识别UI元素,并且可以直接利用错误数据和多轮循环来提升AI代理的操作精度。

实验效果如何?

他们做了大量实验,结果很有说服力:

  • • WinAgentArena 评测:他们的 AI 代理在 Windows 环境下的任务完成率超越了之前最好的方法 OmniParser,尤其是在文件管理、网页浏览等任务上,成功率最高提升了 22%。
  • • UI 定位能力:相比传统的监督微调(SFT),他们的方法能更精准地识别和点击 UI 元素,特别是在高分辨率屏幕上,减少了误点击的情况。
  • • 成本和效率:相比 OmniParser 这种方法,他们的 AI 代理推理速度快了 10 倍,成本低了 100 倍。
  • • 通用性:STEVE 训练出来的 AI 代理不仅适用于 Windows 任务,还可以扩展到网页自动化操作,甚至是一些基于 GUI 的移动应用交互。

这个方法有什么意义?

这项研究让我觉得最重要的地方是,他们找到了一个更高效、更可扩展的方式来训练计算机操作 AI。相比于传统的行为克隆或强化学习,他们的步骤验证(Step Verification)方法可以更快地筛选出有效的数据,从而让 AI 更快地进步。未来,这种方法不仅可以用在桌面应用,还可以扩展到 Web 自动化、手机 UI 交互等更广泛的领域。

此外,这种方法对于大规模 AI 训练也有很大的意义。由于 GPT-4o 负责评估 AI 的操作,每一步操作都可以快速得到反馈,而不像传统强化学习那样必须等到任务结束后才知道对错。这意味着 AI 可以在更短时间内学会如何高效操作 GUI,从而缩短训练周期,提高实际部署的可行性。

 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询