我要投稿

STEVE：用AI训练AI，打造更聪明的电脑操作助手帮你操控UI界面

发布日期：2025-03-24 21:23:51 浏览次数： 1551 来源：Chal1ceAI

最近，我读了一篇相当有意思的论文，名字叫《STEVE: A Step Verification Pipeline for Computer-use Agent Training》。

相信这几个月大家也见到了不少AI操控电脑，帮我们搞好工作的案例，像智谱、manus等等，但是绝大部分是通过调用api的方式来指挥AI操作，那如果没有api的话，是不是图形界面也可以作为ai理解的一部分呢。

这篇论文讲的是如何让AI代理更好地操作计算机图形界面（GUI），就像人类一样点击、输入、拖拽。AI在这方面的进展很快，但训练它们依然是个大问题，数据贵、动作复杂、评估难。

在现实场景还是有很多人不会用api，或者没有网络api的时候，这时候gui操作就成了自动化操作的另一个选项。

这篇论文的贡献就是提出了一种新的训练方法——STEVE，可以高效地提高AI代理的能力。

为什么 GUI 操作代理这么难？

让 AI 在 GUI 里操作，说白了就是让它看着屏幕，然后像人一样去点击、输入、滚动。这看似简单，但实际上有几个大难点：

1. UI 元素识别难：现代软件界面千变万化，传统的OCR或检测方法很难精准理解按钮、菜单等组件，尤其是在不同应用程序之间切换时，可能会遇到不规则的UI设计。
2. 多步任务规划：有些操作，比如“把文件 A 移动到文件夹 B”，需要分好几步来完成，AI 要懂得长期规划。这不仅仅是简单的“点一下”操作，而是涉及路径规划、界面识别等多个环节。
3. 训练数据昂贵：之前的方法靠“行为克隆”（Behavior Cloning），就是让 AI 模仿人类的操作轨迹。但这些数据很贵，而且有很多不完美的操作，人类的操作轨迹里可能存在错误或者无效的步骤，导致 AI 学习效果不稳定。
4. 环境复杂性：不同的计算机系统、软件界面、显示分辨率等都会影响 AI 的表现，一个在 Windows 10 上训练的 AI 可能在 Windows 11 上就会出错。

他们提出了什么新东西？

STEVE 的核心思想是：用GPT-4o作为“裁判”，一步步评估 AI 代理的操作。

整个流程是这样的：

1. 数据收集：他们先让一些次优的AI代理收集操作数据，覆盖各种任务（图的左中部分）。

STEVE 需要大量高质量的 GUI 交互数据，数据的丰富性和准确性直接影响到最终代理的能力。整个数据收集部分有下面几种数据：

首先是从网页的dom元素里面提取所有UI组件和UI边界，然后用OCR（光学字符识别） 模型验证这些UI元素的文本内容（清洗过滤一遍数据），确保数据准确。

除了网页的数据之外，还有在Windows虚拟机环境中，利用现有的UI 解析工具来获取桌面应用程序的界面截图，并收集UI元素的可访问性（A11y）数据，例如文件夹、txt文件、word、excel等等，还有一些截图标注，都用来确保模型能够正确识别计算机上的各种交互组件。

仅仅理解界面元素是不够的，STEVE 还需要 AI 代理学会如何操作计算机。因此，研究团队让一些性能较弱的“次优代理”（suboptimal agents）在 Windows 桌面上执行各种任务，并记录它们的操作轨迹。这些任务包括：

• 文件操作（重命名、移动、删除）
• 浏览器任务（搜索、点击、滚动）
• 应用程序操作（打开软件、调整设置）

这些次优代理并不是完美的，它们在执行任务时经常会犯错误。这正是 STEVE 需要的，因为它的目标是教 AI 代理如何区分正确和错误的操作。

最后总的收集了这些类型的数据：

2. 步骤验证：4o负责检查每一步操作的正确性，然后打上“对/错”的标签（图的右边部分）。

具体过程如下：

• AI 代理执行某个操作（比如点击一个按钮）。
• 记录操作前后的屏幕截图，并将其提供给 GPT-4o。
• GPT-4o 评估这一步操作是否正确，并给出 “正确” 或 “错误” 的二元标签。

这样，每一条轨迹都被拆解成一系列带有标签的操作步骤，这让AI代理可以更精准地学习任务执行过程，而不是只依赖最终的任务完成情况。

3. KTO 训练：利用 Kahneman-Tversky Optimization（KTO）优化方法，让 AI 代理能够利用“对”和“错”两种反馈进行学习，而不是只用正确的示例。

相比于传统的强化学习（RL）方法，STEVE不需要手工设计复杂的奖励函数，而是通过4o直接判断操作的好坏，这就大大降低了训练难度。同时，4o的视觉能力可以帮助AI代理更精准地识别UI元素，并且可以直接利用错误数据和多轮循环来提升AI代理的操作精度。

实验效果如何？

他们做了大量实验，结果很有说服力：

• WinAgentArena 评测：他们的 AI 代理在 Windows 环境下的任务完成率超越了之前最好的方法 OmniParser，尤其是在文件管理、网页浏览等任务上，成功率最高提升了 22%。
• UI 定位能力：相比传统的监督微调（SFT），他们的方法能更精准地识别和点击 UI 元素，特别是在高分辨率屏幕上，减少了误点击的情况。
• 成本和效率：相比 OmniParser 这种方法，他们的 AI 代理推理速度快了 10 倍，成本低了 100 倍。
• 通用性：STEVE 训练出来的 AI 代理不仅适用于 Windows 任务，还可以扩展到网页自动化操作，甚至是一些基于 GUI 的移动应用交互。

这个方法有什么意义？

这项研究让我觉得最重要的地方是，他们找到了一个更高效、更可扩展的方式来训练计算机操作 AI。相比于传统的行为克隆或强化学习，他们的步骤验证（Step Verification）方法可以更快地筛选出有效的数据，从而让 AI 更快地进步。未来，这种方法不仅可以用在桌面应用，还可以扩展到 Web 自动化、手机 UI 交互等更广泛的领域。

此外，这种方法对于大规模 AI 训练也有很大的意义。由于 GPT-4o 负责评估 AI 的操作，每一步操作都可以快速得到反馈，而不像传统强化学习那样必须等到任务结束后才知道对错。这意味着 AI 可以在更短时间内学会如何高效操作 GUI，从而缩短训练周期，提高实际部署的可行性。