微信扫码
添加专属顾问
我要投稿
用AI训练AI,打造更聪明的电脑操作助手帮你操控UI界面! 核心内容: 1. AI代理操作计算机图形界面(GUI)的难点分析 2. STEVE:一种新的训练方法,用GPT-4o评估AI代理操作 3. 数据收集:从网页DOM元素提取UI组件、OCR验证文本内容等
最近,我读了一篇相当有意思的论文,名字叫《STEVE: A Step Verification Pipeline for Computer-use Agent Training》。
相信这几个月大家也见到了不少AI操控电脑,帮我们搞好工作的案例,像智谱、manus等等,但是绝大部分是通过调用api的方式来指挥AI操作,那如果没有api的话,是不是图形界面也可以作为ai理解的一部分呢。
这篇论文讲的是如何让AI代理更好地操作计算机图形界面(GUI),就像人类一样点击、输入、拖拽。AI在这方面的进展很快,但训练它们依然是个大问题,数据贵、动作复杂、评估难。
在现实场景还是有很多人不会用api,或者没有网络api的时候,这时候gui操作就成了自动化操作的另一个选项。
这篇论文的贡献就是提出了一种新的训练方法——STEVE,可以高效地提高AI代理的能力。
让 AI 在 GUI 里操作,说白了就是让它看着屏幕,然后像人一样去点击、输入、滚动。这看似简单,但实际上有几个大难点:
STEVE 的核心思想是:用GPT-4o作为“裁判”,一步步评估 AI 代理的操作。
整个流程是这样的:
STEVE 需要大量高质量的 GUI 交互数据,数据的丰富性和准确性直接影响到最终代理的能力。整个数据收集部分有下面几种数据:
首先是从网页的dom元素里面提取所有UI组件和UI边界,然后用OCR(光学字符识别) 模型验证这些UI元素的文本内容(清洗过滤一遍数据),确保数据准确。
除了网页的数据之外,还有在Windows虚拟机环境中,利用现有的UI 解析工具来获取桌面应用程序的界面截图,并收集UI元素的可访问性(A11y)数据,例如文件夹、txt文件、word、excel等等,还有一些截图标注,都用来确保模型能够正确识别计算机上的各种交互组件。
仅仅理解界面元素是不够的,STEVE 还需要 AI 代理学会如何操作计算机。因此,研究团队让一些性能较弱的“次优代理”(suboptimal agents)在 Windows 桌面上执行各种任务,并记录它们的操作轨迹。这些任务包括:
这些次优代理并不是完美的,它们在执行任务时经常会犯错误。这正是 STEVE 需要的,因为它的目标是教 AI 代理如何区分正确和错误的操作。
最后总的收集了这些类型的数据:
具体过程如下:
这样,每一条轨迹都被拆解成一系列带有标签的操作步骤,这让AI代理可以更精准地学习任务执行过程,而不是只依赖最终的任务完成情况。
相比于传统的强化学习(RL)方法,STEVE不需要手工设计复杂的奖励函数,而是通过4o直接判断操作的好坏,这就大大降低了训练难度。同时,4o的视觉能力可以帮助AI代理更精准地识别UI元素,并且可以直接利用错误数据和多轮循环来提升AI代理的操作精度。
他们做了大量实验,结果很有说服力:
这项研究让我觉得最重要的地方是,他们找到了一个更高效、更可扩展的方式来训练计算机操作 AI。相比于传统的行为克隆或强化学习,他们的步骤验证(Step Verification)方法可以更快地筛选出有效的数据,从而让 AI 更快地进步。未来,这种方法不仅可以用在桌面应用,还可以扩展到 Web 自动化、手机 UI 交互等更广泛的领域。
此外,这种方法对于大规模 AI 训练也有很大的意义。由于 GPT-4o 负责评估 AI 的操作,每一步操作都可以快速得到反馈,而不像传统强化学习那样必须等到任务结束后才知道对错。这意味着 AI 可以在更短时间内学会如何高效操作 GUI,从而缩短训练周期,提高实际部署的可行性。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-03-20
2025-03-16
2025-03-16
2025-03-13
2025-03-13
2025-03-11
2025-03-07
2025-03-05