我要投稿

谈目前To C的GUI Agent类产品

发布日期：2025-04-05 06:02:38 浏览次数： 1591 作者：孔某人的低维认知

今天智谱发布了AutoGLM 沉思版，其中的PC端可以直接操作用户的浏览器，去浏览一些不能通过搜索引擎和合规爬虫获取的网站。这在我看来，似乎是第一个正经To C的GUI Agent类产品，并且对于Windows和Mac端都进行了适配，易用性上我觉得不错。所以由此正好来谈一下相关的产品。

首先本文并不是智谱的商单，我也没有得到邀请去参加智谱今天的现场发布会，（跟其他一些KOL不同）。所以本文完全是我的个人看法。

1、同类产品

一方面，更早的产品还有字节的UI-TARS-desktop，不过它目前只有Mac版，而且看起来很像是一个学术原型。在使用体验上跟AutoGLM PC版还是有差别的。当然并不是说智谱的这个效果显著超过了学术原型，而是说开发团队在“让各种用户都能用上”的角度做的有多用心的问题。所以这实际上不是一个技术效果的标准，而是一个产品体验的标准。

另外一方面传统RPA类软件也在向着AI方向转型，像是通过prompt要求直接创建一次性的RPA workflow然后进行执行，其实也跟这类产品体验有一些相似。不过这种AI RPA类产品并不是针对于DeepResearch类场景，更多还是辅助操作、自动操作的场景。

除了这些外，我也听到一些To B的团队的方案也有类似的功能。

1.1、智谱 AutoGLM 沉思版的使用体验

不少用户可能会希望将它与ODR（OpenAI DeepResearch）相比，但我的试用体验是完全无法指望这件事情。与其说它像是ODR，在我看来它更接近于ChatGPT的Operator功能。实际上它的优势也是直接操作浏览器，访问一些靠搜索引擎或ODR的爬虫不能访问的网站。

而且从我对它模型本身的观察来说，它的智能还无法与ODR的o3相比。对于已经能用其他DeepResearch类产品的用户来说，它更类似于一个简易的一次性AI RPA工具。不要对它的DeepResearch功能抱有太高的期望。但如果你的调研信息源很依赖于小红书、京东、知乎这样的网站，那么它可能是更适合的。

它对浏览器的操作需要安装它的Chrome插件，在运行的过程中会独占一个浏览器窗口，并在其中可能打开多个标签页。不过它并不会影响同一个浏览器打开的其他窗口，可以做到把该窗口放置于后台运行。不过当需要用户登录或其他操作时，它的提示只在它的浏览器窗口中才有，在AutoGLM应用中没有提示，这点需要留意。

2、实现讨论

2.1、关于GUI Agent模型

我没有具体研究AutoGLM和UI-TARS-desktop的实现方式，不过看起来它们应该是拿到了网页DOM，也可能同时拿到了网页截屏进行处理。目前这类软件还都是基于浏览器的，还并不能对于PC上的任意应用进行操作。

目前也有不少创业者期望实现类似的功能。不过我认为这类模型本身其实取决于它的数据合成，在我看来它们更接近于“数据即模型”的状态。而这方面的一个主要问题是数据的缺乏，以及合成成本较高。

我一年之前就在研究合成这方面的数据。在我当时看来，这个合成成本几乎是不现实的。现在随着模型的图像理解能力的增强，在这方面的数据合成变得更有希望了。但我仍然觉得这可能不是一个靠少量微调数据级别就能够很好搞定的事情。对于常见应用和网站的理解与适配，大概率需要在pre-training或post-training阶段就加入该方向的数据进行学习。只靠外部第三方进行微调可能并不乐观。

目前在我来看VLM模型还没有进入推理时代，它们的能力可能更多来源于训练时期的能力固化。如果能够让它们在推理的过程当中对GUI等元素进行分析，来更好地理解应用程序/网页的界面，那么成功率和泛化能力应该还能够再进一步提升。但现在我并没有在哪个VLM模型的输出思考过程当中能看到这方面的能力。