微信扫码
添加专属顾问
我要投稿
探索To C GUI Agent类产品的新突破,智谱AutoGLM 沉思版的创新体验。核心内容:1. AutoGLM PC端浏览器操作的独特功能2. 同类产品比较及智谱产品的独特优势3. GUI Agent模型的实现讨论与未来展望
今天智谱发布了AutoGLM 沉思版,其中的PC端可以直接操作用户的浏览器,去浏览一些不能通过搜索引擎和合规爬虫获取的网站。这在我看来,似乎是第一个正经To C的GUI Agent类产品,并且对于Windows和Mac端都进行了适配,易用性上我觉得不错。所以由此正好来谈一下相关的产品。
首先本文并不是智谱的商单,我也没有得到邀请去参加智谱今天的现场发布会,(跟其他一些KOL不同)。所以本文完全是我的个人看法。
一方面,更早的产品还有字节的UI-TARS-desktop,不过它目前只有Mac版,而且看起来很像是一个学术原型。在使用体验上跟AutoGLM PC版还是有差别的。当然并不是说智谱的这个效果显著超过了学术原型,而是说开发团队在“让各种用户都能用上”的角度做的有多用心的问题。所以这实际上不是一个技术效果的标准,而是一个产品体验的标准。
另外一方面传统RPA类软件也在向着AI方向转型,像是通过prompt要求直接创建一次性的RPA workflow然后进行执行,其实也跟这类产品体验有一些相似。不过这种AI RPA类产品并不是针对于DeepResearch类场景,更多还是辅助操作、自动操作的场景。
除了这些外,我也听到一些To B的团队的方案也有类似的功能。
不少用户可能会希望将它与ODR(OpenAI DeepResearch)相比,但我的试用体验是完全无法指望这件事情。与其说它像是ODR,在我看来它更接近于ChatGPT的Operator功能。实际上它的优势也是直接操作浏览器,访问一些靠搜索引擎或ODR的爬虫不能访问的网站。
而且从我对它模型本身的观察来说,它的智能还无法与ODR的o3相比。对于已经能用其他DeepResearch类产品的用户来说,它更类似于一个简易的一次性AI RPA工具。不要对它的DeepResearch功能抱有太高的期望。但如果你的调研信息源很依赖于小红书、京东、知乎这样的网站,那么它可能是更适合的。
它对浏览器的操作需要安装它的Chrome插件,在运行的过程中会独占一个浏览器窗口,并在其中可能打开多个标签页。不过它并不会影响同一个浏览器打开的其他窗口,可以做到把该窗口放置于后台运行。不过当需要用户登录或其他操作时,它的提示只在它的浏览器窗口中才有,在AutoGLM应用中没有提示,这点需要留意。
我没有具体研究AutoGLM和UI-TARS-desktop的实现方式,不过看起来它们应该是拿到了网页DOM,也可能同时拿到了网页截屏进行处理。目前这类软件还都是基于浏览器的,还并不能对于PC上的任意应用进行操作。
目前也有不少创业者期望实现类似的功能。不过我认为这类模型本身其实取决于它的数据合成,在我看来它们更接近于“数据即模型”的状态。而这方面的一个主要问题是数据的缺乏,以及合成成本较高。
我一年之前就在研究合成这方面的数据。在我当时看来,这个合成成本几乎是不现实的。现在随着模型的图像理解能力的增强,在这方面的数据合成变得更有希望了。但我仍然觉得这可能不是一个靠少量微调数据级别就能够很好搞定的事情。对于常见应用和网站的理解与适配,大概率需要在pre-training或post-training阶段就加入该方向的数据进行学习。只靠外部第三方进行微调可能并不乐观。
目前在我来看VLM模型还没有进入推理时代,它们的能力可能更多来源于训练时期的能力固化。如果能够让它们在推理的过程当中对GUI等元素进行分析,来更好地理解应用程序/网页的界面,那么成功率和泛化能力应该还能够再进一步提升。但现在我并没有在哪个VLM模型的输出思考过程当中能看到这方面的能力。
目前AutoGLM采用的方式是使用用户本地浏览器,与OpenAI的Operator不同。它的一个好处是可以避免用户在另外的浏览器上登录账号,降低了从网站侧检测到的概率。
目前对于这种GUI Agent如何登录网站的账号的问题,还没有统一的解决方案,而且我目前也看不到网站有动力来主动支持这些Agent。所以目前使用用户本地浏览器和cookie的方式,似乎是一个不错的过渡方案。
目前海外模型对于Long Context支持都已经不错,但对于国内模型来讲仍有一些距离。特别是当操作浏览器的时候会加入更多量的信息进入Context,这进一步增加了模型处理Context的压力。
短期来看把一些任务拆解成独立的context去处理,然后只返回结果本身可能是一个更好的方式。这样这个独立的环节对于主流程来说就是一个tool。它一方面可以并行执行多个请求,另外一方面也可以降低对于主流程context的压力。
不过这有一点不那么agent,不那么scale。当模型的Long Context能力提升之后,也可能就不需要这样的过程了。
目前这类GUI Agent的成本还是不低的,一是很多操作的步骤比较多,另外是不少环节还需要对于界面图像的处理和分析。目前这方面的总推理成本仍然是较高的。但相对于去年来说,由于成功率的提升成本实际上还是有所下降,但模型的单位推理成本目前并没有很明显的下降。
除了推理成本之外,用户的等待时间,对于云上浏览器的占用时间,也是一个无法忽视的成本。目前的方案看起来都还较慢,消耗的时间仍然较多。
虽然目前的可用性还并没有特别好,但我觉得AutoGLM作为第1个正经给用户使用的To C GUI Agent产品,还是有首发意义的。
从我目前听到的信息来看,预计再过一年,这方面的模型能力应该会相对于现在继续有明显的提升。但那个时候它们是否能够很好地泛化到自己没有用过的软件和网页上仍是一个未知数。以及它们的使用成本如何也是不确定的。
不管怎么样,智谱已经树立了一个靶子,或者说OpenAI的Operator已经树立了一个靶子。坐等全球其他模型厂也正式地跳进来进行竞争。
考虑到这方面的模型能力大概强烈取决于对于常见应用数据上覆盖的多少,所以很可能国内和海外的模型能力上是各有侧重的,在国内的应用场景下可能很难指望海外的模型。不止PC端如此,手机端也是如此。
各种应用、网站以及App,是否能够让这些GUI模型能够用好自己,似乎成了一个战略上需要决策的点。在线网站和应用可能还另说,但像纯端侧无需联网的软件,大概还是能让这些模型去熟悉自己是更好的,实际上这也是一种用户培训方式。能够降低更多用户使用这些软件的成本,那么用户就会更多的去使用这些软件。
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.3.31 首发于微信公众号
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-05
让Agent通过MCP操作本地浏览器,用视觉识别还是通过DOM操作,貌似回到当年RPA水准
2025-04-05
别再折腾Searxng,免费好用的大模型搜索服务薅起来
2025-04-05
大模型等于“小镇做题家”:用最简单的语言解释LLM
2025-04-05
理解MCP
2025-04-04
MCP协议入门指南,4个案例+2个实践全解析!
2025-04-04
一文读懂AI智能体融合与数据隐私安全问题
2025-04-04
AI菩萨OpenRouter连发两大招,免费Quasar+全模型联网!
2025-04-04
王炸!Spring AI+MCP 三步实现智能体开发
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-02
2025-04-02
2025-04-01
2025-04-01
2025-04-01
2025-03-30
2025-03-30
2025-03-28