我要投稿

大模型公司想让你对图形用户界面（GUI）说再见｜新皮层

发布日期：2024-10-29 07:10:20 浏览次数： 2058 作者：新皮层NewNewThing

Key Points

Anthropic首先提出了computer use概念，没有用agent这个词，但这不只是个命名的胜利；

图形用户界面（GUI）已越来越臃肿，AI可能玩得更好；

「代操作」AI有望成为现有操作系统之上的一层AI操作系统，成为超级入口；

「代操作」AI的出现也将重新定义AI设备——首先，你不用换个更先进的手机也能让AI办点大事了；

「代操作」AI原来卡在缺乏任务规划能力上，但事实表明，它们只需要会模仿人类操作就够了。

大模型之后，AI不仅拥有了大脑，长出了眼睛、耳朵和嘴巴，现在还有了「手」——它可以代替人类操作电脑和手机了。

10月24日，智谱推出一个叫AutoGLM的智能体（agent），它可以根据用户的口头吩咐完成一系列操作：比如想点咖啡外卖，过去你需要打开外卖应用程序、输入咖啡店名称、找到自己喜欢的口味、添加购物车、跳转付款页面完成支付。现在，有了AutoGLM，对它说一句「帮我点一杯xx的美式咖啡」，它就会自动完成上述一系列操作，你只需要在它选好商品和需要付款时确认一下就行。

这个功能和10月22日Anthropic发布的「计算机操作」（computer use）功能相似，后者允许AI像人类一样操作计算机——查看屏幕、移动光标、单击按钮和输入文本。人需要做的同样只是下个命令即可。差别在于，Anthropic的这项能力目前仅用于PC，而智谱的AutoGLM既可用于PC，也能用于智能手机（目前只适用于安卓系手机，不适用于iPhone）。

Anhtropic和智谱带来的功能其实不是新事物，微软上半年就推出的Copilot和苹果已发布的Apple Intelligence工具包中，都包含让AI代替人跨App地完成相对复杂的任务的意图——比如订机票、给某人发邮件等操作，而人只需要口头交代这些待办事项即可。

不过，Anhtropic用一个更聪明的命名方式开启了一个AI应用的新品类——设备代操作（hardware use），意思是过去需要人亲自操作的设备，以后可以由AI代替人去操作。在这一新概念下，过去用户躺着喊一声「小爱同学」或者「天猫精灵」，然后就可以口头交代它们打开电视机并调到自己喜欢的频道的AI功能，说是「升级」为了「TV use」也不为过。

智谱显然很快意识到了新命名模式的商业价值。在此前发布的与AutoGLM有关的论文中，智谱都称其为「agent」（智能体），比如可以用于操作PC的AutoWebGLM模型，被称作「Web Navigating Agent」，意思是它是个用于网上冲浪的的智能体，区别于庞大智能体阵营中拥有各种功能的其他智能体——专门帮用户订票的智能体、为用户管理社交媒体的智能体或者用于收发邮件的智能体。

但很快，智谱就不再叫它们agent，而改口称CogAgent和AutoGLM-Web为「computer use」、称AutoGLM为「phone use」了。

被「computer use」改变的不止是智谱，还将包括我们已经习惯的采用图形用户界面（GUI）的操作系统本身，以及业界过去对AIPC和AI手机的定义。这些潜在的变化意味着，「computer use」的胜利不会只是命名的胜利。

图形用户界面（GUI）已越来越臃肿，AI可能玩得更好

你可能已经对电脑和手机中的图标、菜单、视窗等习以为常。但事实上我们今天在PC和手机上使用的由这些视觉元素组成的图形用户界面（GUI），1973年才被第一次被美国的打印机公司施乐创造出来，然后在1984年1月随着苹果旗下的麦金塔（Mac）电脑上市以及1985年微软推出的Windows操作系统才开始普及。

1973年，施乐公司旗下的帕洛阿尔托研究中心（PARC）开发了全球首台图形用户界面电脑「Alto」，不过由于母公司专注于打印机业务，这款电脑从未商业化。

正是因为施乐公司的发明者们想到了把「桌面」的概念应用到电脑屏幕上，让屏幕像我们办公室的桌面一样可以摆放文件和文件夹，同时让用户可以移动鼠标来点击自己想要的内容，计算机——这种原本只在高级实验室里由专业的程序员敲入程序才能使用的大型、复杂设备，才变得每个普通人都可以使用。

1984年，苹果推出首款图形用户界面电脑，部分想法来自于施乐。

这种交互革命带来了PC市场的繁荣，然后是智能手机、pad等更多设备。反过来可以说，今天我们买回家的设备的操作系统及其交互界面都是为了便于我们人类操作而构建的，但接下来就不好说了。

Anthropic和智谱的computer use、phone use正逐步将人类使用者从一些为人类视觉和行为习惯而构建的应用程序中「解放」出来，尤其一些工具型应用。

比如智谱AutoGLM的phone use首先上线的8款App是：微信、美团、淘宝、大众点评、小红书、高德地图、12306和携程。像是打开微信发送消息、给朋友圈点赞评论、在美团上点外卖、写评价、订车票或者酒店，这些工具性的操作现在都可以通过智谱的AutoGLM完成。

智谱所展示的使用案例中，一位繁忙的程序员的时间完全被眼前的工作填满，但当妻子让他记得买牙膏时，他拿起手机对着AutoGLM说了一句「帮我下单淘宝里上个月买过的牙膏」，AutoGLM就自动打开这位程序员手机里的淘宝、查看购物记录、筛选出买过的牙膏的订单、打开同款牙膏的购买链接、程序员确认下单，整个过程不到1分钟。

图形用户界面（GUI）正迎来自问世以来的最大危机。当操作这些设备和应用程序的不再是人类，而是变成了AI，那图标、菜单、视窗、鼠标（光标）还有没有必要存在将是个问题——AI不需要看到一个东西长得像文件夹才知道它是文件夹。

不过危机其实早就存在。随着互联网信息大爆炸、应用程序增多、功能增加以及商业利益的左右，完成很多事项需要的操作早已变得越来越复杂，否则今天不会有那么多人既难以学会使用智能手机也不会开电视机了。Anthropic在推出computer use的使用范例中举了一个例子，如果用户想要使用网上的数据填写表格，需要打开浏览器、进入相关网页、找到相关数据、一个一个复制到表格中。如果将如此复杂的程序如果交给AI，人可以省很多事。

「CogAgent和AutoGLM-Web是智谱构建GLM-OS（以大模型为中心的通用计算系统）的不同尝试，尽管基于不同的技术路线，但两者均瞄向同样一个目标：实现模仿人类的Plan-Do-Check-Act（计划-执行-检查-行动）循环，形成自我反馈和自我提升——恰如人类自己所做的一样。」智谱在发布用于操作电脑设备的AI文章中称。言下之意是，在操作为人类设计的设备及其操作系统和应用程序这一问题上，AI可能比人学得更快、玩得更好。

现在，人工智能公司们承诺，AI可以让人从这些复杂的设备操作中解脱出来。这些「代操作」工具可能只是个人机交互历史上的过渡性产品，因为如果以后所有设备都不需要人去亲自操作，口头交待一下AI就行，那设计一个更适合AI操作的界面也许效率更高。

不过另一种可能性仍然存在，即这种从人的使用角度设计的交互界面可能将长期存在，万一AI出错，人需要随时可以接管，就像自动驾驶汽车仍然需要方向盘和刹车一样。但也和高阶自动驾驶汽车中的方向盘和刹车一样，如果被人使用得越来越少，这些工具的商业价值就会越来越低。

反过来，像Anthropic和智谱提供的这些「代操作」AI，可能会成为新的超级入口，就像Siri想做的事一样，它们作为你的AI管家，在更了解你之后，未来可能在代为选择商品或服务时发挥推荐作用——是否加入了它们自己的意志还不好说，但在作为一种超级入口的意义上，它们将成为现有操作系统之上的一层AI操作系统——如果你留意的话，前面提到过智谱已经将它发布的这些「代操作」工具称作「构建GLM-OS（以大模型为中心的通用计算系统）的不同尝试」。

重新定义AI设备

「代操作」AI的出现也将重新定义AI设备。

去年以来，初创大模型公司忙着将它们的模型参数不断扩大（行话是scaling up）的时候，技术巨头忙着争夺把这些模型塞进硬件设备以及「AIPC」「AI手机」的定义权。

最开始是微软，它在OpenAI刚发布GPT-4o模型仅一周后，就把名为Copilot的智能体塞进了基于Windows 11操作系统的电脑，并同时心急地要求配备Windows 11系统的电脑厂商在各自的键盘中新增一个按键，专门用于启动Copilot。在Copilot中，用户可以用自然语言要求它打开一些应用程序，而不用自己去在菜单栏中寻找和点击，比如当用户说「帮我找回专注力吧」，Copilot就会在对话框中跳出音乐应用Spotify的链接；当用户要求Copilot「管理下我的桌面」，它会自动将用户桌面上的诸多窗口排列得更有秩序。但你如果让它为你做些更为复杂的事，比如订一张机票，它会「编造」出一些机票价格、假装取得你的支付许可，而无法真的打开任何机票订购软件。

作为操作系统级的AI，Windows Copilot所做的事仍然仅限于文字总结或者图像生成，尽管能找到相应的应用程序，但它无法进入应用程序内部操作。不过微软对于AIPC的定义很严格：电脑厂商若要成为AIPC、获得「Copilot+PC」商标，在硬件方面除了要配备常规的CPU和GPU，还要为跑大模型准备专门的神经处理单元（NUP），指标方面要求算力至少达到40TOPs，并拥有16GB内存和256TB硬盘。苹果的新款MacBook Air满足不了这些指标，因为它只有18TOPs算力以及低配版的8GB内存。

Google与三星合作的Galaxy S24号称全球首款AI手机，搭载Google的Gemini Nano模型，这个模型直接跑在Galaxy S24手机的本地芯片上。除了在通话时提供实时双向语音翻译，这款AI手机还承诺用户「所看即所得」，也就是在聊天、浏览社交媒体，甚至查看PPT文档时，只要你对屏幕上的任何内容有进一步了解的意愿，都可以伸出手指、圈中它，按下Home键——这项功能被称作「Google Search」，相当于一键召唤Google，无需切换应用程序，Galaxy S24能即时给出相应的搜索结果。同样地，用户需要换成与Google合作的新款手机，才能用上这些功能。

图片、网页、屏幕、聊天过程中……一切皆可先圈住（Circle），再用生成式AI搜索。

苹果的AI手机方案承诺了用户更多AI功能，从更好地总结邮件形成摘要、取代过去那种直接把邮件前几行提取出来作为摘要的简单做法，到理解用户使用场景的上下文、跨App地使用信息，再到用一个新增按键充当「视觉智能」的启动键，让用户按下去就能获得一个实时的、长了眼睛的AI助手……这些打包起来被称作Apple Intelligence（苹果智能）的功能都需要用户丢掉手上设备、换上有更先进的芯片支持的新硬件才能实现。

苹果新款手机采用3nm制程，号称可以支持在手机端跑大模型。

从微软、Google到苹果，三大巨头都没有将「代操作」作为一台AI设备的重点，而Anthropic和智谱用一个「代操作」工具让大量既有的、没那么先进的设备直接变成了AI机器。

从推理问题变为模仿问题

理论上，「代操作」类agent是巨头们的自留地，因为训练这类agent需要大量屏幕数据，这些系统级数据通常掌握在传统巨头——从操作系统厂商到手机厂商手中。而且，这些agent若要发挥功能，传统思路上被认为需要具备规划能力，并能获得取得进入各应用程序的API权限。

但是通过把「推理问题」变成「模仿问题」，大模型公司们一定程度上把这些障碍都绕过了。

Anthropic的论文显示，Claude模型在实现computer use功能时，没有调取被操作应用程序的API，仅仅是通过大量分析用户的屏幕截图，理解了用户如何完成任务分解和分步骤实现目标，就学会了「代操作」。整个过程相当于模拟人的操作，也就是说AI完成复杂任务也可以不需要有推理能力，它只需要模仿。基于Transformer的AI最擅长的就是模仿。

而且，这种基于「纯视觉」的技术方案还获得了打破了应用壁垒的优势，哪怕某个应用程序不提供入口和数据，AI也可以通过屏幕分析介入其中。

去年下半年以来，苹果也已推出至少两款专为理解移动UI屏幕而开发的多模态模型，一款叫ReALM，另一款叫Ferret-UI，两款模型都能「看懂」手机的UI界面并执行相应任务。

不过苹果迄今尚未推出「代操作」AI功能，最新消息称，Google、Meta和微软也在开发能够操作电脑的AI技术。

中国大模型公司和设备厂商在这一技术上的进度更快。目前，Anthropic的computer use功能还处于公测阶段，测试成功率只有15%，还不具备任何生产力。用Anthropic自己的话来说，「有时很麻烦且容易出错」但「将在未来几个月内迅速提高」。人类毫不费力便能完成的滚动、拖动、缩放操作，对Anthropic的Claude模型来说也还是挑战。

智谱的AutoGLM目前也在测试阶段，但已和手机厂商荣耀达成了合作。今年9月，两家公司共同成立了AI大模型技术联合实验室。荣耀10月23日发布的AI操作系统MagicOS 9.0和智能体YOYO，可以根据用户平时的习惯，结合时间、地点，直接进入外卖App帮用户下单一杯咖啡。在发布会的现场演示中，YOYO还亲自关掉了一个开屏广告。

（王杰夫对本文亦有贡献）

-END-

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业