近日,百度创始人李彦宏在“亚布力成长计划-走进百度”活动上表示,Agent是AI时代的网站,将会有几百万、甚至更大量的Agent出现,形成庞大生态。未来,在各行各业、各个领域都会依据自己具体的场景,根据特有的经验、规则、数据,开发出来的Agent。比尔・盖茨在去年就发布一篇博文,认为AI Agent将颠覆软件行业,Agent 不仅会改变每个人与计算机交互的方式。它们还将颠覆软件行业,掀起自我们从输入命令到点击图标以来最大的计算革命。除此之外,吴恩达也在多个场合呼吁大家关注AI Agent,以及Agent工作流。为什么这些科技企业领导人和专家都这么看好AI Agent的未来发展?
AI Agent 属于人工智能领域的术语,是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。
Agent(代理)一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在人工智能领域,这一术语被赋予了一层新的 含义:具有自主性、反应性、交互性等特征的智能“代理”。大型语言模型(LLMs)的出现为智能代理的进一步发展带来了希望。
大模型的参数量提升AI Agent的理解力和泛化能力,使其能更好地处理多种任务和上下文信息。这增强了AI代理的自然语言处理能力,从而 提供更个性化、连贯的交互体验,是当下Agent的构建关键。AI Agent是Prompt工程的一种升级,Agent的核心在于自主性的增强,可有效完成某一个工作点或工作单元,尽量减少人的干预;评价一个AI Agent的核心逻辑:在流程上的节点上完成了什么程度的自动化。
在互联网时代,网站是用户获取信息和服务的主要渠道,各种门户、站点、搜索引擎是流量的分发中心,移动互联网时代,各种APP是流量的分发中心。同样,在AI时代,Agent将成为新的分发中心,它们能够理解用户需求并提供定制化的信息和服务。前段时间,支付宝在首页灰度测试一款全新的办事 AI 产品,智能助理,该产品基于蚂蚁百灵大模型研发,正处于对外测试阶段。和其他侧重于对话交流的原生 AI 产品不同,支付宝智能助理不是聊天型 AI,而是聚焦生活的“办事型 AI,它不是独立应用,而是融入支付宝 App,可为用户提供出行、健康、政务等场景的 30 多项数字生活服务。作为国内的一款超级APP,一旦这个场景的体验能达到用户的期望,相关数字生活服务的APP就不会有人打开了。
OpenAI GPT-4o的发布会相信不少人都看过,可以像人类一样聊天,可以通过摄像头获取周围环境信息,这些都比鼠标键盘的交互更方便。用户只需要用简洁明了的语言 “告诉” 设备自己想做什么,Agent便可根据用户分享信息的多少、对用户生活的了解程度,作出个性化的回应。每次新技术的出现,就会催生一些新的交互方式、提供不同体验的产品和服务。移动互联网和智能手机,催生了各种手机APP,有了GPS、北斗这些定位系统,才出现了滴滴、导航等。可能有些人还不知道,滴滴打车出现之前,是可以通过打电话预约出租车的。没有智能手机之前,我到一个新的城市,会买一张当地的地图。但现在我已经很久没有看过纸质的地图了,甚至钱包可能一个星期都不会拿出来一次。这些都是新技术带来的改变,可想而知,大模型强大的理解推理能力,多模态融合能力,未来肯定会给我们的生活方式带来一次革新。现阶段,我们为了解决不同的问题,需要使用各种独立的APP,打车用滴滴,购物用天猫京东,旅游用携程。即使是企业内部ERP或者各种SaaS,也都是有各自一套复杂的UI界面和操作流程。
AI会给商业模式和软件生态带来颠覆性变化。基于自然语言的极简交互将替代很多传统的图形界面交互,Agent可以规划方案,操作各种工具,极大降低人介入的工作量。AI Agent形态会对既有软件进行智能化改造与升级,以API 的形式增加重要环节的可交互性和认知能力。业务流程和个人交互方式的改变对用户体验影响巨大,可快速调取超级应用承载的海量复杂功能,形成组合式输出。未来,大部分公司或者个人开展业务不需要再开发网站或者APP,而是上架到各个Agent store,就像现在的APP Store。AI Agent可以相互协作,或者被超级入口Agent调用,从而给用户提供服务,这是软件生态的重构。如果说大模型是属于工程师的技术游戏,那么AI Agent则是每个普通人都可以尝试的乐高。李彦宏说:今天做AI Agent很简单……起个名字,告诉它回答什么、不回答什么,就做成了。当然要做好没那么简单,但这是让人极其兴奋的一件事,通过互联网产品开展业务,不再是少数人才能从事的高端游戏了。在AI时代,超级个体是一个新兴的概念,指的是那些通过利用人工智能技术显著提升个人生产力和创造力的个体。他们往往拥有自己的AI团队和自动化任务工作流,能够独立完成商业变现,并且在更广阔的领域展示才华。这些个体不依赖于公司和平台,以个体为单位,在一个领域或行业具有专业的知识和能力,同时具备个人IP和影响力。现实世界,用户的需求并不明确,多种多样,而且往往是供给激发需求。较低的开发成本、较快的响应速度、适配的使用场景,才能满足大众群体的需求,创造更好的生活体验。最近看了微软和苹果两个重量级的发布会,微软的Copilot+PC标志着AI PC的一个新时代。这款产品集成了OpenAI的GPT-4o模型,NPU(神经网络处理器)算力来到了40 TOPs(每秒万亿次处理),提供了实时语音对话、智能搜索、图片背景改变等功能。Copilot+PC还展示了强大的硬件支持,采用ARM架构和高通处理器,进一步推动了AI技术在个人计算设备中的应用。Apple Intelligence支持自然语言理解,支持在不同应用中分析你的内容和指令,可以自动润色邮件,总结备忘录,也可以实现生成式图片,同时支持文本生图功能,提供素描、插图和动画等多种风格。Apple Intelligence包含端侧处理和云端处理两种方式,如果手机端算力不够,相关指令会发送到私有云上处理,Apple Intelligence私有云计算技术可以让指令在云端进行处理。个人设备上的AI会越来越强大,包括寸尺适合的大模型和运行的智能硬件。苹果发布会上演示了Siri进化了,如果在系统级别连接更多的应用,或者未来把APP Store变成Agent Store也是有可能的。那么Siri就具备作为超级入口的资格,当然微软小冰也可以,而且这还是系统级别的,也许会重现当年微软IE浏览器打败网景的历史。个人设备上的AI具备低延迟、隐私安全、系统原生这些优势,未来AI能力会像GUI、计算这些一样,成为系统基础的能力,其他第三方应用基于系统开发直接调用就行。这也是我不太看好各种基于RAG的知识库产品的原因,在个人设备上的AI理解、检索、生成存储在本地文档,这是很自然而然的事情,操作系统集成这个能力只是顺手的事。技术创新和人类进步一直相辅相成,人一直借助各种技术手段提升生产力,期望生活能过得更美好。发明汽车,让出行变得更快速,发明电话,让交流变得更便捷,发明计算机,让工作变得更高效。然而,我们变得更幸福、生活更美好了吗?想起之前看过的一本书,以色列的历史学家尤瓦尔·赫拉利写的《人类简史》,书中给出的一段论述,我深以为然。几千年前,人类学会耕种农作物,称为农业革命,书中对原始人进入农业革命后的描述:反而让人类的生活变得更辛苦、身体变得更差了。我们的身体适合爬果树、追瞪羚而不是弯腰清理石块、挑水桶,人类进到农业时代后出现了大量疾病,如椎间盘突出、关节炎和痴气,结果“不是我们驯化了小麦,而是小麦驯化了我们”。农业革命唯一的好处就是使得人类数量呈指数增长。