我要投稿

Agent应用形态的3阶段，我们尚未达到第1层，但够用

发布日期：2024-04-18 02:53:36 浏览次数： 2136 作者：唐霜

在之前的文章《超干货！如何设计基于Agent的AI应用系统》中我提到了过去几代人工智能的发展，“Agent”作为核心词汇，是一个人工智能领域延续至今的设定，随着时代的推移，它的概念内涵在扩大，但是无论在哪个时代，它都能一针见血的概括人工智能的终极目标——自主思考和行动的机器体。当今人工智能已经发展为LLM-based的范式，Agent的应用开始呈现出更现代的表征。2023年LLM大火，但彼时，我们完全不知道会以怎样的应用形态出现，而到了2024年的今天，AI应用已经多到爆炸，其中包括了文本、图片、声音、视频等多模态处理能力，也覆盖到写文案、法律咨询、做PPT、做短视频赚钱等等实际场景，可以说，这是一个极速进步的前所未有的新技术革命时代。但是因为这种快速，让我们往往专注眼前一分一刻的得失，而对有些东西忽视了。

Agent应用形态会如何发展？

在评论中，有小伙伴问到，“Agent的入口在哪里？”这无疑相当于在2008年问，互联网的流量入口在哪里。这个问题非常有意义，就像在福特第一辆汽车刚上市时问，人类交通的入口在哪里。在2009-2012年这几年，有一个非常流行的领域，叫H5，各种手机端网页应用非常流行。但是在今天，我们几乎忘记了微博H5这个曾经霸主一样的存在。同样的道理，我们今天的想象力，让我们着眼于将Agent装在一个手机APP里。

从商业的角度讲，手机APP作为互联网产品，如果在今年融入AI元素，确实是可以爆款。例如我们创造一款手机APP，让美女帅哥在拍照之后，立即可以实现基于AI的生成式创作，甚至在此基础上添加社交元素，必然能在当下获得源源不断的流量。

然而，这种新瓶装旧酒的模式，能盈利，但没意思。如果你看看国外的一些2024年的初创AI公司，你会发现，他们有一半在搞机器人、智能驾驶，有一半在搞行业垂类创新或发明，依托AI来做互联网产品的，基本上只能算末流。不是他们比我们聪明或能力强，而是不同的投资环境让我们国内的很多厂商不敢投资。

从目前已知的研究来看，Agent的应用形态起码有3个阶段：去中心化的Agent元服务，自主行动的Agent软硬综合体，全方位一体的Agent超级统一体。

去中心化的Agent元服务

首先，AI发展到今天，仍然是以软件的形态为主而存在，大模型领域虽然发展很快，但是本质上生态还很薄弱。举个例子，在文生图领域，Stable Diffusion（Cascade）现在已经非常厉害，甚至可以生成视频。但是即便是生成视频这样的动作，也必须是人工干预的过程，更不用提从文案的生成到故事脚本分镜再到整个视频生成和发布，这一系列的动作都需要过程，而目前来看，所有这些过程几乎全部都需要人工参与。这说明当前的生态还很弱。

Agent应用形态的第一个阶段，就是打破这种孤岛格局，形成去中心化的基建服务，就像国家发展首先需要大搞基建把道路交通网络搞好一样，把Agent基建做好，任由人们在此基础上做任何形态的创新、交流、发明。

说的具体点，一个Agent可以以一个服务的形式存在，就像现在的云计算，它可以稳定的向任意需要它的外围应用调用它。无数的Agent就像现在的微服务一样，在新的应用形态下被组织和串联。而这样的应用形态的入口，可以是手机APP，也可以是手机本身、智能音箱、新能源汽车，甚至是你的鼠标、蓝牙耳机。总而言之，如果单纯说Agent本身，它的入口就是一个接口，而用户不需要直接从这个入口去实现什么，而往往是从不同形式的应用，去使用一个形成Agent调用网络的终端服务。

自主行动的Agent软硬综合体

其次，我们现在对Agent应用的研究，还主要是从工具的角度，也就是说，我们往往更希望Agent有用，这就会使得我们失去某些可能性，就像一幅拼图，并非每一块都是颜色丰富靓丽的，有一些可能就是一片纯白或纯黑，但是没有它们，我们得不到最终的美好愿景。

Agent应用形态的第2阶段，就是可自主行动的软硬综合体。简单讲，就是具备“条件反射”的应用形态。我们人类最引以为傲的，莫过于我们的大脑，然而，在真正人类生命中做出决策的，大脑的（理智部分）占比小的可怜。而神经系统自主反应的部分，让我们避免大部分危险。而“条件反射”是没有目的，没有利益考量，甚至没有应不应该的前置逻辑的。你可以理解它是完全没有逻辑的，最不符合人类理性设计的，但是它是最有用的。

在人工智能的发展过程中，人类总是为“机器的自主决策”保留一块自留地，这是因为，不管你是否愿意承认，机器的决策正确率远远超过人类，即使有的时候你会找出非常炸裂的反例来驳斥。

自主行动的软硬件结合的Agent，可以完全替代人类的某些行动，例如某些家务活，最简单的洗衣服做饭，冰箱里的坏苹果需要被清理，公路上的碎纸屑需要被捡走，这些活永远不会消失，但是不会有人愿意去做。同样的道理，在我们工作中，有些数据处理、测试检查、用户反馈收集等等，这些与产品本身能力无关的事情，永远不会消失。

软硬结合体不一定是具备人形的机器人，而机器人本身也不是专指人形的智能体。Agent综合体本质上是可以解决人类琐事的助手，而这些事不再需要人类来进行决策。

全方位一体的Agent超级统一体

再上一层，当Agent已经具备自主决策辅助人类的时候，我们就需要开始考虑将不同的智能体囊括到一个社会体系中进行管理和约束，也就是之前文章中提到的“智能体社会学”问题。

举个具体的例子，一个家庭，有车、房、生活、工作，从硬件相关的使用到事务相关的应对，如果每一项都需要主人去协调不同智能体，那么人就会从事务中解放出来再陷入到应付智能协同的麻烦中。而一套社会学机制，可以让这些智能在自主决策的同时，按照共识机制系统性的良好运作，让主人放心把离开后的家、行驶中的车、手头上的工作需求交给智能体去解决。

从更大的宏观层面讲，从社区的管理到城市的建设再到国家的发展，都需要一个超级统一体体系来应对智能体运作。

这听上去有点科幻，就像《流浪地球》里的MOSS，但是，不可否认的是，由人类来设计机制，由机器来决策执行，不仅在效率上优势明显，在准确率上也可大大提升人们的幸福感。

回到现实

我们当前的Agent应用，往往就是对LLM进行预设后，基于LLM做了一层封装。我们大部分情况下，还是在以做产品的心态去做Agent。

这其实无可厚非，除了商业盈利的层面的考虑，我们还应该面对一个现实，就是我们的技术发展的很快，但是又没有那么快。我的意思是，“我们的技术发展速度，跟不上我们的大脑”。

从目前来看，我们的主要发力点在于，用现有的技术，替代掉以往的某些技术实现，并在交互形态上做一定的改变。例如以前的搜索引擎是信息检索，而随着基于大模型技术的搜索产品的出现，我们已经悄然进入知识提炼的时代。这种尝试不仅不羞于没啥技术含量，甚至我觉得是非常有益发展的一种尝试。因为随着这样的交互形态的改变，人们对技术的认知也会发生变化，只有当这些技术成为没有垄断的平权物时，我们才会进入到“人人造”的时代，量变才能质变。

我这段时间在研究Agent工作流，虽然市面上有很多工作流产品，小伙伴在评论区留言提到的几款，其实我也都有接触过，但是，从概念上讲，我并不是很接受。如果Agent工作流仅仅是配置和串联，需要花大量的时间去拖拉拽，那还没有达到我的预期。我们在以前很多场景也都是这样干的，例如node-red智能硬件编排，例如flowable业务流程搭建，如果只是把被编排的对象替换成Agent，这种把汤里的羊肉换成驴肉的事，也能称为创新，或者说在AI时代还这么玩，我是不认可的。我之所以觉得comfyui很值得大家去用一下，是因为它可以分享workflow，在这一点上就比很多工作流平台强。当然，有一点不得不承认，comfyui之所以能分享，是因为它只操作sd和插件，东西是固定的，不同用户的机器上都有这些。但如果换到Agent场景，从别人一个工作流分享出来，结果我这里根本没有对应的Agent可用，那这工作流就没意义。总而言之，我认为Agent工作流目前来说，还没有到我满意的程度。

也正是因为缺失了这样的生态，当我们寻求AI帮我们完成一件事时，就会发现虽然现在的AI产品很多，而且层出不穷，却无法真心完全解决我的问题。

就像我前几天发布了一首AI创作的歌，关注我B站的小伙伴可能已经看到了，歌词是不是写的有点意思?。当时我希望给它配上一个带劲的MV，但是我去尝试了所能接触到的所有AI生成视频工具后，还是无法得到我想要的感觉，哪怕是一个镜头也不行。这里面有很多工作要去做，例如需要生成一张基准图片，或者从网海中找到一段参考视频，然后创建人物，搭建场景，对口型等等，除了AI产品的能力本身还不够看外，整个生态的能力或者说应用形态还远没有达到AGI的水平。

用锤子修金字塔

金字塔的宏伟大家都知道，但是几千年前的人是怎么修它的呢？我想，唯一的答案就是“大力出奇迹”，用中国话讲叫“愚公移山”。在科技不发达的时候，想做成一件事，就是靠堆砌人力物力财力。作为普通人，当技术不够或者工具不够，AI的生态产品还不足以支撑我们做出天马行空的创意时，我们可以用降维的方式，采用原始技术，叠加消耗时间和精力的buff，来达到我们的目的。

所以的这一切，我想说的就是，你是不是在这个过程中，享受了一些新奇的过程。我们不是愚公，我们可能也带着功利之心，但最关键的在于，我们在这个过程中，体验人工智能，希望通过人工智能的方式解决问题，并从中有所收获。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业