我要投稿

大模型的威力，远不只是聊天框

发布日期：2024-09-21 19:15:50 浏览次数： 1944 来源：夕小瑶科技说

自2022年底ChatGPT发布以来，我们真正看到了大模型的威力，也引发了技术圈种种畅想。有相当一部分观点认为，大模型是一种工业革命级的产物，相信更多的人会和笔者一样，认为大模型是一个操作系统级的产品，会彻底地改变，甚至颠覆现有的，我们使用机器的方式。诚然现在的大模型仍旧是算力杀手，想要让它真达到操作系统的使用规模，可能在硬件上、推理架构上还有一段路要走，但其前景是显而易见的。

所以我们看到，自2023年年初起，各家大模型粉墨登场，卷能力，卷榜单，卷价格，卷参数，让人不禁想问，然后呢？从市场情况上看，大模型应用仍旧处于极早期的阶段，而从产品形态上来看，哪怕是步入了智能体的时代，大模型依然被限制在那个聊天框里面，使用起来仍是相对低效的，对用户来讲仍旧是不那么方便的，自然用户使用的方式也被限制住了。

即便如此，我仍然坚持认为，大模型应当是操作系统，那么，就让我讲讲现状，开开脑洞，畅想一下未来应当是什么样子的。

掉书袋：鸿沟理论

去年，笔者读了一本名为《跨越鸿沟》的书，里面讲了技术采用的生命周期，名为鸿沟理论。这一理论将用户分为5类，分别为：创新者、早期采用者、早期大众、后期大众、落后者。

创新者热衷于一切比较新潮的技术，他们非常愿意尝试新鲜的事物，同时也对新技术的缺陷有着最大的包容，甚至愿意同技术开发者共同讨论优化这一技术。早期采用者则比创新者谨慎一些，他们如果相信这一技术未来会成为主流，早晚要拥抱它，才会去使用这个新技术，甚至为了新的特性，哪怕技术不够完善，也愿意用它去取代一些已有的东西，并提出这一技术应当怎么优化，成为一个好用的产品，所以他们也被称作有远见者。

这两批用户虽然很容易被吸引到，但也显然，相对于整个主流市场，他们的占比是很少的。

无论看当前用户的性质，使用的场景，还是单纯看数据，当前的大模型产品一定是处于极早期的，笔者判断，甚至可能没有突破到早期使用者。而主要原因，笔者认为就是当前的产品形态是相对低效的，或者说，当前大模型的产品形态、使用场景，远远达不到“操作系统级产品”的预期。

实际上，很多技术也是死在了前两批用户身上，从早期采用者到早期大众，实则是非常困难的。早期大众也被称作实用主义者，他们的特点是，新的技术形成的产品，得比现有的产品好用，让他们感觉到完成某一个任务变得更加方便，他们才会采用。而很多技术，从创新者和早期采用者那里得到的经验，极有可能是不适用于早期大众的。所以这一阶段，叫做“鸿沟”。

例如，笔者认为，大模型当前较主流的使用形态，即聊天框，是低效的，不符合大部分用户的使用习惯。或许我们应当去进一步探索，大模型怎么能真正渗透到日常的生活中。

顺带一提，正因当前大模型所处于的这一阶段，笔者认为，目前做大规模的投流一定是意义不大的，甚至可能损伤在早期大众用户中的第一印象。

大模型的威力

算法圈的人一直说，自然语言是皇冠，搞定了自然语言，就搞定了人工智能。从原理上讲，自然语言里面的信息量是非常大的，毕竟这是我们为了描述这个世界，创造出来的符号化的表示了。但是又由于我们自身的不确定性，世界的不确定性，则注定自然语言本身也是不确定的，即我们是无法将自然语言转换成一套逻辑表示的。虽然，语言学的专家们提出了一种理想化的模型，起初是很简洁的，当然也就有了大量的反例，为了兼容现实情况，这种逻辑语言模型也变得无比的臃肿，无论形式上还是功能上都难以使用。

但是我们需要借助机器来做的，又大多是确定性的事情，哪怕现在有一些系统（例如人脸识别），没有达到100%的确定性，但是它能够快速识别很多张人脸，比人快，还比人准，记忆还比人强，那么其确定性就是高于人工的，实则还是对确定性的追求。这就意味着，机器需要的语言，或者指令，也应当是确定性的。起初，我们使用指令，或者代码来让机器完成工作，后来，进一步地，我们使用图形化界面，借助鼠标、键盘、触摸屏来让机器完成工作。

移动互联网为什么能够崛起，笔者认为，在绝大多数用户任务上，它有着不亚于PC的性能，但携带方便，随时随地可用，并且，触摸屏上多元的交互在一定程度上也比键盘鼠标更加方便（虽然有时候精确程度不如鼠标），上手成本还低得多，总之，它让用户在生活中变得更加的方便了，所以大部分用户接受了它。

那么我们回过头来看大模型，大模型最大的价值就是，它搞定了自然语言问题啊！它架设起了人与机器交流的桥梁，它能够将自然语言转换成为机器语言，这意味着，我们可能不必去适应机器的交互语言，而是让机器来适应我们的使用方式。当然，可能有的朋友会有疑问，推来推去，不还是说我要和机器直接说话吗？那聊天框不还是一个直观的方式吗？

不是的，自然语言是我们描述这个世界的方式，那么我们很多日常行为所带来的意图，是否都可以用自然语言来表示呢？那么，大模型最为这样一个中枢，是可以大大简化我们和机器的交互的。更进一步想，一个充分学习了我的习惯的大模型，是不是能更好地充当我的个人助理，我可以不需要设置确定的指令，只是我说要干什么，它就能够帮我处理好很多事情，达到我的意图。

可能还有的朋友要问，现在大模型达到了那个能力吗？

其实我们想想，我上面开的这两个脑洞，实际上都是多阶段的，每一阶段其实都是很简单的命令，现在的大模型理解这种简单的命令，笔者是相当有信心的。真正有考验的，其实是记忆能力，以及对已有记忆的注意力，也就是说，我需要的是过往交互中哪一轮的信息，大模型是需要能够精准识别的。

事实上，人和人交流的时候，应当是不会写那么“不是人话”的复杂指令的，或者那么一长串的prompt，因为人也听不懂，也记不住（短时记忆空间根本没法支撑那些信息量，肯定得反复澄清），更多的还是一步一步培训，让人形成习惯，为什么到了比人弱一些的大模型（确切说，大模型的确在文本的阅读能力和“短时记忆”能力上一定程度是超过人的，但是理解能力嘛……），就一定要一轮就让模型精准完成需求呢？

所谓“重构，而不是整合”，我想应当是包含这种意思，也指明了大模型优化的方向。

所以回过头来看，大模型为什么非得像人呢？为什么要执着于做一些人在做的，非常终端的事情呢（比如画图、做视频）？为什么要参加高考呢？为什么要卷考卷呢？为什么要做数学题呢？为什么要搞那些形式逻辑呢（这本身就不是非确定性问题，大模型是搞不定的，人类其实不借助工具也无法搞定）？以及，为什么要做人形的机器人呢？

当然，前面笔者一直说聊天框是低效的，但它不是没有价值的，它是我们直接和大模型交互的媒介，就如同操作系统的终端，我们可以通过它直接让大模型去执行一些指令，去观察它的能力。

Agent的思考

最后就聊到了对当前agent现状的思考。我认为agent是基于大模型原始形态，向下一步的早期探索，其试图将一些用户任务标准化，将用户的需求转换成一个自动化的指令序列，来完成一些事情。并且agent这种形式应当是实现笔者上文所开的那些脑洞的必经之路，就如同在终端中调试代码一样（人人都是程序员，应该也是这个意思）。

不过，这也意味着，agent目前的探索不应当被当前用户的使用场景所裹挟，而是应当扩展到更加广大的领域，所以写这样一篇东西，笔者也是希望，能够扩大agent的范围，最终真的能催生出AI原生这个广大的生态。

去年OpenAI DevDay上，发布了GPT Store，当时笔者的言论是，他们的这个发布，看上去是让竞争对手们松了一口气的，因为它只是在预期内发布了那么一个东西，或者说它需要搞出来什么事情，但没有什么横空出世。这或许意味着，ChatGPT真的是一个意外的产物，而我们作为后来者，不能因为OpenAI是领头羊，就被它的开发思路裹挟了。现在或许也验证了笔者当初的想法。

我是真心希望，我们能够作为大模型产品的领头羊，创造出下一个奇迹。