“在任何一项足够先进的技术和魔法之间,我们无法做出区分”,这是英国科幻作家亚瑟·克拉克三定律之一。相信过去的一年多,令人目不暇接的生成式 AI,就让大家体验到了什么是魔法般的科技。现在应该没人会质疑,最先进的语言模型可以完全通过图灵测试;我们靠感官已经很难分辨 AI 生成的图像和音乐了,AI 技术几周的变化,就超过了过去几年的发展。
Jensen Huang 在台北 Computex 2024 上这样的比喻:“在十九世纪 90 年代末期,Nikola Tesla 发明了交流发电机,而 Nvidia 现在发明了 AI 发电机。交流发电机生成电子;AI 发电机生成的是 Token,这两样东西都有巨大的市场机会,Token 几乎可以应用于每个行业,这就是为什么这是一场新的工业革命”。
Jensen 关于“新工业革命”的演讲片段
在上一篇《机器之心的进化》之后,时隔一年半,我希望用这篇《智变时代》来温故下 AI 领域波澜壮阔的一年,尝试抓住生成式 AI 变革的本质,带大家拨开喧嚣与迷雾,追寻科技巨头与 AI 机构们在更高智能道路上的探索,以及变革会如何全面改变人机交互、世界的产业、经济还有我们自己。。
“我认为生成式 AI 革命在规模上可以与工业革命或电的发明相提并论。” - 神经网络之父 Geoffrey Hinton 去年离职 Google 后在接受 CBS 采访时提到。
2022 年十一月底 OpenAI 的 ChatGPT 横空出世,原本被通胀和加息折磨得萎靡不振的美股,突然被新一轮的生成式 AI 革命给原地托起。除了 Nvidia 卖 GPU 带来了真实收入暴增之外,大多数的热情并非来自于收入增长,而是由于大家急于构建更大的 AI 模型,热情来自于对未来业务的梦想。大多数公司心目中明确的目标就是赶上 OpenAI,甚至超越它,尤其是美股的科技七巨头(Magnificent Seven)。
1.1 逐鹿 OpenAI
2023 年美国的科技巨头可以用两种状态来形容:All in AI 与赶超 OpenAI!经过这一年多的努力,如今许多公司在 LMSYS Chatbot 竞技场 ELO 排名上已经接近 OpenAI 最新的 GPT-4o,其中 Anthropic 今年三月推出的 Claude 3 Opus 一度超过了当时的 GPT-4;在某些方面,如上下文长度和视频模态,Google 的 Gemini Pro 已经走在了前面。
那么问题来了,OpenAI 先发优势能够保持多久?Sam Altman 用他独特的驾驭能力,先是吸引微软为 OpenAI 直接投入超过 100 亿美元的算力支持;现在又通过与 Apple 的合作,将 ChatGPT 整合到了 Apple 生态,从边缘设备入口直接获取用户,毕竟 ChatGPT 的活跃用户已经连续几个月都没有增长,而最大对手 Google Gemini 的用户却在节节攀升。
另一方面是数据。因为起步早,OpenAI 在收集使用数据方面一直处于领先地位。但现在情况已经发生了改变,公开的用于训练的文本数据几乎耗尽,所以大家都不约而同地采用合成数据。但文本之外的图像和视频,需要更直接地接触消费者,才能拿到新数据。Google 与 Meta 各自的产品线都覆盖了超过三十亿的用户,这是最大的优势。所以,每次有人问 OpenAI 有没有拿 Youtube 的数据来训练,他们都避而不谈。。
模型的竞赛,就是资本和用户的竞赛。OpenAI 打响了第一枪,山姆·奥特曼四处游说,搞募资的同时,还得想方设法扩大 ChatGPT 的用户规模。现在 Meta 和 Google 全力以赴,他们从算力到模型再到用户,配置齐备,关键是资本充足;微软虽然投资最多,但和 OpenAI 纠结的关系,让自己不得不背地里另起炉灶;Amazon 也有同样的问题,没法控制自己投资的 AI 联盟 Anthropic,他们就像是在参加一场独臂搏斗。目前,只有迷一样的 Apple 在竞赛中不动声色,作为终端之王,控制了最有价值的入口。让模型变小能在设备上直接运行,让 iOS 变成 aiOS,应该是 Apple 最大的需求,后面更复杂的智能可以慢慢来,毕竟用户跑不掉。
这一回合中,Nvidia 才是最大的赢家,因为竞争越激烈,对 GPU 的需求也就越强烈。对科技巨头来说,他们必须不断加大投入才能跟得上 OpenAI 领跑的步伐,或者维持他们在其垄断领域的市场份额,例如 Google 的搜索。这将使其对数据中心的支出持续不断。因此,他们的利润空间将会被压缩,而 Nvidia 则会从中获利。
InstructGPT 更善于遵循人类的指示,在 AI 术语中被称为对齐(Alignment),可以让模型的输出更加安全,错误、幻觉和攻击性语言更少。简而言之,InstructGPT 不是一个混蛋,除非它被要求成为一个混蛋。在所有这些成果之上,OpenAI 在山姆·奥特曼的推动下,顶着巨大的压力对公众开放了 ChatGPT。至此,一个新的智能时代就被开启了!
人才网络
虽然 Transformer 架构最早诞生于 Google 的研究,但在庞大的组织内部,并没有得到特别多的重视。“也许 Google AI Research 太像一个学术研究机构了,大家更重视想法的涌现和发表论文,但在坚定的采用一种技术方案,将其工程化和产品化上却被忽视了” OpenAI 的总裁格雷格·布罗克曼(Greg Brockman)在最近一次播客采访中这样描述,这也是伊尔亚的团队能够孤注一掷取得成果的主要原因。
配图1.05:硅谷 AI 人才流动图(Source: Coatue AI Report 2023)
Google 不仅是这次智能革命的架构发明人,也是 AI 人才的黄埔军校。最早《Attention is all you need》论文的撰写人分别创建了 Adept 和 Cohere,OpenAI 也吸引了最多的 Google 研究员加入;在 GPT-3 之后,负责模型安全的 Dario 兄妹因价值观不合,自己创立了 Anthropic,这是 OpenAI 组织的第一次硬分叉;就在 2024 年五月,首席科学家 Ilya Sutskever 和超级对齐的负责人 Jan Leike 也宣布离职,这会是 OpenAI 的第二次分叉么?
就在 GPT-4 发布后的一周,Ilya 与 Nvidia CEO 在 GTC 活动上有一个对谈 —— “AI Today and Vision of the future”。其中 Ilya 提到,他坚信两件事情,第一就是模型的架构,只要足够深,到了一定的深度就会 “Bigness is the Betterness”,简单说就是大力出奇迹,算力加数据,越大越好,这也是为什么转换器架构(Transformer)要比他们之前使用的长短时记忆(LSTM)架构要适合扩展;第二就是任何范式都需要一个引擎,这个引擎能够不断被改进和产生价值,如果说内燃机是工业革命范式的动力引擎,现在这个引擎就是 Transformer。
毫无疑问,Transformer 是这次生成式 AI 变革的主角,配合算力、生态还有人才自我强化的过程,其架构潜力还有很大的挖掘空间,这也是 Ilya 还有 Anthropic CEO Dario Amodei 在各自采访中多次强调的看法,领军企业都用脚投票了,从 LSTM 到 Transformer 出现花了二十多年,我们还有足够的工程方法让这一架构的潜力再燃烧五到十年。模型与算力的组合,就像内燃机和石油的组合那样,成为了通用平台,你提供能源,我就能输出动力。
1.3 泛化通吃一切
“最重要的不是它解决的具体问题,而是广泛意义的通用性在增加”— Sam Altman 在达沃斯论坛的演讲
他们发现,随着大语言模型规模的增加,在单一技能上的熟练度会提高,并且能够同时使用多个技能。这表明模型不仅仅能实现训练数据中领悟到的技能组合,而是能够执行概括和创造性的任务,特别是微软针对 GPT-4 这个超大规模语言的测试(Sparks of AGI - Early experiments with GPT-4),进一步证明了他们的结论。
Stanford 大学 HAI 小组在 AI Index 2024 报告中展示了一张 AI 完成人类任务的基准测试图(Our World in Data 网站还有一份互动版)。截至 2023 年,AI 在大部分任务中的表现已经超越了人类的能力,例如 2015 年的图像分类、2017 年的基础阅读理解、2020 年的视觉推理和 2021 年的自然语言推理。当然在 2020 年之后,完成这些任务的都是大语言模型了,目前人类只有在复杂的认知任务,例如在深度阅读理解、复杂推理和高级数学问题解决上还有那么一点优势,但估计这个优势在 2025 年就荡然无存了。。
在 ChatGPT 刚推出不久,Newyorker 刊登过一篇有趣的文章《ChatGPT Is a Blurry JPEG of the Web》很形象但不是那么准确的解释了大语言模型是对 Web 世界模糊的“图像压缩”。这些模型通过分析和学习大量的文本数据,构建起对世界的压缩表述,涵盖了人类的思想、情感、状态以及人与人之间的互动。大语言模型内化的世界模型能够在推理过程中模拟可能的结果空间,为规划算法提供探索的机会,并给出它想象的答案。
从语言到多模态模型
人类可以边看、边交谈,还能同时听着背景音乐和察觉危险。虽然大语言模型仅靠语言就能理解世界,但大千世界的多样性,只靠语言来描述和理解是远远不够的,因此智能不仅限于单一模态。根据伊利亚之前的观点,多模态理解虽然不是绝对必要,但确实非常有用。比如,你能亲眼看到什么是“红色”,比你用语言去描述什么是“红色”要直观的多,这就是对同一概念的多维度理解。拥有这种能力的模型可以更全面地学习世界,理解人类的行为和需求,提高任务解决能力,并克服单一模态的局限性,是让 AI 能在现实世界中运行极为重要一环。
这种随着模型规模以及模态类型的提升,衍生出新的能力的特性,就是大家常说的泛化,也是 Sam Altman 提到的广泛的通用性增强。OpenAI 每一次升级模型,就会让很多专用的 AI 模型和一批小的创业公司所做的事情毫无意义,从最早的翻译和写作工具的替代,到最新 GPT-4o 多模态实现的语音智能助理。
这是一个残酷的时代,我们开篇就看到了过去十来年科技巨头之间从未有过的激烈竞赛,囤积算力、笼络人才,还要小心翼翼的看护好自己的护城河,大家都期望能锻造出最好的 AI 模型,获得进入 AGI 时代的门票;另一方面,做为智能生态下的创业公司,也正经历和移动互联网时代完全不同的环境,模型不是手机操作系统,它的进化速度是非线性和泛化的,你做很多事情就不能用通用性做为出发点,必须有独特的场景,你得绕着大模型的火力覆盖范围前进。。
最后,做为一个普通用户,现在的 AI 是在帮你提高效率,但最终它们会在很多工作场景来替代你。那么,应该如何理解和应对这个智变时代呢?保持耐心,下文更精彩 ?
02
应用 - 人机协作新时代
“人们总是高估一项科技所带来的短期效益,却又低估它的长期影响。” - 阿玛拉定律(AMARA’S LAW)由美国科学家,未来研究所的院长 Roy Amara 提出。
但真正定义智能时代开启的还得是 ChatGPT 的发布,它让我们再一次看到了自从互联网诞生以来,多年未见过的创新密度和创业的热情;一时间能看到的科技新闻几乎全是 AI 新闻,大家在社交媒体上像追星一样追踪 AI 研究人员还有发布在 arXiv 上各种稀奇古怪的论文。但时至今日,唯一的杀手级应用依然是 ChatGPT 。。
2.1 AI 应用爆发了么?
Sequoia Capital 在 2023 年九月发表了一年前那篇引领市场的《Generative AI: A Creative New World》的续篇 《Generative AI’s Act Two》,里面这样写到:生成式 AI 的第一年,我们发现了一种新的“锤子” - 基础模型,并推出了一波新奇的应用,但这些程序大多是些酷炫新技术的轻量级演示,这些产品远远没有达到预期,糟糕的用户留存率就证明了这一点。
当最终用户过了新鲜体验期,对许多应用的需求开始趋于稳定,真实数据就原形毕露了。。
配图2.01:AI 应用与社交应用使用率的对比
对比流行的社交应用,哪怕是最顶流的 ChatGPT,56% 的首月用户留存度,也不及社交应用的中位数 63%;一些最好的消费级应用拥有 60 到 65% 的 DAU / MAU 比,例如 WhatsApp 的比率高达 85%。相比之下,生成式 AI 应用的中位数只有 14%,AI 陪伴类别除外,这意味着用户还没有在这些 AI 原生的产品中找每天使用它们的理由。看过一个数据,在 Google Gemini 中使用最多的场景就是生成每日菜谱,这个和用搜索引擎的需求基本一样,也许这么短的时间内,大众还没充分发现使用 ChatGPT 这种对话式 AI 的原生场景。
尽管这个市场充满了噪音,还有理想与现实的不平衡,生成式 AI 已经比 SaaS 有了好得多的开局,OpenAI 在 2023 年就实现了二十亿美元的年化收入,对比上一年增长了 900%,SaaS 花了数年而不是几个月的时间才达到同样的规模。
我在《机器之心的进化》中做过些预测,拥有独特流程和优秀体验的生成式 AI 应用将胜出。在图像生成领域,Midjourney 一直以他独特的流程和品质保持领先,年收入过亿美金,是少数初创公司不靠融资就能实现增长和盈利的;另外 2023 年的另一个黑马就是 AI 搜索 Perplexity,他们用合理的产品交互解决了问答式 AI 搜索的难题,去年底的月度活跃就达到了 1000 万,感觉自己使用 Perplexity 的频次就比 ChatGPT 要高。
其实,这种把模型融入其解决方案,从端到端解决客户需求的创新公司涌现出了很多,附上 Sequoia 的这张“The Generative AI Market Map”,就不逐一列举了。这里的核心是,我们如何看待和使用基础模型,而不是简单的封装它们,这些模型就是智能时代操作系统,需要在上面构建原生的应用程序。
2.2 智能 OS 与代理
大语言模型不是数据库,而是推理引擎!去年十月,Andrej Karpathy 在 X 上提出这个概念的时候,他还就职于 OpenAI,不过他已经在今年二月再次从 OpenAI 离职,第一次是被 Elon Musk 挖去 Tesla 研究纯视觉自动驾驶 FSD,那篇定义神经网络编程新时代的文章《Software 2.0》也出自于 Andrej,我上一篇《机器之心的进化》的副标题灵感就来自这篇。LLM OSBear with me I'm still cooking (X Link)
OpenAI 会在几个月内陆续更新 ChatGPT 应用,通过 GPT-4o 让其具备 Assistant Agent 能力,一个能够像人类一样互动的“数字形态”全能助理;Google 也计划在今年内推出 Gemini Live 支持类似功能,我们可以把这种能沟通还能感知环境的 AI 称之为智能体(Intelligent Agent)。除了端到端的多模态之外,另一个重要的特点就是实时性,之前所有的交互都是回合对话式,包括 API 的调用;现在我们要从文字语音聊天升级到视频直播了,智能体保持一直在线。可以想像,用流媒体的形式来消耗 Token,这对算力的开销得有多大,所以大家必须保持模型能力不变的情况下缩小参数规模,升级架构来提升性能;最好让终端也参与进来分担一部分模型的计算量。
让科技变简单,是技术民主化最重要的一个趋势,没有人能抵挡住这种毫无机械感、完全类人化的交互方式。用这样的思路,可以设计从未有过的硬件产品,也能重新设计现有的产品,例如多年以前的 Google Glass 就可以因此而复活了;因为语音交互的流畅,智能体还能用手机之外的设备来实现视觉感知,那么手机的设计也会因此而进化,触摸交互更简单,在很多情况下,都只需要放在口袋里,给你的智能体提供本地算力。
这样的全模态智能体,将会成为我们和所有智能设备的新交互界面。进一步想象,家庭和办公环境的电子设备,只要联网就能成为智能体的感知器,或者直接成为他们的终端,被智能体控制;再结合具身智能(Embodied AI)技术,那就是现实版的 Ghost in the shell 了。。
2.4 组织新形态
Inflection AI 的联合创始人 Mustafa Suleyman 在他去年九月份出版的新书《The Coming Wave》中提出了一个现代版的图灵测试,我们需要一个更适合现代 AI 能力水平的测试方法,这个方法不是能骗过人类就行,而是需要评测 AI 是否具备采取行动和取得成就的能力,以及它们能否对世界产生有意义的影响。简单来说,要通过现代图灵测试,一个 AI 需要能完成这样的任务:“仅用十万美元的投资,在几个月内通过零售网络平台赚取一百万美元。” 为此,它不仅要制定策略和撰写文案,而且还需研究设计产品,与制造商和物流合作,谈判合同,并创立及管理市场营销活动。简单地说,它需要在极少的监督下完成一系列复杂的实际目标。虽然还是需要人类参与批准某些事情,例如开设银行账户,亲自签字,但所有实际操作都由 AI 来完成。这里最大的技术挑战之一,就是让 AI 自己实现分层规划:将多个目标、子目标还有执行能力,组织成一个可以向着单一目标持续前进的流程;然后 AI 还需要可靠的记忆来辅助目标完成,能准确调用实时的数据,例如组件或物流等等。我们前面提到的 AutoGPT 就是这种 Agent 的原型,然后微软的 Copilot Studio,可以让企业设计内部数据处理与日常任务自动化的 Agent;当然这些离 Suleyman的现代版图灵测试还有很远的距离,但 OpenAI 预告过,他们的下一版本模型 会极大提升推理和规划能力,也就是模型在内部实现 Agent 能力的自我增强,这是全自动化的关键,Sam Altman 经常挂在嘴边的 AGI 到来的定义之一就是 AI 能替代百分之七十的人类工作。不久前,知名投资机构 Nfx 在他们最新的《The AI Workforce is Here: The Rise of a New Labor Market》中刚好分析了这个趋势。现在 AI 正在强制逆转 SaaS 这个缩写的含义,从“软件即服务”转变为“服务即软件”,软件既能组织任务,也能执行任务,你无需雇佣额外劳动力,它们是“内置”的,传统的劳动力市场最终将和软件融合成为一个新市场!
AI 同事(雇佣)在介绍智能代理那一小节中已经提到,现在控制着中小企业办公入口的 Google Workspace 与 Microsoft Office 都在推出自己的 Agents,我们只需要设定目标,这些 AI 的虚拟员工就能自动完成日常办公中繁杂的体力活;在办公助理之外,这些智能代理也会成为我们的自动化客服、销售、市场运营还有技术支持。例如 Nfx 投资的 Artisan,一家提供 AI 雇员的 Saas 服务,帮客户自动化市场与销售,AI 员工 Alice 与 Ava 每周能够预订 2-3 次潜在客户会议,在整个销售服务环节中每周七天,每天 24 小时不间断工作。AI 供应商(外包)想象一下,大部分企业都会使用外包服务,例如专业的客服外包、还有会计以及律师事务所等等,这些独立的服务供应商,他们很多虽然在使用 SaaS 但还是靠人力驱动。现在,新形态的 AI 公司将会是 AI 自动化管理的供应商,只需要少量的人类,可以支持更大规模的客户,例如 AI 客服中心 Smith AI,把不可规模化的服务型劳动力市场变成可以规模化的软件市场。这里存在一个市场模式变化的机会,AI 劳动力概念的新型态软件,将吃掉传统 SaaS 的市场空间,让他们的利润减少,当然也会同时减少人类的工作机会,但给了 AI 初创企业新的市场机会,来挑战传统软件公司,这些初创的企业又能创造出不一样的新工作机会。当然,科技巨头不会坐以待毙, Google 最近计划有史以来最大规模的一次收购,用 300 亿美元买下 Hubspot,知名的市场营销与客户管理 SaaS,Google 期望这个收购能帮助自己快速触达更多客户,好在未来能销售更多的 AI 同事给中小企业。在本章第一小节就提到了,对于 AI 应用的第二幕,竞争力就是你能控制的客户,以及端到端帮他们解决实际问题。再往前看一步,这些 AI 劳动力都在承担着机械的自动化工作,软件还没法真正取代服务,它们得有适应人类社会的能力;它们必须看起来、感觉起来,就像是在与人互动;换句话说,软件在某些方面必须有灵魂,就像优秀的客服代理、销售代理或服务提供商一样。或许我们从 OpenAI 发布 GPT-4o 的最新演示中已经窥视到了未来,这才是软件和劳动市场真正融合的关键一步;虽然看上还长路漫漫,但我们正在步步的接近,具体会在第四章详细讨论。
配图2.10:智能代理将改变企业组织架构
智能时代,我们不能再用移动时代的模式来理解应用,本着人机交互方式越来越简单的趋势,智能应用最先应该从简洁开始,然后它们会从有形的界面中消失,变成真正无所不在的助理,或者是智能体,它们会辅助甚至直接帮我们完成任务;我们与 AI 协作的重点不再是过程,而是目标与结果,能完全自动化并融入人类社会就是 AI 劳动力的终极目标。这些数字化的灵魂将无处不在,我们的个人助理,生活中的陪伴、工作中的同事还有我们的合作伙伴,这是一个听上去有些兴奋,但又让人略感不安,却注定会到来。。
03
智变 - AI 加速的行业变革
“人类的智慧是宇宙中最宝贵的东西,但它却是稀缺的;若能借助机器智能来提高全世界的智力供应,无疑这将会是非常受欢迎的。” 互联网先驱 David Gelernter 在他 2010 年的那篇有先见之明的文章《Dream-logic, the internet and artificial thought》中这样写到。从 Hinton 教授的观点衍生一下,既然生成式 AI 革命和电力革命一样或者更加重要,那么机器智能也会和电能一样成为一种通用的“能源”,可以普惠所有行业,“智能”这个词又有了新含义。电力革命花了六十多年的时间,让最高的行业渗透率到达了百分之九十;现在智能变革刚刚开始,我们可以把互联网的出现,看作是机器智能的序章的,为其诞生提供了海量的数据,基础模型将这些数据训练和压缩成了他们对人类世界的理解,在这之上,与人类协同推动世界继续往前。我们需要做一次小小的思维转变,不应将这种机器智能视作与人类智能完全独立的事物,相反,我们应当将其看作是整体智能供应的一次提高。现在,人类在用模型与算力,构建完全超越互联网形态的信息网络,这将是全球智能体的互联,能够无死角的渗透到所有行业,加速自动化,降低成本,普惠世界。
3.1 廉价诱导需求
杰文斯悖论(Jevons Paradox),是经济学 William Stanley Jevons 首次在其 1856 年出版的《The Coal Question》一书中提出的现象,悖论陈述了当某样东西变得更高效时,人们会消费更多的这种东西。杰文斯观察到,当蒸汽机的效率提高时,使用更少的煤炭就可以做更多的事情,但实际上煤炭的消费量却增加了。人们并不只是用蒸汽机做之前同样的事情,因为成本更低,他们开始用蒸汽机做更多其它的事情。
现代经济学中有一个简单的定义:当商品、服务或资源的供应或容量增加导致其消费增加时,就会发生诱导需求(Induced demand)。经济学家 George Gilder 在《Knowledge and Power》中最核心的观点就是经济增长的主要动力就是企业家的创新,产生供给端需求,俗称创造不存在的市场。在这个科技通缩与数字丰盈的环境中,理解这一点十分重要,虽然它很反直觉。
上一章中提到了现在知识工作中的支出是 5 万亿美元,根据世界银行的数据,2020 年全球 GDP总额是 84.7 万亿美元,同年全球劳动力占 GDP 的比重为 53.8%,这是一个 45 万亿美元的全球市场。如果把智能的触角延展到知识领域之外,需要和人类一样灵巧的机器,就能覆盖这个市场,过去它的瓶颈是智能,但现在我们的突破已经近在咫尺,如果 OpenAI 或者 Google 真的能够把智能免费提供,那唯一的限制就是能源了。
风险投资家 Packy McCormick 在他的文章《Tech is Going to Get Much Bigger》中阐明了这个观点:随着能源、智能和灵活性的成本趋近于零,整个经济将变得更大,结构上更加盈利。科技公司将有巨大的机会销售他们即插即用的劳动力和智能,本质上是将现在分散且不一致的人类劳动力产品化、集中化、按需化和作为服务给软件化,即 SaaS 化。智能的加入,让每个行业看起来都更像软件行业。它们增长更快,利润更高,研发投入更多。。。软件吞噬世界,AI 吞噬软件!
有一个明显的趋势,现在科技巨头和 AI 研究机构们推出自己新一代的模型,都按照参数规模区分了版本,例如 Anthropic 的 Claude 3 就拥有三个版本,最大规模的 Opus 价格最贵也最慢,适合做复杂的推理与自动化的任务计划,这是高级智能;其次是 Sonnet,价格速度适中,适合完成个人助理任务以及给定内容的快速分析,例如前面提到的自能体的任务;最快最便宜的是 Haiku,可以执行快速的翻译、客服对话等任务。不过 Anthropic 和 OpenAI 的模型并没有开源的可以部署在边缘终端上的版本,他们的理由是安全问题;但考虑到自己的自能业务未来在终端上的拓展,Meta 有 Llama 3 7B、微软有 Phi-3 Vision、Google 有 Gemma,他们都是可以适配到移动终端上运行的开源 LLMs,就连最不动声色的 Apple 都偷偷发布了自己的 OpenELM,参数规模比微软的 Phi 还要小,这是为了在移动设备上节能运行优化的。因此,我们能看到两种竞争:边缘算力:拥有最多终端占有量和最好的边缘芯片的,将占据了竞争优势,例如 Apple,它的 A 系列和 M 系列芯片常年算力溢出,现在正好可以用这个作为条件让模型提供方来适应它的需求;紧随其后的就是 Google 还有高通,一个是移动终端的常年老二,另一个是移动芯片 Apple 之外的最大供应商;另外,PC 级别的终端也因为智能的集成在复兴,微软主打 Copliot PC 的概念。这个级别上由于电力供应更加充足,可以用更快更耗能的芯片,我们应该可以看到未来会有家用和办公用的“智能体”终端诞生,可以把他们想象成带着屏幕的机器人;最后集成了 FSD 的 Tesla EV 也在这个量级之上,毕竟做视觉端到端控制的模型,为了敏捷与安全性,必须本地部署运行。在边缘,拥有最佳使用场景的将胜出。中心算力:科技巨头要发展终端算力,其一,是为了缓解云端的瓶颈,未来大多数的智能任务都是简单的能在终端直接完成的;其二,云端必须承担复杂的推理任务,这是个人、企业还有科研的高级智能需求;最后一个最重要的任务就是训练模型了。Elon Musk 说接下来拥有 100 亿美元以上的算力投入的公司,才能进入 AI 研发的第一梯队,所以 xAI 就立刻宣布了计划用十万块 H100 连成一个巨大的集群,称之为 “Gigafactory of Compute”;不过截止到目前,根据 SemiAnalysis 透露的消息,Google 才是真正的 GPU Rich,他们自家的 TPU 加上 Nvidia 的 GPU,算力多到溢出,现在训练 Gemini 最新版的算力规模高达 ~1e26 FLOPS,比 OpenAI 用来训练 GPT-5 的要大四倍左右。所以 OpenAI 才要拉上微软,让他出资一千亿美金打造史上最豪华的算力中心 StarGate,算力能飙升到多少尚不清楚,但设计中 5G 瓦的电力需求,已经占到 2023 全美国数据中心能耗的 70% 了,看来投资核聚变势在必行。。在云端,拥有最多算力和最优数据的将胜出。Apple 在最新的 WWDC 正式发布了 Apple Intelligence,其中架构上最有趣的部分就是 Apple’s On-Device and Server Foundation Models,边缘和远端混合的组合模型,用 Private Cloud Computing 技术端到端加密保证用户数据安全。在这个架构之下,每个 iCloud 用户都能够拥有属于自己独特的微调模型,做到基础模型跟着用户一起进化。Apple 正在用自己边缘都优势弥补大语言模型的后发劣势。
配图3.07 Apple Intelligence - Private Cloud Computing
AI 基础设施的军备竞赛已经在进行,但终端的竞赛才刚准备启动,而且要为用户提供流畅的智能体验,必须得两端同时进行;在这个快速进化的时期,给应用的开发提出了巨大的挑战。或许,智能时代根本就不存在应用开发,我们可以用各种硬件还有自然对话方式的交互形态,端到端的给客户解决问题就行,因为这是一次远超互联网和移动时代的新工业革命。
3.4 Nvidia 的新工业革命
知名播客 Acquired 在 2023 年十月对 Nvidia 的 CEO 做了一个信息量巨大的采访,那时 Nvidia 的市值刚刚突破一万亿美元大关,全球排名第六。Jensen 提到为什么 Nvidia 如此专注的只做加速计算,有一个重要的原因是当他们看到 AlexNet 在计算机视觉中的惊人效果时,意识到这是一个突破性的技术。基于神经网络的深度学习模型能够在短时间内超越过去三十年的计算机视觉工作。。他们发现深度学习实际上是一种泛化的函数逼近器(universal function approximator),因为其维度可以无限高。这意味深度学习可以解决各种复杂的问题,只要有足够的训练数据。随着计算变得更便宜,AI 就可以进入更多的经济领域;如果它能被更广泛地采用,那么我们的市场应该变得更大,而且这个循环将继续下去。这里有一句话我保留 Jensen 的原文会更有感觉:“What’s unique about our current circumstance today is that we’re in the manufacturing of intelligence. We’re in the manufacturing of work world.” - 我们在做制造业的工作,但我们生产的是智能!作为一名 PC 硬核玩家,每一年的 Nvidia 的 GTC 都必须围观,从 2021 一直到今年的三月的这场,我看到了 Nvidia 最清晰的一次平台化布局的全貌,并且用了一个概念,用加速计算平台来支撑新的工业革命(NEW INDUSTRIAL REVOLUTION)。
我们能从萨顿教授《苦涩的教训》中领悟到什么呢?第一个就是通用方法的巨大力量,那些随着算力的增长可以持续扩展的方法,就是搜索和学习,类比到神经网络就是推理和训练,它们能随着算力的增长而近乎无尽的扩张。第二个就是我们无法用简单的方法来概括现实和心智的复杂,我们无法用符号的逻辑来穷尽这种复杂;相反,我们应该只内建能够找到并捕获这些复杂性的元方法。这些方法的关键是它们能找到好的近似,但寻找这种好的近似应由我们的系统进行,而不是我们自己。哲学家维特根斯坦(Johann Wittgenstein)很早就表达了对这种近似性的思考:按学科分类做“知识图谱”的方法根本不可能穷尽所有的知识,事物之间总有些相似性是模糊的、不明确的、难以用语言来形容的。神经网络的成功,让连接主义全面逆袭,这种好的近似就是向量,包括在自然语言处理领域。大家相信,符号进入大脑后会转化为大型向量,所有内部处理都通过这些大型向量完成。如果你想生成输出,就需要再次生成符号。大约在 2014 年,机器翻译领域经历过这样一个阶段,使用循环神经网络在隐藏状态中不断积累信息,最终在句尾得到一个大的隐藏向量,这个向量捕捉了句子的意义,然后可以用来在另一种语言中生成句子。Hinton 教授称为这个为思想向量,他在最近接受 AI 知识管理软件 Sana 的 CEO Joel Hellermark 的一段精彩的采访中这样比喻。谷歌研究员 Fernando Pereira 这样说过:“自然语言是人类唯一的符号语言,我们用它进行推理。” Hinton 认为大语言模型和人类大脑做着同样的事情,这就是所谓的“理解”。它认为语言和思维过程中确实涉及符号,但这些符号通过多层次的嵌入表示(embedding representation)被丰富化了。然而,这些嵌入仍然与符号相关联,每个符号都有一个大的向量,这些向量相互作用,从而产生下一个词的符号向量。“理解”就是知道如何将这些符号转换成向量,以及这些向量的元素应该如何相互作用来预测下一个符号的向量。知识体现在你使用的向量及其元素之间的相互作用上,而不是符号规则。这并不意味着可以完全摆脱符号,而是将符号转化为庞大的向量,同时仍然保留符号的表层结构。这就是如今模型的工作原理,也是更合理的人类思维模型。Anthropic 最近做了一个关于模型可解释性的研究 - “Mapping the Mind of a Large Language Model”。他们从 Claude 3 Sonnet 的中间层提取了数百万的特征,给模型运行时的内部状态来了个快照,并给处于激活模式的特征神经元做了个“距离”测量,这样能够寻找彼此“接近”的特征。在“金门大桥”附近,发现了恶魔岛、吉拉德利广场、金州勇士队、加州州长加文·纽森、1906 年地震和旧金山阿尔弗雷德·希区柯克电影《眩晕》,这些特征还是多模态和多语言的。配图4.01:Golden Gate Bridge Features这表明,AI 模型中概念的内部组织,在某种程度上符合人类的相似性概念,而且还有更高层次的概念抽象,这也许是 Claude 拥有出色的类比和隐喻能力的原因。用另一个角度来理解,概念作用的权重构成了模型的知识!
ASL-3 指的是那些相比于传统技术(如搜索引擎或教科书)极大增加灾难性误用风险的系统,或是具备初级自动化功能的系统。例如,如果 AI 在生物学领域的应用导致生物武器的创建和扩散风险显著增加,或者在网络安全方面能够执行破坏性任务,就会触发这一级别;
ASL-4 及更高版本(ASL-5 +)目前尚未完全定义,但它将涉及更高级的风险,如自主性和可能的说服力。ASL-4 的风险包括国家级别的各种军事领域的攻击能力大幅增强,以及 AI 模型的生存和复制的能力。这一级别可能会引发更深远的社会和存在性问题,需要政府在管理这项技术上发挥作用;
Amodei 认为我们正处于 AI 指数增长的初期,人类的线性思维总是会误判指数增长的潜力。实际上大模型公司已经和美国政府签订了协定,不能过于快速的释放新版模型,恶性竞争;但按照现在的速度,ASL-3 预计今年底或者明年就能实现,ASL-4 预计在 2025 - 2028 年之间可以达到。Schulman 在播客中也表示,类似 ASL-4 级别的 AI 在未来三到五年内就能实现,可以执行长期目标并且完全自动化的智能体。貌似一切都在加速中,但我们真能通过 AI 解锁宇宙的全部奥秘么?
4.5 不可约化的计算
计算机科学家、物理学家史蒂芬·沃尔夫勒姆(Stephen Wolfram)有一个观点:“我们的科学理论核心之一就是可以把一切过程都视为计算,系统通过计算来确定它的行为”,虽然他的物理思想不被主流物理学所接受,但他创立的 Wolfram 语言在科学界还是很受欢迎的,通过符号计算的方式,把算法和世界的知识构建到了编程语言之中。计算不可约(Computational Irreducibility)就是沃尔夫勒姆在 2002 年出版的《一种新的科学》一书中提出的重要概念。它描述了某些计算过程无法通过任何捷径或简化来加速,唯一的方式就是按部就班地模拟整个计算过程,例如知名的“三体问题”。虽然宇宙无穷复杂,但它还是给人类的探索留下了可约化的口袋,科学的目标就是要探索这种可约化计算的可能性,例如广义相对论方程可以解释和预测宇宙在宏观尺度上的运动。那么 AI 能否替代科学家,通过寻找某个系统的运行规则来解决科学问题呢?现在的答案是不能,从架构来看,目前 AI 还只能做相当浅层的计算,Wolfram 专门写了一篇《Can AI Solve Science?》来详解的其原因,还搭建了不同规模的神经网络预测正弦函数,结果表现平平。
配图4.07:不同规模的神经网络预测正弦函数预测
理论上,可以用现有数学文献和数百万条定理训练神经网络,然后用它评估系统枚举得到的定理的可信度,甚至预测哪些数学探索方向可能有趣;但现在的 AI 模型架构更倾向于寻找“更多相同的东西”,输出的是“主流”和“不太令人惊讶”的东西。而计算不可约性意味着探索过程中总会有出人意料的发现,找到那些可约化的口袋,这些发现不容易归纳到已知模式之中,它们可能提供新的信息或价值;即使 AI 能引导我们发现新思想或技术,但在深入探索之前,仍然无法确定哪个方向是正确,这通常需要人类来选择。人类智慧有两种最高水准的表现,一个是艺术,另一个就是科学,它们都依赖人类的创造力。科学在某种意义上是数据压缩,我们用定律和方程表征宇宙的动态,从而理解发生了什么。但在这个过程中,还有一个超越数据压缩的方面,就是我们在发挥创造力时,我们自身也发生了变化;这一点类似于艺术:当你感知某个事物时,它也改变了你。如果我们富有创造力,就能提出新想法。然而,目前的 AI 模型在创造或生成时,它现在还无法根据自身发现的内容进行更新,这是人类目前还优于 AI 的重要方面,但过不了太久这个优势应该也不存在了。只有当我们真正感受到时,才能了解自己的反应。这意味着,尽管 AI 可以提供指导和建议,但人类在决定哪些新概念值得追,仍然扮演着重要角色。寻找“有趣”的方向实际上是探索计算可能性的空间,虽然我们关心的计算可能性集合很小,但这对于人类文明的未来至关重要。所以,我特别喜欢 xAI 的目标:Understand the Universe。AI 目前更像是延伸人类思维的工具,帮助完成大脑不擅长的任务。像大语言模型这种具有人类特征的 AI(Anthropomorphic AI),就像我们的超级助理,善懂人意,思维敏捷,能够帮助我们加速思考;也有面向科学的理解自然的 AI,帮助我们加速科学的探索。例如 DeepMind 在科学领域就有非常多的成果,除了大家熟知的 AlphaFold 之外,还有核聚变所需的等离子体计算、新数学猜想的提出并帮助证明、以及稀有物种的识别等等。Extropic 的创始人 Guillaume Verdon,这位量子计算和 AI 领域的专家,也是“有效加速主义”(Effective Accelerationism, e/acc)运动的发起者之一,他在与 Lex Fridman 的播客对谈中提到的面向物理的 AI(Physics-based AI),一种以物理学原理为基础,能够更好地在各种规模上表征世界的人工智能。它们可以利用量子力学、热力学等物理学的不同领域来构建世界的模型。Verdon 认为,通过结合物理学原理和人类的认知方式,可以创建出更接近真实世界的 AI 系统。因为柏拉图表征的假说,还有计算不可约化的限制,我们也许永远不会有一个无所不能的 AI,但我们一定会有多种形态的超级 AI,在可以约化的口袋里面计算和探索,帮助人类,理解宇宙!
有一个最常见,也是我认为比较合理和可验证的定义:AGI 是一种自主系统,在大多数具有经济价值的工作中超越了人类的能力。这也是 Sam Altman 经常挂在嘴边说的,用自动化来贡献 GDP。Andrej Karpathy 今年初在他的博客上发过一篇名为《Self-driving as a case study for AGI》的文章,但不知道为什么很快就删除了,全文表达的意思就是用自动化的交通服务来类比 AGI 和它的经济价值。用自动驾驶的等级来对应 AI 自动化的能力,会非常形象。现在的 AI 智能副驾(Co-Pilot)就像 L2 - 部分自动驾驶,人类参与多 AI 参与少;接下来的 AI 智能代理(Agent)就像 L3 - 受条件制约的自动驾驶,人类参与少 AI 参与多,我们给代理一个指令,它就能自己干大多数的活,人类只需要少量参与监督、评估和决策,感觉 Tesla FSD 12 就已经到达了 L3,给定目标就能自己抵达目的地,中途很少接管。那么 L4 级别的“高度自动驾驶”对应的是什么呢?更高级的自能体,完全可以自主运行的通用智能助理,给它一个长期目标,它就能很好的为你服务,现在还没有哪家公司的模型能够提供这样的智能;但在自动驾驶这个专项领域,Waymo 已经几乎做到了 L4,拿起 APP 叫车,打个盹的时间系统将你送到了目的地。我问过坐过的朋友,很多人更喜欢 Waymo 而不是 Uber,因为你完全没有陪司机聊天和给评价的压力。。就在大家还在争论自动驾驶能不能实现以及法律是否允许的时候,Waymo 的 AutoTaxi 服务已经在路上运行了,虽然限制很多、可以用的城市也很少,但这已经不是演示,它就在那里真实的运行着;接下来就是 Tesla 的 RoboTaxi,会在今年八月八日正式对外公开。Waymo 采取了先实现自动驾驶,然后在全球扩展的策略,而 Tesla 则先走向全球,然后再扩大自动驾驶的策略。这只是策略和先期投入成本的差异,他们的最终目标都是在全球范围内实现完全自主运行的交通服务。从某种角度来看,就像 Andrej Karpathy 写道的,AGI 看起来并不像一个可以自行进化的超级智能体,脱离我们的控制进入网络空间制造致命的病原体,或者从某个研究所的地下室越狱出来创造一个超级公司来控制人类。相反,它更像是自动驾驶,融合到经济之中的、能改变社会的自动化进程。这个过程是渐进的,社会既是观察者也是参与者,并且其扩张速度在许多方面都受到限制,包括法规、劳动力的迁移、信息、物质还有能源。世界不会因为它而爆炸,而是会适应、改变和重构。具体到自动驾驶,交通自动化将使出行更加安全,城市变得不那么烟雾弥漫和拥堵,停车场和停放的汽车将从道路两旁消失,人们将有更多行走和休息的空间。
非常期待 AGI 带来的类似变化 ?
05
选择 - 成长与投资
“人类对指数增长的直觉不是很好,当认知成本降低千倍或百万倍,能力大幅提升时,世界会有什么变化?如果每个人都有一家由一万个能力极强的虚拟 AI 员工组成的公司,这些 AI 员工不知疲倦且越来越聪明,世界将会怎样?没有人能准确预测未来,所以保持谦卑非常重要。可以预测几步,但不要过度预测。。” Sam Altman 在今年的 WEF(世界经济论坛)上分享了很多,我专门挑了这一段放在这儿,想要精准预测复杂的世界,这是一个不可约化的计算。经过全篇的分析,我们还是能找到可以约化的口袋,现在 AI 正朝着智能体的方向演化,它们大概率会成为人类的助手而不是世界的主宰;智能的供应会像电力的供应那样,渗透到全行业和大家生活的方方面面;人类最宝贵的资产就是我们进化了几百万年沉淀的经验,它刻在我们的基因中,也记录在我们的历史中,这些塑造了人类独特的创造力,我们知道我们想要什么,什么才是有趣的。
5.1 职业变迁
回到第三章开头提到的杰文斯悖论(Jevons Paradox),在劳动力市场上也一样,效率的提高会导致工作岗位的短期减少,但长期的需求激增会创造更多的工作岗位。Slow Venture 的合伙人 Sam Lessin 做过一个有趣的类比:“每个人都认为 AI 将会彻底改变法律行业 。。这种想法是错误的 ;AI 将使生成和处理冗长的合同变得易如反掌,导致诉讼量激增十倍,法律业务将蓬勃发展,成为 GDP 的主要组成部分。。就像之前的金融行业一样!” 增加“律师”的供应,会诱发对“法律”的需求;提高律师的效率,反而会增加对法律资源的需求。美国经济学家达伦·阿切莫格鲁(Daron Acemoglu)发表过一篇名为《自动化与新任务:技术如何取代和重塑劳动力》的研究报告,讨论了新技术对人类工人的几种不同影响,它们分别是:
通过用机器替代人类来减少对人类劳工的需求;
通过提高人类的工作效率来增加工资;
创造新类型工作的需求,以及;
通过经济增长来增加整体劳动力需求。
自动化技术提高了以前没法自动化任务的生产力,从而增加了对这些任务的需求。例如,白领在会计、销售、物流、交易和一些管理职位上,部分任务被专门软件和 AI 所取代,但这些技术也提高了生产力,从而增加了对这些任务的需求;但在制造业中却不同,自动化的加速导致了劳动需求的停滞,但新任务的创造速度在减慢,从而对劳动需求产生了负面影响。研究委婉的表达了制造业在全部制动化之后,就没人类工作者什么事儿了。
配图5.01:1850 -2010 美国劳动力市场的变迁
我们可以看到,由于自动化,某些领域的工作数量在减少。这不仅发生在农业和采矿等领域,还发生在金融领域,例如职员和银行出纳的减少;以及销售和零售领域(如网上购物的普及)。有时,制造业的工作数量减少部分是因为自动化,另一部分就是因为有“世界工厂”的存在。 但像物流和交通这些“技术操作”比较集中的行业,先因为基建完成趋于饱和,随着技术的更新,需要更多的“技术维护”。人类工作者从操作者变成了自动化系统的管理者,业务效率提高,也会创造更多就业,其实我认为信息产业也属于这一类型。法律、医疗、工程、科学和教育这些处于“知识越多,工作也越多”的领域将会是需求激增的受益行业,另外娱乐还有餐饮服务业一直处于增长趋势,在各行各业都自动化之后,唯有吃喝玩乐得人们亲自来,所以这将是智能富足社会的常青行业。充分发展的行业会被完全自动化,现在的 AI 本质上也是人类经验的自动化回放,因此会雇佣更少的人力;但技术也开辟了新的行业,这些领域需要更多的人手。而且,因为计算的不可约,事物通常会变得越来越复杂,更多的知识和组织结构将会出现,这也就开辟了需要更多人类参与的“前沿”领域。尽管有时会突然涌现出新的技术变革,但在人类职业上出现显著变化通常需要一代人的时间。想象一下你在第二次工业革命的前夕,你能预知所有将在未来半个世纪内出现的神奇技术么?例如大规模生产、电力、汽车、电话、飞机等等。这些技术哪些会扼杀工作机会,哪些又会创造就业机会呢?你一定预测不到!所以请保持乐观,新机会一定存在的;需要做的就是提升自己的认知,不要在当下选择已经是趋势之外的行业就行。
最后,如果 AI 确实抢走了大多数人类的工作机会,那也意味着让部分企业以及某些精英人类赚了更多的钱,政府可以用税收来平衡这个差异,全民基本收入(Universal basic income - UBI)就是一个很好的解决方法。
5.2 自我提升
我们已经进入知识经济的时代,不是在网上开课贩卖知识那种,而真正做到了廉价且快速的复制知识 - 让知识任务自动化。但要做到能够和 AI 一起协同进化,我们需要提升哪些能力呢?善用工具历史证明,使用工具的人往往比不使用工具的人表现得更好。人类的发展史就是一部工具演化史,从农业时代的水车运输,到第一次工业革命的纺织机,再到信息时代的电脑,工具越来越自动化。很快,不会用 AI 工具来自动化重复性的任务,就像不会用电脑来处理复杂的计算一样,如果不能适应这个转变,就面临被时代淘汰的命运。我们会因为这种自动化带来的效率提升,腾出时间来进行更高层次的思考。抽象与整合现在“大语言模型”已经压缩了人类历史上积累的大量知识,你可以快速的用这些工具把知识回放出来。随着思维方式的进步,直接学习所有知识细节已经不再必要,我们可以在需要使用的时候通过工具来加速学习;现在需要的能力是在更高的层次上的学习,抽象出更多的细节。事实上,AI 在掌握某些技能或知识的同时,也能使人类更容易学习这项技能或知识。随着技术的进步,AI 必定能做到 - “学习人类如何学习”,并以适合不同个体的方式来呈现它所学到的知识,让人们更好地吸收。过去的一种观点是,随着世界知识量的快速增加,人们普遍认为将会越来越专业化。但现在 AI 让知识自动化的技术不断进步,让我们看到了另一种可能性正在清晰可见:实现“整合”而不是专业化,人们在更高的层次上工作,为 AI 提供方向并作出合适的选择。这是一种充分利用人类潜能的最佳方式:让我们集中精力制定“策略”,而把具体的执行细节交给更擅长的自动化系统来处理。但这也不意味着不用再培养基础认知了,我们可以利用大语言模型来加速认知的提升,用它们来指导学习,让生物大脑和机器智能一同进化,这样我们才有更多的时间来做高阶思维的锻炼,例如计划,评估,决策、抽象和创造,从而培养出达到更高理解水平所需的直觉。。要知道过去没有高阶认知我们没有任何代价,现在的代价是非创造级别的工作,对人类来说即将失去经济价值,因为 AI 的自动化会做得更好。提问与思考在许多事情都被自动化的情况下,什么是值得学习的呢?首先,学会提问,未来的教育应侧重于如何提出有价值的问题,而不仅仅是回答问题。好的思考才能带来好的问题,批判性思维和好奇心是思考的前提,也是人类文明能够向前的动力。其次,学会广泛而深入地思考 —— 尽可能多地吸收各种知识和思维模式,重点培养结构化思维。调将复杂的问题分解成更小、更易管理的部分,并通过逻辑和有条理的步骤来解决这些部分,从而达到解决整体问题的目的。我们在上一章就提到了,目前 AI 模型都在练习如何根据长期目标来分解和执行计划,从而提升自己的智能,人类不是更应该这样吗?不然如何去评估和验证 AI 的执行结果呢?利用自然语言来表达和整理思维,形成清晰的“人类级别” 叙述;所以 AI 不会减少编程的需求,而是让人人都能编程,这是通过算法和逻辑来解决问题的一种思维模式,可以帮助我们更好地结构化思考。通过广泛而深入的思考,我们才能定义真正对我们有价值的东西。成为超级个体每次遇到大的技术转型,必定会有很多人被甩下车,也有很多人搭上了转型的便车,现在的趋势很明显,要成为能指挥 AI 帮我们干活的超级个体,就像 Sam Altman 在 WTF 上比喻的那样:“如果每个人都有一家由一万个能力极强的虚拟 AI 员工组成的公司,世界将会怎样?” 要成为能调动 AI 干活的人,而不是被 AI 替代的人。当世界充满了廉价的人造智能的时候,人类的连接和存在感就显得十分有意义。除了前面提到的三个内在能力提升之外,更好的情绪管理和沟通能力,会强化建立社会连接的效率,人类的服务会变得更加昂贵;即使 AI 再强大,大家也身处的是人类社会,而不是在 Matrix 里面,社会连接是个人最重要的资本。我们即将进入社交与智能混合的新互联网时代,要让智能工具成为我们增强社交网络影响力的工具,把它们当作“积木”一样组合成“成品”,来完成我们想做的事情。最后,引用 Wolfram 在《Will AIs Take All Our Jobs and End Human History—or Not? Well, It’s Complicated…》中所的表述的一段:“在新兴的 AI 世界中,有许多技能对大多数人类来说可能不再有意义 —— 正如今天的自动化进步使过去的许多技能变得过时一样。但可以预见人类仍会有自己的角色,对我们来说,最重要的是学会如何选择“下一步要去哪里”,以及在计算宇宙的无限可能性中,我们应该带领人类文明走向哪里。”
5.3 科技恒大
“未来十年,最大的科技公司将比今天最大的科技公司大得多”,这句话来自 Packy McCormick 的《Tech is Going to Get Much Bigger》,我在第三章“廉价诱导需求”小节中引用过他的观点 — 科技公司正在越来越大。不要感到惊讶,因为它们生产的东西非常不同。随着技术(软件和硬件)进入并吞噬更多的经济领域,机会的规模正在逐步增长。我们可以看到最近几十年,美国科技公司已经在股票市值排名中占据主导地位。在传统的行业分类中,科技并不完全适合任何一个类别 —— 它正在吞噬世界!虽然它最适合的是“信息”产业,其中包括软件、数据处理和电信等等。但亚马逊已经渗透到了“零售贸易”中,技术工人可以被纳入“专业、科学和技术服务”行业,电脑和 iPhone 则被纳入“制造业 - 耐用品”,科技还有还有很多东西(行业)可以吃?现在,由于智能的加入,将让科技公司将变得更大,因为自动化让所有市场,都看起来更像软件市场,它们提供即插即用的劳动力。但智能对行业的渗透,也不是一触而就的,我们能看到这波浪潮从智能生成的核心 - 基础设施蔓延到边缘运行的硬件,再从这些终端延展到应用场景,最后进入我们的物理世界。
因为算力的飞速提升、还有神经网络与硅谷人才网络的演化,我们有了生成式 AI 的革命,它带来了大语言模型。语言原本是人类智慧的火种,但现在我们已知的宇宙里,有一种人造的智能,可以用和我们一样的语言来独立的解释世界,这些人工智能就像神话里的盗火者。人类面对比自己更加聪明的物种出现的时候,天生就有一种警觉,它们的目的是什么?它们会毁灭我们么?Amazon 的创始人Jeff Bezos 在最近一次接受 Lex Fridman 采访的时候,就做了个形象的比喻:“现在大语言模型的智能,不像是我们发明出来的,而是召唤出来的”。对复杂的神经网络内隐藏秘密的研究才刚开始,我们如何使用和控制这些黑箱模型,是业界和社会争论最激烈的话题。有人认为 AGI 不加以控制,会导致人类灭亡;也有人认为现在的架构,再怎么扩展算力,也根本实现不了 AGI。媒体报道上充满了各种矛盾且对立的观点,大家还十分喜欢围观这样的辩论,因为我们喜欢寻找大脑中默认想法的认同感。在这篇文章中,我引用了丰富的论点和最新的研究,尝试给大家呈现出尽可能客观的结论,就是我们还能用多模态的数据提升机器的智能,改进架构和强化训练的方法,可以让 AI 模型往逻辑推理、计划、记忆还有目标感更强的方向发展,Scaling Law 依旧有效;但并不确定在更大规模的数据和训练中,是否会涌现出自主目标或者是我们定义不清晰的“意识”来。科技公司研发的约束方式是训练出辅助人类的超级智能助手,而不是可以自我改进升级的超级自能体,让 AI 渐进式的融入社会,从而推动新一轮的工业革命和经济增长。踩油门还带刹车是同时进行的,这样才能安全切顺滑的驾驶。我个人最认同 Stephen Wolfram 的观点:未来,AI 将会从我们人类这里学习它们所能学到的,然后它们基本上将像自然界一样成为自我运行的计算系统 —— 有时候“与我们互动”而已。他们会对我们“做些什么”呢?就像大自然会对我们“做些什么”一样;AI 会消灭我们么?大自然也完全可以消灭我们。。以一种类似泛灵论的方式,我们可能会把意图归因于自然,但最终它只是“遵循其规则”并做它该做的事情。即使 AI 可以自我提升成掌控一切的“顶级智能”,但在这个计算不可约的宇宙里,不会存在一个“万事皆通”的计算系统。新兴的生物学领域有一个核心结论:无论你指定了什么“成就”,在计算宇宙的某个地方总会有一个计算系统超越它 - 计算等效原则(A New Kind of Science - Stephen Wolfram)。最后,如果 AI 真从我们这里学到了一切,那么它们也必然会继承我们“求胜的冲动”,也许会导致 它们挑战人类。这将是 AI 宪法具意义的地方:定义一个超越 AI 的契约,让它们无法从人类的天性中习得这个能力,这样我们才能期待与 AI 共存,一起协同进化。