我要投稿

现在的AI就像中世纪的化学，有些东西在起作用，但没人知道为什么（纽约客）

发布日期：2024-08-27 17:36:32 浏览次数： 1882 作者：不懂经

摘要：

人工智能大语言模型的发明，好像完全是一种意外。至少，它今天所发展出的能力，是发明者没有预料到的。

人们虽然发明了人工智能，但并不了解它的能力是如何产生的。在某种意义上，这好像就是一种神秘的能力或意识。

“现在的AI可能就像中世纪的化学。有些令人惊叹的东西在起作用，但我们还不知道为什么。”

ChatGPT最后的t所指的transformer这个词，其实并没有特别的深意，只是因为写论文的人觉得这个单词的发音很酷……

伟大不能被计划。

原文标题：ai大语言模型的发明是一个意外吗？

2017年春，谷歌1965号楼二楼的一间办公室里，大学实习生艾丹·戈麦斯精疲力尽地躺下了。

凌晨三点，他和自然语言处理专家阿希什·瓦斯瓦尼，还在为人工智能领域最重要的年度会议准备论文。与其他六名队友一样，他们已连续奋战十二周，有时甚至睡在办公室的沙发上。任务即将完成，但戈麦斯已无力庆祝。即便想去，他也不能：20岁的他在美国还不能合法饮酒。

"这将是一件大事。"瓦斯瓦尼说。

"不就是机器翻译吗？"戈麦斯说，"这不是研究该做的吗？"

"不，这意义更深远，"瓦斯瓦尼回答。

戈麦斯觉得瓦斯瓦尼的看法有点奇怪。他们在研究一种新型神经网络架构，称为"transformer"。论文展示了如何用这项技术推进自动翻译。但瓦斯瓦尼似乎另有所指。

两周后，已回到多伦多大学的戈麦斯收到了团队主管卢卡什·凯撒的邮件，主题是"生成的维基百科文章"。凯撒解释说，他们用基于transformer的AI模型读了不到一半的维基百科条目，只用了两天。然后让系统为"The Transformer"创作五篇条目。

系统的回复令人震惊地可信。它描述了一个1968年成立的日本硬核朋克乐队；一部虚构作家的科幻小说；一款真实游戏公司开发的电子游戏；2013年的一部澳大利亚情景喜剧；以及一个另类金属乐队的第二张专辑。

这些"Transformer"都是虚构的，但AI写得颇具权威性。

戈麦斯的第一反应是：这怎么可能？生成的条目虽有矛盾，但细节丰富得惊人。关于那个朋克乐队的条目写道："2006年，乐队解散，剩余成员以Starmirror的名字重组。"这些细节从何而来？系统如何决定写什么？为什么一个翻译用的神经网络，能凭空写出富有想象力的文章？

"我完全震惊了，"戈麦斯回忆说。"我以为要二十多年后才能达到这种水平，结果它就这么出现了。"这些条目仿佛是魔法，而且人们不知道这魔法是如何实现的。

如今，即将30岁的戈麦斯已是估值55亿美元的AI公司Cohere的CEO。Transformer——ChatGPT中的"T"——是21世纪可能最具革命性技术的核心。

普华永道估计，到2030年，AI可能为全球GDP增加15.7万亿美元，其中很大一部分来自基于transformer的应用。这个数字只是暗示了某种巨大但未知的影响。其他后果更加模糊而广泛：一些科技预言家甚至提出了如同电影情节的末日场景。

目前唯一确定的是，语言AI正在改变人类与语言的关系。在机器生成文本的时代，"写作"、"理解"、"意义"和"思考"等概念需要重新定义。

能创造和理解语言的AI带来了一种范畴颠覆的震撼；它让机器能做我们认为只有人类才能做的事。谷歌的研究人员和其他人一样经历了这种震撼。导致transformer诞生的过程像是一个意外的曼哈顿计划。与其发明者的对话表明，七年后的今天，我们仍不确定它为何如此有效。

几年前，科技界开始认真对待AI，主要是因为图像识别的突破。但谷歌团队——戈麦斯、瓦斯瓦尼、凯撒、利昂·琼斯、妮基·帕尔马尔、伊利亚·波洛苏欣、诺姆·沙泽尔和雅各布·乌兹科雷特——都痴迷于语言，他们坚信语言是通向广泛AI的途径。

沙泽尔说，就包含的洞见而言，一段文字的信息密度"是一幅图画的千倍"。团队主要通过翻译研究语言，因为翻译不仅有价值，还是很好的AI研究目标。BLEU分数（一种自动评估机器翻译结果的方法）可以评估机器翻译与人工高质量翻译的相似度。

2010年代初，机器学习尚未成熟，许多研究人员致力于解析技术，核心是自动创建句子树——那种复杂的语法依存关系图。这些基于语法的系统通常能达到不错的BLEU分数——比如英德翻译的21分，最好的能到23分。那时，如果能提高一个百分点，通常就够写一篇成功的学位论文了。

计算机翻译因效率低下而臭名昭著。基于AI的系统在处理语言顺序方面有困难，这消耗了大量算力。典型的循环神经网络会从头到尾处理句子。波洛苏欣说："它会一次处理一个词。读一个词，处理它。读下一个词，处理它。如果有一千个词，就得等一千个周期。"因此，团队的目标之一是建立一个能处理语言又避免顺序处理耗时的系统。

表面上看，要求语言在没有词序的情况下有意义似乎不可能。我们说话、写作和阅读都是一个词接一个词。但我们对语言运作的直觉可能不反映大脑中的真实情况。

瓦斯瓦尼问我："你怎么知道你是纯粹按顺序的？"他接着说，"为什么要把人类的限制强加给机器？"关于如何避免顺序性，已有几个想法，包括可以无序响应数据的卷积神经网络。波洛苏欣描述了一种"词袋"方法："想象你打开维基百科文章，把所有词打乱，然后试图回答问题。”

如果“你的母亲在炉子上烫伤了手”变成“烫伤手她的在上炉子母亲你的”，你仍能大致理解。但对更复杂的句子，这可能就不行了。不按顺序的方法更快，但有失去连贯性的风险。

多年来，AI研究人员一直在尝试“注意力”机制，希望它能弥合效率和连贯性的鸿沟。

注意力机制允许神经网络通过寻求相关性来避开顺序性。它不是按顺序看每个词，而是同时看一段文本中的所有词，评估它们的相互关系以及哪些词对其他词最重要，从而捕捉整体含义。这更接近人们记忆文本的方式，而非阅读方式。

如果你试图回忆本文开头，你可能会想到：艾丹·戈麦斯，不能喝酒，实习生，谷歌，新技术的未知潜力。这些概念，无论顺序如何，可能就是你保留的大意。

过去，研究人员常把注意力机制与其他考虑语言复杂性的系统结合。但谷歌团队发现，注意力有一个独特而重要的技术优势：它依赖于一个相对简单的数学运算——矩阵乘法。戈麦斯说：“我们用的芯片只擅长一件事，那就是矩阵乘法。”如果AI系统只用注意力构建，放弃其他组件，它就能以前所未有的速度工作。

在提交论文前，团队将其命名为“注意力就是你所需要的一切”。波洛苏欣解释说：“transformer的工作方式是，比如说，拿一个句子。。。然后用注意力找出相关的词，再传到下一层。”这个过程重复几层，最后出现不断改进的文本预测。这种效率能让基于transformer的模型轻松从桌面单个芯片，扩展到拥有数千处理器的数据中心。

凯撒说，由于仍在研究的原因，“扩大规模时，transformers会产生非常好且可预测的结果。”同时，网络通过识别数据中的模式自主学习。戈麦斯说：“你不规定它学什么关系；你要不说，'你要学习形容词和名词的关联。'你只是给它学习任何东西的能力。”

不幸或幸运的是，transformers并不模仿大脑工作方式。transformer的目标是学习如何续写文本，它通过在"标记"(字母、标点和空格的集合)之间建立关系来实现。它没有内置语法或句法。它用反向传播算法改进自身，但作为大脑学习模型，“尽管人们努力发明真实神经元可能实现反向传播的方法，但它仍然不可信，”AI教父杰弗里·辛顿在2022年的论文中写道。AI初期的目标——理解人类思维如何运作——仍是未解之谜。

项目后期，距提交期限只有几周时，帕尔马尔和瓦斯瓦尼在谷歌大厅里得知，他们的模型在英德翻译中获得了超过26分的BLEU分数。

帕尔马尔回忆说：“Facebook之前发表的论文是我们要超越的目标，他们花了几天训练，而我们只用了几小时。”

更重要的是，谷歌团队用的是小型原始的transformer网络；这意味着有更多资源时，结果可以迅速提升(最终得分为28.4分。)兴奋之余，他们给正从山上滑翔伞下来的乌兹科雷特打了电话。帕尔马尔说：“雅各布车里有些陈年香槟。”他们在满是灰尘的车旁，用温热的香槟庆祝成功。

最后几天，一直在追求“统一万物模型”的凯撒为论文做了关键补充：他尝试训练transformer模型不仅翻译，还做传统的解析，发现它能用较少的例子学会这项技能。这表明该模型可以执行多种语言任务，不仅仅是处理语言的某一方面：它不只是翻译机器，而是语言机器。尽管如此，没人预料到transformer技术很快就会被用来构建能规划假期、写评论文和取代客服的模型。

随后几年，随着transformer网络在海量互联网数据上训练，其真正力量逐渐显现。2018年春，沙泽尔做了个题为"越大越好"的演讲，认为扩大transformer规模会带来显著改进，而且这个过程似乎没有止境。

在谷歌，沙泽尔参与开发了LaMDA聊天机器人，它可能是第一个被误认为有意识的大型语言模型。在OpenAI，规模扩大的最终结果就是ChatGPT。

如果基于transformer的AI更复杂更熟悉——比如说，如果它有许多类似人脑系统的组件——那么它行为的丰富性就不会那么令人惊讶了。然而，事实上，它以一种挑战我们直觉和词汇的方式生成非人类语言。

如果你让大型语言模型“柔滑流畅地”写句子，它就会产生柔滑流畅的文字；它理解并能执行这些特质。能写出日本朋克乐队文章的神经网络，必须在某种程度上“理解”乐队可以解散重组；同样，它必须掌握澳大利亚情景喜剧的概念才能编造一个。但这是一种与我们所知的“理解”不同的“理解”。

transformer背后的研究人员对其能力有不同看法。瓦斯瓦尼说：“我认为即使谈论‘理解’，我们也还没准备好。我们才刚开始定义理解这些模型意味着什么。”（部分问题在于，这里的“理解”还没有公认定义——它是生物过程，抽象过程，还是两者兼有？)

乌兹科雷特更富哲学意味：“从根本上说，我们必须接受，某些能‘理解东西’的系统——无论它意味着什么——几乎必然会超出我们的理解，”他说，“当我们构建这些机器时，我们注定会失去概念化和解释正在发生事情的能力。而且可能没有其他办法。”

达·芬奇借鉴自然创造技术，例如，他通过煮沸人眼，切开检查，部分理解了暗箱原理。但transformer是一个出人意料的成功，尽管我们对语言和人类思维的运作知之甚少。

沙泽尔说：“现在的AI可能就像中世纪的化学。有些令人惊叹的东西在起作用，但我们还不知道为什么。我们有一些直觉，很多发展将是追随这些直觉。”过去，科学家们常能将直觉转化为可证明或反驳的清晰解释，但不知道AI领域是否会如此。

transformer成功中的偶然性引发了其发明者们的谦逊。当我问帕尔马尔如何评价我们目前对transformer模型的理解时，她说：“非常低。”我问，有多低？百分之十？百分之一？她耸耸肩：“我们如何理解其他人类？对模型来说也一样。”

值得注意的是，“注意力就是你所需要的一切”这篇论文中的架构之所以叫transformer，仅仅是因为乌兹科雷特喜欢这个词的发音。戈麦斯说：“我从未真正理解这个名字。不过，听起来很酷。”

我们从未有过真正“异质”的语言——一种以我们无法理解的方式理解的新型陌生话语。因此，亲身参与创造过程的人对这项技术感到惊讶也不足为奇。

人工智能的发展似乎带来了一个强大的副作用：随着机器产生智能，它们也产生了难以理解的神秘感。人类对此的困惑可能会持续存在，甚至成为一种永恒的状态。

【完】

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业