AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


现在的AI就像中世纪的化学,有些东西在起作用,但没人知道为什么(纽约客)
发布日期:2024-08-27 17:36:32 浏览次数: 1629



摘要:

人工智能大语言模型的发明,好像完全是一种意外。至少,它今天所发展出的能力,是发明者没有预料到的。

人们虽然发明了人工智能,但并不了解它的能力是如何产生的。在某种意义上,这好像就是一种神秘的能力或意识。

“现在的AI可能就像中世纪的化学。有些令人惊叹的东西在起作用,但我们还不知道为什么。”

ChatGPT最后的t所指的transformer这个词,其实并没有特别的深意,只是因为写论文的人觉得这个单词的发音很酷……

伟大不能被计划。

原文标题:ai大语言模型的发明是一个意外吗?


2017年春,谷歌1965号楼二楼的一间办公室里,大学实习生艾丹·戈麦斯精疲力尽地躺下了。

凌晨三点,他和自然语言处理专家阿希什·瓦斯瓦尼,还在为人工智能领域最重要的年度会议准备论文。与其他六名队友一样,他们已连续奋战十二周,有时甚至睡在办公室的沙发上。任务即将完成,但戈麦斯已无力庆祝。即便想去,他也不能:20岁的他在美国还不能合法饮酒。


"这将是一件大事。"瓦斯瓦尼说。


"不就是机器翻译吗?"戈麦斯说,"这不是研究该做的吗?"


"不,这意义更深远,"瓦斯瓦尼回答。


戈麦斯觉得瓦斯瓦尼的看法有点奇怪。他们在研究一种新型神经网络架构,称为"transformer"。论文展示了如何用这项技术推进自动翻译。但瓦斯瓦尼似乎另有所指。



两周后,已回到多伦多大学的戈麦斯收到了团队主管卢卡什·凯撒的邮件,主题是"生成的维基百科文章"。凯撒解释说,他们用基于transformer的AI模型读了不到一半的维基百科条目,只用了两天。然后让系统为"The Transformer"创作五篇条目。


系统的回复令人震惊地可信。它描述了一个1968年成立的日本硬核朋克乐队;一部虚构作家的科幻小说;一款真实游戏公司开发的电子游戏;2013年的一部澳大利亚情景喜剧;以及一个另类金属乐队的第二张专辑。


这些"Transformer"都是虚构的,但AI写得颇具权威性。


戈麦斯的第一反应是:这怎么可能?生成的条目虽有矛盾,但细节丰富得惊人。关于那个朋克乐队的条目写道:"2006年,乐队解散,剩余成员以Starmirror的名字重组。"这些细节从何而来?系统如何决定写什么?为什么一个翻译用的神经网络,能凭空写出富有想象力的文章?


"我完全震惊了,"戈麦斯回忆说。"我以为要二十多年后才能达到这种水平,结果它就这么出现了。"这些条目仿佛是魔法,而且人们不知道这魔法是如何实现的。


如今,即将30岁的戈麦斯已是估值55亿美元的AI公司Cohere的CEO。Transformer——ChatGPT中的"T"——是21世纪可能最具革命性技术的核心。


普华永道估计,到2030年,AI可能为全球GDP增加15.7万亿美元,其中很大一部分来自基于transformer的应用。这个数字只是暗示了某种巨大但未知的影响。其他后果更加模糊而广泛:一些科技预言家甚至提出了如同电影情节的末日场景。


目前唯一确定的是,语言AI正在改变人类与语言的关系。在机器生成文本的时代,"写作"、"理解"、"意义"和"思考"等概念需要重新定义。

能创造和理解语言的AI带来了一种范畴颠覆的震撼;它让机器能做我们认为只有人类才能做的事。谷歌的研究人员和其他人一样经历了这种震撼。导致transformer诞生的过程像是一个意外的曼哈顿计划。与其发明者的对话表明,七年后的今天,我们仍不确定它为何如此有效。


几年前,科技界开始认真对待AI,主要是因为图像识别的突破。但谷歌团队——戈麦斯、瓦斯瓦尼、凯撒、利昂·琼斯、妮基·帕尔马尔、伊利亚·波洛苏欣、诺姆·沙泽尔和雅各布·乌兹科雷特——都痴迷于语言,他们坚信语言是通向广泛AI的途径。


沙泽尔说,就包含的洞见而言,一段文字的信息密度"是一幅图画的千倍"。团队主要通过翻译研究语言,因为翻译不仅有价值,还是很好的AI研究目标。BLEU分数(一种自动评估机器翻译结果的方法)可以评估机器翻译与人工高质量翻译的相似度。


2010年代初,机器学习尚未成熟,许多研究人员致力于解析技术,核心是自动创建句子树——那种复杂的语法依存关系图。这些基于语法的系统通常能达到不错的BLEU分数——比如英德翻译的21分,最好的能到23分。那时,如果能提高一个百分点,通常就够写一篇成功的学位论文了。



计算机翻译因效率低下而臭名昭著。基于AI的系统在处理语言顺序方面有困难,这消耗了大量算力。典型的循环神经网络会从头到尾处理句子。波洛苏欣说:"它会一次处理一个词。读一个词,处理它。读下一个词,处理它。如果有一千个词,就得等一千个周期。"因此,团队的目标之一是建立一个能处理语言又避免顺序处理耗时的系统。

表面上看,要求语言在没有词序的情况下有意义似乎不可能。我们说话、写作和阅读都是一个词接一个词。但我们对语言运作的直觉可能不反映大脑中的真实情况。


瓦斯瓦尼问我:"你怎么知道你是纯粹按顺序的?"他接着说,"为什么要把人类的限制强加给机器?"关于如何避免顺序性,已有几个想法,包括可以无序响应数据的卷积神经网络。波洛苏欣描述了一种"词袋"方法:"想象你打开维基百科文章,把所有词打乱,然后试图回答问题。”


如果“你的母亲在炉子上烫伤了手”变成“烫伤 手 她的 在 上 炉子 母亲 你的”,你仍能大致理解。但对更复杂的句子,这可能就不行了。不按顺序的方法更快,但有失去连贯性的风险。



多年来,AI研究人员一直在尝试“注意力”机制,希望它能弥合效率和连贯性的鸿沟。


注意力机制允许神经网络通过寻求相关性来避开顺序性。它不是按顺序看每个词,而是同时看一段文本中的所有词,评估它们的相互关系以及哪些词对其他词最重要,从而捕捉整体含义。这更接近人们记忆文本的方式,而非阅读方式。


如果你试图回忆本文开头,你可能会想到:艾丹·戈麦斯,不能喝酒,实习生,谷歌,新技术的未知潜力。这些概念,无论顺序如何,可能就是你保留的大意。


过去,研究人员常把注意力机制与其他考虑语言复杂性的系统结合。但谷歌团队发现,注意力有一个独特而重要的技术优势:它依赖于一个相对简单的数学运算——矩阵乘法。戈麦斯说:“我们用的芯片只擅长一件事,那就是矩阵乘法。”如果AI系统只用注意力构建,放弃其他组件,它就能以前所未有的速度工作。


在提交论文前,团队将其命名为“注意力就是你所需要的一切”。波洛苏欣解释说:“transformer的工作方式是,比如说,拿一个句子。。。然后用注意力找出相关的词,再传到下一层。”这个过程重复几层,最后出现不断改进的文本预测。这种效率能让基于transformer的模型轻松从桌面单个芯片,扩展到拥有数千处理器的数据中心。


凯撒说,由于仍在研究的原因,“扩大规模时,transformers会产生非常好且可预测的结果。”同时,网络通过识别数据中的模式自主学习。戈麦斯说:“你不规定它学什么关系;你要不说,'你要学习形容词和名词的关联。'你只是给它学习任何东西的能力。”



不幸或幸运的是,transformers并不模仿大脑工作方式。transformer的目标是学习如何续写文本,它通过在"标记"(字母、标点和空格的集合)之间建立关系来实现。它没有内置语法或句法。它用反向传播算法改进自身,但作为大脑学习模型,“尽管人们努力发明真实神经元可能实现反向传播的方法,但它仍然不可信,”AI教父杰弗里·辛顿在2022年的论文中写道。AI初期的目标——理解人类思维如何运作——仍是未解之谜。


项目后期,距提交期限只有几周时,帕尔马尔和瓦斯瓦尼在谷歌大厅里得知,他们的模型在英德翻译中获得了超过26分的BLEU分数。


帕尔马尔回忆说:“Facebook之前发表的论文是我们要超越的目标,他们花了几天训练,而我们只用了几小时。”


更重要的是,谷歌团队用的是小型原始的transformer网络;这意味着有更多资源时,结果可以迅速提升(最终得分为28.4分。)兴奋之余,他们给正从山上滑翔伞下来的乌兹科雷特打了电话。帕尔马尔说:“雅各布车里有些陈年香槟。”他们在满是灰尘的车旁,用温热的香槟庆祝成功。



最后几天,一直在追求“统一万物模型”的凯撒为论文做了关键补充:他尝试训练transformer模型不仅翻译,还做传统的解析,发现它能用较少的例子学会这项技能。这表明该模型可以执行多种语言任务,不仅仅是处理语言的某一方面:它不只是翻译机器,而是语言机器。尽管如此,没人预料到transformer技术很快就会被用来构建能规划假期、写评论文和取代客服的模型。


随后几年,随着transformer网络在海量互联网数据上训练,其真正力量逐渐显现。2018年春,沙泽尔做了个题为"越大越好"的演讲,认为扩大transformer规模会带来显著改进,而且这个过程似乎没有止境。


在谷歌,沙泽尔参与开发了LaMDA聊天机器人,它可能是第一个被误认为有意识的大型语言模型。在OpenAI,规模扩大的最终结果就是ChatGPT。


如果基于transformer的AI更复杂更熟悉——比如说,如果它有许多类似人脑系统的组件——那么它行为的丰富性就不会那么令人惊讶了。然而,事实上,它以一种挑战我们直觉和词汇的方式生成非人类语言。


如果你让大型语言模型“柔滑流畅地”写句子,它就会产生柔滑流畅的文字;它理解并能执行这些特质。能写出日本朋克乐队文章的神经网络,必须在某种程度上“理解”乐队可以解散重组;同样,它必须掌握澳大利亚情景喜剧的概念才能编造一个。但这是一种与我们所知的“理解”不同的“理解”。



transformer背后的研究人员对其能力有不同看法。瓦斯瓦尼说:“我认为即使谈论‘理解’,我们也还没准备好。我们才刚开始定义理解这些模型意味着什么。”(部分问题在于,这里的“理解”还没有公认定义——它是生物过程,抽象过程,还是两者兼有?)


乌兹科雷特更富哲学意味:“从根本上说,我们必须接受,某些能‘理解东西’的系统——无论它意味着什么——几乎必然会超出我们的理解,”他说,“当我们构建这些机器时,我们注定会失去概念化和解释正在发生事情的能力。而且可能没有其他办法。”


达·芬奇借鉴自然创造技术,例如,他通过煮沸人眼,切开检查,部分理解了暗箱原理。但transformer是一个出人意料的成功,尽管我们对语言和人类思维的运作知之甚少。


沙泽尔说:“现在的AI可能就像中世纪的化学。有些令人惊叹的东西在起作用,但我们还不知道为什么。我们有一些直觉,很多发展将是追随这些直觉。”过去,科学家们常能将直觉转化为可证明或反驳的清晰解释,但不知道AI领域是否会如此。


transformer成功中的偶然性引发了其发明者们的谦逊。当我问帕尔马尔如何评价我们目前对transformer模型的理解时,她说:“非常低。”我问,有多低?百分之十?百分之一?她耸耸肩:“我们如何理解其他人类?对模型来说也一样。”


值得注意的是,“注意力就是你所需要的一切”这篇论文中的架构之所以叫transformer,仅仅是因为乌兹科雷特喜欢这个词的发音。戈麦斯说:“我从未真正理解这个名字。不过,听起来很酷。”



我们从未有过真正“异质”的语言——一种以我们无法理解的方式理解的新型陌生话语。因此,亲身参与创造过程的人对这项技术感到惊讶也不足为奇。


人工智能的发展似乎带来了一个强大的副作用:随着机器产生智能,它们也产生了难以理解的神秘感。人类对此的困惑可能会持续存在,甚至成为一种永恒的状态。


【完】



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询