我要投稿

从 ImageNet 到 AlexNet，李飞飞万字自述人工智能诞生的关键进程

发布日期：2024-06-04 21:36:36 浏览次数： 3291 作者：Founder Park

要怎么介绍李飞飞

AI 教母、《时代》百大 AI 影响力人物、福布斯中国·全球华人精英 Top100，

美国国家工程院、国家医学院、艺术与科学院三院院士，

现代人工智能的关键催化剂 ImageNet 创建者，

……

或者我们可以用另一位 AI 领域的重要科学家、图灵奖获得者杰弗里·辛顿（Hinton）的话来介绍，「李飞飞是第一位真正理解大数据力量的计算机视觉研究人员，她的工作打开了深度学习的闸门，推动了人工智能技术的问世。」

基于 WordNet，她诞生了 ImageNet 算法的灵感，然后由此又催生了 Hinton 和 Ilya 的 AlexNet，极大地推动了计算机视觉的识别能力的进步，为机器学习领域过去十年的突飞猛进提供了坚实的基础。

或许可以这么说，「没有 ImageNet，就没有现在的深度学习革命」。

在她新出版的自传《我看见的世界》中，李飞飞详细讲述了如何从底层移民逐步成长为顶尖科学家的坎坷经历，我们从中节选了从 ImageNet 到 AlexNet 的这段传奇经历。

本书中文版已上市，由中信出版集团出版，Founder Park 授权摘编。

01 找到北极星：

让 AI 通过理解物体来理解世界

当我在加州理工学院的第二学年即将结束时，我已经阅读了大量文献，参加了许多研讨会和专题会。随着我们的实验结果的发表，我也看到了足够的第一手资料，因而认识到了一个重要的事实：视知觉依赖于分类。我们的大脑会自然而然地将我们所看到的细节归类为更广泛的概念，如物体、人物、地点和事件等。例如，在现实生活中，我们看到的不仅仅是简单的绿色和蓝色的图案，而是会看到在天空映衬下的一棵树。

视觉在更高、更有意义的层面上发挥作用，用知识武装我们的头脑——我们可以想象树叶随微风摇曳的样子或夹在指间的感觉，我们也可以立刻估计出一根树枝的质地和重量，这两者都与高悬在数英里高空的不可触摸的大气层和彩色光线截然不同。

分类的能力赋予了我们难以估量的力量。视觉没有把我们埋没在光线、颜色和形状的无数细节中，而是把我们的世界变成了可以用语言描述的离散概念。有用的观念像地图一样排列在我们周围，把复杂的现实简化成我们可以一望便知、在瞬间做出反应的世界。我们的远古祖先就是这样在纯粹的混沌环境中生存下来的，世世代代的艺术家们就是这样从日常生活中提炼出美感和精华的，即使在今天，我们也是这样在这个日益复杂的世界中找到自己的方向的。

我们的视觉系统就像是某个神秘巨人以极大的耐心精雕细琢出的发条装置，而我们的研究工作像是其逆向工程。虽然发条装置的小齿轮在我们面前嘀嗒作响，但其神秘面纱仍然未被揭开，距离完全理解视觉原理还有很长一段路要走，但我们已经窥得一些非凡的东西。生物进化是宇宙中唯一能够从零开始创造真正智能的力量，我觉得我们正在复原其线路图，或者至少是其中的一些片段。

这也改变了我对自己所从事的计算机视觉领域的看法。虽然计算机视觉领域的灵感创意层出不穷，但它们都分散在各种各样的研究项目中，整个领域缺乏指向同一目标的共同协作，类似于那股千年来耐心地塑造了我们自己思维发展的专注力量。我不禁思考，如果这种情况改变了，如果研究人员能够联合起来，共同理解并重新创造了人类认知的核心理念，世界将会变成什么样子？

我很难想象各方协同可能会带来什么发现。人工智能的未来具有无限的想象空间，但我开始认识到，这并非首要问题。我越来越确信，解开人工智能之谜的理想第一步，就是迎接一个特殊的挑战：通过理解各种物体来理解视觉世界。毕竟，人类就是这样看到世界的。我现在相信，这同样适用于我们的机器。

我找到了属于自己的北极星。

02 单样本学习引入机器：

数据的作用初显

屏幕上出现了一张喷气式飞机的图像，这次算法的任务是在照片上找到飞机。这是连蹒跚学步的儿童都能应对的挑战，但在 2003 年，机器只有在吸收了大量示例材料后才能应对。即便如此，它们成功的概率也很低。

飞机被成功识别出来了。

这是一个激动人心的时刻，但并非因为算法的成功识别，而是因为它的运作方式。以往的算法会首先学习数百张飞机的照片，涵盖尽可能多的颜色、风格、角度和光照条件，但在这次研究中，我们只给算法展示了一张飞机的图片。与此同时，我们还向它展示了数百张完全不相关的图片，包括有斑点的丛林猫、摩托车、人脸，还有一些从谷歌图片上随机下载的图片。我们的假设是，先让算法充分接触视觉世界里丰富繁杂的各类事物，它就更好地具备了学习特定事物的能力。因此，虽然算法被训练识别过各种各样的事物，但它刚刚识别出的那架飞机是它见到过的第二架飞机——自它被设计出来后见到的第二架。

我们将这种技术称为「单样本学习」（one-shot learning）。这种技术与当时主流的图像识别方法背道而驰，但我们是从一个众所周知的能力中获得了启发。作为人类，我们天生就有一种神奇的本领，那就是可以仅凭对陌生事物的一瞥，再次遇到时就能认出来，不管是一样新的乐器、一种我们从未见过的动物，还是一位新当选的政治家。我们可以对这种能力做出多种解释，但其中最简单、最有力的解释是，即使面对全新的事物，无论多么新奇，我们也会借助一生的经验来加以理解。我们所看到的几乎一切都深深地融入了过往的经验——轮廓、光影、纹理和图案等熟悉的细节，以至我们很难想象能真正孤立地看到任何东西。

我们的技术将这一概念引入了机器，而且看起来效果不错。如果说实验结果是一个惊喜，那么我们的论文所受到的欢迎程度则是超乎想象的。这是一次突破性的成功，我们的论文不仅被在法国尼斯举办的国际计算机视觉会议（International Conference on Computer Vision，ICCV）所接受，而且为我们赢得了为数不多的口头报告的机会。

然而，在我的演讲结束后，大家展开了热烈的讨论。我突然意识到一件微妙的事情——我被问到的每个问题都与算法本身有关：你是如何建立贝叶斯方程来估计后验概率的？你是如何估计图像的先验分布的？你提到使用最近提出的变分推理算法来优化模型参数，能详细说说吗？在未来的改进中，你打算如何扩展算法？算法在不同情况下可能会有什么表现？

我们选择的机器学习算法的数学核心是「贝叶斯网络」（Bayesian network），这是一种概率技术。接二连三的问题都是有关这种技术的，但没有一个人问及我们训练算法时所用的数据。数据被公然视为一种惰性商品，只在算法需要时才重要，虽然这种观点并不稀奇，但我开始意识到，有一些重要的东西一直都被低估了。

我们算法的决定性特征是能够从只看过一次的图像中学习新的事物类别，而这一特征对数据的依赖极大。究其根本，是因为我们的算法已经见识到林林总总的各种事物，获得了感知体验，才可以在面对新事物时展现出卓越的识别能力。

事实上，我越想越觉得奇怪。数据具有微妙而神奇的力量，为什么这个话题从未得到任何关注呢？我们的实验材料极少，只不过是从几个随意选择的类别中拿出几百张图片，却获得了意料之外的结果。这不禁让人思考：如果少量数据就可以实现如此强大的能力，那么更多的数据又将带来什么呢？这个问题越想越觉得具有启发性。

如果数据量大得多呢？

03 扩大数据量第一步：

从谷歌扒图片

我越想越觉得我们的研究具有发展潜力——我们正在尝试以数据的形式来复制儿童认知的形成阶段。我想象着孩子玩东西的方式，他们伸出手去抓、戳、摸索、拨弄。他们玩躲猫猫游戏，了解到即使物体被暂时隐藏起来，它们也依然存在。这些都是我们的算法非常缺乏的本能。

「你说得对，但我们还是没有确切的数字。」邓嘉*边想边说，「到目前为止，我们一直在用无穷大乘以无穷大。到底该怎么办呢？」

*从项目成立之初，邓嘉就是李飞飞团队的成员，在 ImageNet 发布后一年左右，他在学界崭露头角，发表了名为《对超过 10000 个图像进行分类能告诉我们什么》的论文，总结了 ImageNet 出现后图像识别领域发生的根本性变化。

我回答道：「我要说的就是这个，再多的图像也不够。不管我们想到一个多大的数字，我们都应该想到它还可以更大，然后还要更大。反正怎么着都是在猜，那就不如往大里猜吧。」

于是我们确定了一个目标，为每个物品类别搜集 1000 张不同的照片：1000 张不同的小提琴照片、1000 张不同的德国牧羊犬照片、1000 张不同的抱枕照片，直到涵盖全部 2.2 万个类别，也就是一共需要大约 2000 万张图片。但即便是这个数字，也只是最终成品数据库的情况。我们可能需要从数亿张照片，甚至 10 亿张照片中筛选，才能达到目标。

「就算我们想办法组织好了图片，」他补充说，「这些图像本身也没有任何作用，对吧？它们需要先标注，才能用于模型训练，而且每一个标签都必须是准确的。」邓嘉暂停了一下，好像才感受到自己说的话有多么重要，「听上去又是一个浩大的工程。」

「按照目前的速度，预计 ImageNet 的完工时间是……」我用力咽了一下口水。他注意到了。

「没错，差不多要 19 年吧。飞飞，我很看好这个项目，真的，只是我不能等那么久才拿到博士学位。」有道理，邓嘉。

我想到邓嘉在加入我的实验室之前，一直在跟李凯研究各种极其复杂的系统，在工作中遵循效率为先的原则，以实现更高的性能、更低的成本、最短的路径。作为世界上最重要的微处理器设计师之一的门徒，他肯定能想到办法提高这些大学生的生产力。

邓嘉实现自动化的第一个环节就是下载。之前下载图片，需要标注员手动在图片搜索引擎输入 WordNet 中的每个类别，现在邓嘉编写了自动化程序。但由于搜索引擎是为人类用户而不是为机器服务的，所以不会直接返回一组图像，而是以滚动缩略图网格的形式呈现在页面上。这时，邓嘉设计的程序就会解析网页的源代码，找到链接，并下载原图。尽管这个解决方案有些混乱，但可以让我们以最快的速度日夜不停地下载候选图片。我们想要下载多久，就可以下载多久，如果需要的话，连续几个月都行。下载的图片会自动整理在我们自己的机器上。

我们的资料库开始像变魔术一般被图片填满。诚然，我们这种广撒网的方式也捞回了很多垃圾，比如低质量的照片、剪贴画等，但也积累了大量高清图片。我们迅速填满了大量硬盘，现实世界的影像逐渐在图片中成形，虽然还很粗糙，却让我们第一次看到了对整个视觉世界的真实描绘。至少有一段时间是这样的。

「糟糕。」我听到邓嘉在实验室的另一边说。

「怎么了？」

「看上去出了点儿小问题。呃……没错，我们被谷歌封禁了。」

「什么？封禁了吗？为什么？」

「显然是他们限制了单个用户在特定时间段内可以提交的请求数量。据我所知，大约在 1000 个左右。」「特定时间段是多久？」

「24 小时。午夜开始重置。这算是个好消息。」「好吧，那我们每天多久会达到请求数量的上限？」

「嗯，这就是坏消息了。」邓嘉拿出日志文件，心算了一下，「大约 9 分钟。」

很快，图片存储库的增长停滞了。但我们的问题不止于此。整个流程的上下游极不平衡，甚至有些可笑。我们搜集的原始图片呈爆炸式增长，在遭到谷歌屏蔽之前，每天都有数以千计的新图片添加进来，但其中只有一小部分得到了准确的标注和整理。虽然我们从一开始就知道标注流程将会是一个瓶颈，但随着时间一周周地过去，这一环节给我们造成的负担还是让我们感到气馁。

我们详细讨论了标注员在识别、分类和标注每张图片时所遵循的每个步骤，并尽可能使用快捷方式和定制工具来对它们进行简化。如果一个流程需要点击三次鼠标，邓嘉会想办法实现只需一次点击。减少打字次数，缩短鼠标移动距离，提高所有操作的速度。在我们交谈的时候，我不禁开始仔细观察桌上的物品，默默猜想它们是否属于我们那 2.2 万个类别。「餐巾」这一条目自然在列，但我们区分布餐巾和纸餐巾了吗？那是一把什么刀？除了「牛排刀」和「黄油刀」，还有多少种刀呢？「切肉刀」，我猜。「面包刀」？也许吧。仔细一想，确实有很多。这些我们都涵盖了吗？我在心里默默记下，打算回到实验室后再确认。

「对了，飞飞，你知道什么是动态 IP 吗？」邓嘉又拿出一个锦囊妙计。

「可以把动态 IP 看作是我们的机器连接谷歌服务器的中间环节。我们的实验室计算机保持不变，但动态 IP 会将我们与不断变化的中间商连接起来，这样谷歌就会认为那些搜索请求来自不同的用户。」

「这样我们就不会超过限额了？」

「远远不会。」

我们重整旗鼓，至少在一定程度上恢复了工作。标注依然是个问题，但看到备选的图库规模持续增加，我还是长舒了一口气。现在，就算是小小的胜利也值得庆祝。

奋斗继续，每走一步都是为了应对新的难题。我们发现特定类别的搜索结果过于相似，无法满足我们多样性的目标。于是，我们使用 WordNet 的国际翻译来提交不同语言的查询，希望来自世界各地的图像能够带来更大的差异。当找不到足够的图片时，我们就会在搜索词中添加相关术语，比如，不是搜索「柯基」，而是搜索「柯基小狗」或「柯基犬公园」。后来，搜索引擎巧妙地重新设计了搜索结果页面的布局，改变了每个图片链接的位置，导致邓嘉的一个自动下载程序无法继续使用，于是我们重新编写了与之匹配的程序，并开始定期检查是否发生了类似变化。

对一年前还在设计微处理器架构的邓嘉来说，这些都是非常平淡无奇的工程挑战。尽管如此，我们两个都知道努力是有意义的。它们可能只是权宜之计，过于简单，甚至粗糙，但每解决一个问题，我们都离自己的愿景更近一步，这个愿景就是让机器看到一个完整的世界；我希望在不久之后，机器甚至可以理解这个世界。

在 MAKERSConference2018 大会上，李飞飞发表关于 AI 与需要更多多样性的讲话

04 全球众包，

解决了 ImageNet 的数据标注问题

做 ImageNet 已有一年时间，我感觉我们已经步入正轨。有了标注团队的工作，还有邓嘉在不断努力优化标注流程，我确信我们已经有所突破。我很好奇进展如何，而邓嘉知道我的想法（他经常能知道我在想什么）。

「你在想我们多久能完成 ImageNet？我已经重新预估时间了。

「好的，如果我们把所有因素都考虑在内：我们所有的优化和快捷方式，再加上已经标注的图片，我们已经设法将 19 年的预计时间缩短到……」

我突然失去了勇气，因为我预感结果会很糟糕。「……大约 18 年。」

绝望激发了一种巴洛克式的创造力——当处境之惨淡变得越来越难以忽视时，我们想出了各种各样的点子，确实显得有些慌不择路。我们甚至想用机器来辅助我们的人工标注员。当然，这里涉及一些循环论证：如果算法能够足够准确地识别物体、帮助我们进行标注，那么我们压根儿就不需要 ImageNet 了。然而，我们也想知道如果让机器扮演辅助角色，是否会带来一些便利。例如，我们可以让机器利用我和彼得罗开发的单样本学习技术，粗略但快速地标注大量图像，这样人工团队就可以更多地扮演编辑或校对的角色。这样做虽然有一定的道理（道理不多，且有待商榷），但我们始终未能找到合适的平衡点。

更重要的是，反对标签过程自动化的真正原因并不是在技术层面，而是在哲学层面。我们意识到，即使是微妙的算法捷径，也与 ImageNet 的使命背道而驰。我们的目标是在每幅图像中都嵌入纯粹的人类感知，希望在整个图像集上训练出来的计算机视觉模型也能迸发出类似人类的智慧火花。使用机器可能会削弱这一点。

如果人力是瓶颈，而我们又无法再继续减少人工参与，那么我们剩下的唯一选择似乎就是蛮干：扩大我们的标注员团队，把预计完成时间从近 20 年缩至更短的期限。也许只需要增加 10 倍的人手——考虑到已经完成的工作，这样可能在一年半内就能达到目标。然而，我们的资金根本就不够。

我几乎可以看到我的北极星在逐渐暗淡下来，我的道路又陷入了黑暗之中。一个可怕的想法开始在我心头升起：我承担的风险比我意识到的更大，而现在回头已经为时太晚。

「打扰一下，飞飞。」我正在赶去教职工会议的路上，马上就要迟到了，一个叫孙民的研究生突然出现在我面前。

「昨天我跟邓嘉在一起，」他继续说，「他跟我说了你们在项目标注问题上遇到的麻烦。我有一个你俩还没试过的办法，真的可以帮你们提高速度。」「你听说过众包吗？」

他解释说，在线平台可以将任务分配和结果收集过程自动化，有效组织远程的临时工作团队，规模小到个人，大到数百万人的团队。「如果你感兴趣的话，亚马逊就在提供这种服务，叫作『土耳其机器人』。」

这个名字很妙，源于 18 世纪的一种会下国际象棋的自动机器「土耳其机器人」。当时，这个机器人在世界各地巡回展出，被视为一个工程奇迹。它棋艺高超，就连国际象棋高手也甘拜下风。但实际上这个装置纯属骗局：在机器人底座里就藏着一个人类国际象棋大师，正是这个人在操控机器，让观众既兴奋又困惑。

几个世纪后，新兴的众包实践基于同样的理念：真正的智能自动化仍然最适合由人类来完成。亚马逊土耳其机器人（Amazon Mechanical Turk，AMT）围绕这个概念建立了一个市场，「请求者」可以发布「人类智能任务」，由贡献者完成，这些贡献者被称为「土耳其人」（Turker），他们可能来自世界上的任何地方。从理论上讲，这个模式很合理，似乎可以提供我们想要的一切：既有人工标注图片带来的智慧成分，又有与自动化相当的速度与规模。有趣的是，亚马逊称之为「人工人工智能」，这个名字相当贴切。

我的北极星开始重新闪耀，我不禁再次感叹时机的重要性。ImageNet 之所以能够存在，要归功于互联网、数码相机和搜索引擎等众多技术的融合。现在，一个一年前还几乎不存在的平台提供的众包服务，成为让我们的项目臻于圆满的关键因素。这件事就是最好的例证，它让我深刻了解到，任何一个科学家的默认立场都应该是绝对谦卑，他们应该明白，没有哪个个体的智慧能有意外之力的一半强大。

亚马逊土耳其机器人改变了一切。它把我们起初的大学生标注员队伍变成了一个由数十人、数百人、数千人组成的国际团队。随着我们获得的支持不断扩大，邓嘉给出的预计完成时间急剧缩短，先是 15 年，然后是 10 年、5 年、2 年，最后不到 1 年。这为我们提供了全新的视角来看待预算，彻底颠覆了 ImageNet 的成本效益。曾几何时，我们的预算只能招到几个标注员，连一个房间都站不满，而现在足以聘请一支遍布全球并通过互联网连接的众包团队。

2009 年 6 月，ImageNet 的初始版本终于完成了，这在很大程度上得益于斯坦福大学提供的新研究资金。尽管我们一路上遇到了许多挑战，但我们最终成功达成了目标：收集了 1500 万张图片，涵盖了 2.2 万个不同类别。这些图片筛选自近 10 亿张候选图片，并由来自 167 个国家的 4.8 万多名全球贡献者进行了标注。ImageNet 不仅在规模和多样性上达到了我们多年来梦寐以求的水平，还保持了一致的精确度：每张图片都经过了手工标注，并在层次结构中进行了组织，经过了三重验证。

从数量上看，我们已经实现了既定目标，建立起了当时人工智能史上最大的人工编辑数据集。但在这些数字之外，最让我感动的成就是我们所构建的真实世界本体。这个本体是人类从零开始策划的，既包含视觉图像，又能传达逻辑概念，其唯一的目的就是教导机器。

有一次，我们利用 ImageNet 快速训练了数百个图像分类算法的实例，让它们识别一组日常事物，然后将所有实例应用在一张照片上。实验目的并不是简单地检测单个物体的存在，而是通过寻找物体组合来诠释整个场景。例如，如果检测算法发现了一个人、一艘船、一只桨和一片水域，它就会将照片作为一个整体归类为「划船」。这是一种更深层次的理解，可以说接近于原始的视觉推理。就像我们那个时代的许多实验一样，我们使用的算法准确性很不稳定，还有很大的改善空间。毕竟，就连简单的图像识别也仍处于起步阶段。但困难只会进一步激发我们的冒险精神。我们的研究大胆且具有前瞻性，虽然并不完备，但能引发思考，其中很多在概念上也很简单。但直到 ImageNet 出现，一切才变得切实可行起来。

05 大赛冠军诞生：

Ilya 和 Hinton 的 AlexNet

「你知道我最喜欢 Caltech101 哪一点吗?」亚历克斯*的话把我拉回了现实，「除了里面的训练数据，它还让我有机会用完全相同的图像，把我的研究结果和你的进行比较，做同类对比。」

*亚历克斯·伯格，纽约州立大学石溪分校的助理教授，在博士论文中使用了 Caltech 101，对数据集的价值非常认同，也成为 ImageNet 为数不多的支持者之一。

「相当于一个基准。」我回答道。

「没错，这样就很容易衡量进展。还有什么比这更能激励研究人员呢? 就像是发起了一个挑战，就像打赌一样。」

就像打赌一样，我喜欢这个说法。

「那么……如果我们用 ImageNet 做同样的事呢?」我问道，边思考边说，「或者，干脆我们就用 ImageNet 搞一个完整的竞赛怎么样?」

「你是说像 PASCAL 那样的吗?」PASCAL 视觉对象类别数据集 (通常称为 PASCALVOC) 是一个欧洲研究团队汇编的数据集，包含大约 1 万张图片，分为 20 个类别。PASCALVOC 与 Caltech101 类似，但有一个重要区别:PASCALVOC 是年度计算机视觉大赛的基础数据集。该大赛始于 2005 年，每年都有来自世界各地的参赛者提交经过 PASCALVOC 训练的算法，然后用这些算法去识别一组以前没有见过的新图片，最后根据分类的准确度对算法进行排名，错误率最低的即为获胜算法。比赛既具有协作性，又具有竞争性，吸引了各方对计算机视觉领域最新进展的关注。而参赛者所使用的数据集仅有 ImageNet 的千分之一大小。

「那就有意思了。」亚历克斯回答道，「我都可以想象研究人员在互相交流新想法的时候问:『它在 ImageNet 上的表现怎么样?』」

这样一来，ImageNet 也成了计算机视觉领域的北极星了，我想。

如果邓嘉论文的核心思想是正确的，如果 ImageNet 真的会引起一场大洗牌，带来新的规则、新的直觉，甚至全新的范式，那么还有什么比通过比赛来探索这个数据集更好的方式呢? 激烈的竞争压力可以激发合作的集体力量。比赛要遵循一定的规则，但又要有探索性。即使经过多年的努力创建了 ImageNet，仅仅是想像着把它做成比赛，也为它注入了新的生机。

这也意味着将 ImageNet 推向世界的工作尚未结束。

然而，现实却与我们的期望背道而驰。

（2010 年首届比赛）获胜算法来自一个由 NEC 实验室、罗格斯大学和伊利诺伊大学的研究人员组成的联合团队。这个参赛算法的表现确实可圈可点，我们对每位参赛者的努力表示赞赏。不过，与计算机视觉领域其他方面的前沿工作相比，这些算法只能算略有改进，很难说开启了新的时代。

在 ImageNet 的发展历程中，有很多令人泄气的时刻，这次就是其中之一。如果说 2010 年的比赛虎头蛇尾的话，那么 2011 年的比赛则给人一种末日之感。2011 年的获胜算法来自法国施乐研究中心，也是一种支持向量机算法，识别表现虽然比前一年有所提高，但也只是将准确率提高了 2 个百分点左右。

我开始意识到自己可能误判了。正如我猜测的那样，大多数算法都难以应对 ImageNet，但支持向量机比我想象的要强大，它为参赛者提供了安全的避风港，阻碍了我梦寐以求的激进创新。连续两年，司空见惯的算法都只是在能力上略有提升，几乎没有任何真正的进步。最糟糕的是，参赛人数也出现急剧下降:第二年的报名人数从 150 人减少到 96 人，参赛算法也从 35 个减少到 15 个。愿意为此付出努力的人似乎越来越少，也许这并不奇怪。

说这种经历「让人羞愧」已经远远不足以描述我们的心情了。为了推动 ImageNet 的发展，我们倾注了多年的心血，搜集的图片数量远远超过以往的任何数据集，还精心策划了一场国际竞赛来探索它的能力，但结果却只是简单地重复了现状。如果说 ImageNet 是一场赌注，是时候开始思考我们是不是已经输了。

2012 年 8 月，让我夜不能寐的事情终于不再是 ImageNet 了——我们的孩子出生了，我的生活主题变成了哺乳、换尿布和永远不够的断断续续的睡眠。

这一年，ImageNet 挑战赛的结果将在意大利佛罗伦萨宣布，因为孩子的原因，我本不打算亲自去参加，但有一天，邓嘉深夜打来电话。这个时间点很不寻常，我的第一反应是出了什么事。

「喂?」听得出他很激动，但感觉不像是痛苦，而更像是兴奋，准确地说，

是迷茫而兴奋。因为邓嘉一向淡定，所以他的语气让我格外留意。「是这样的……我们一直在评估今年的参赛作品，其中的一个算法是……我的意思是……」

他迟疑了一下。

「怎么了? 是什么?」我问道。「好吧。获胜的团队使用了非正统的算法，是一种神经网络算法。

你敢相信吗?」我的耳朵竖得更直了。如果说刚才我的注意力还没有完全集中在他的身上，那么现在我肯定百分之百地在听他说话了。「感觉像是……老古董。」

「真的吗? 是神经网络算法?」「是的，但还不止这些。飞飞，你不会相信算法的表现有多好。」

我一直在思考这次的获胜算法。它的识别准确率高达 85%，比上一年的冠军高出 10 个百分点，创造了计算机视觉领域的世界纪录。可以用一个数据来说明这个准确率的意义:我所看到的研究表明，人类的平均识别准确率约为 97%，而这还是对简单得多的二元选择而言 (比如判断一张照片上是否有动物)。相比之下，算法需要筛选上千个选项才能找到正确答案。因此，虽然这个算法还没有达到人类的水平，但已经比其他任何算法都更加接近，而且差距已经小到惊人。

冠军算法名为 AlexNet，是向这项技术和项目的主要作者、多伦多大学研究员亚历克斯·克里热夫斯基 (Alex Krizhevsky 致敬。

AlexNet 是卷积神经网络 (Convolutional Neural Network，CNN) 的一个实例。卷积神经网络的叫法源于图形卷积过程。在这个过程中，一系列滤波器在图像上扫过，寻找与网络所识别事物相对应的特征。这是一种独特的有机设计，灵感来自休伯尔和威塞尔对哺乳动物视觉系统的观察，即视觉处理在多个层次上进行。就像在自然界中一样，卷积神经网络的每一层都会逐渐整合更多的细节信息，从而形成越来越高层次的感知，最终将真实世界的物体完整地呈现在我们的视野中。

当然，这些并不是什么新的创意。自从贝尔实验室成功将卷积神经网络应用于手写邮编，杨立昆多年来一直对卷积神经网络保持着惊人的忠诚。在 AlexNet 诞生时，他已经花了 20 年时间坚持不懈地完善算法、发表研究成果，但一直没有必要的资源来充分实现这些成果。现在，几乎在一夜之间，这种常被视为误入歧途的执着似乎变得极具先见之明。杨立昆把自己的卷积神经网络算法巧妙地命名为 LeNet（呼应他的英文名 Yann Le Cun)，其指导理念在 AlexNet 中熠熠生辉，宛如重生般焕发生机。

这种联系让 AlexNet 背后的三人团队备受瞩目。他们都是多伦多大学的研究人员，负责人是与项目同名的亚历克斯·克里热夫斯基，以及他的合作伙伴伊利亚·苏茨克维(Ilya Sutskever)。这两个聪明的年轻人资历尚浅，仍在建立自己的声誉。然而，第三个名字立刻引起了我的注意：杰弗里·辛顿。

Ilya Sutskever（OpenAI 联合创始人、前首席科学家）与 Alex Krizhevsky 和 Geoffrey Hinton

就是这位辛顿，在 20 世纪 80 年代中期开发了反向传播技术，成为早期机器学习的先驱。反向传播的突破性方法首次实现了对大型神经网络的可靠训练。就是这位辛顿，曾经指导过彼时还是他实验室学生的杨立昆。和他的学生一样，辛顿拒绝放弃对神经网络的研究，即使这让他在同事中显得形单影只。看来，AlexNet 绝不仅仅是一个参赛算法。这是一个历经四分之一个世纪的正名时刻。

事实上，在 ImageNet 的帮助下，AlexNet 焕发生机，它贪婪地吸收着 ImageNet 的内容，在 ImageNet 规模和多样性的土壤中生根发芽，茁壮成长。一直以来，神经网络并不需要更花哨的数学公式和更奇特的抽象概念。我们期待神经网络能够理解世界，而它们只是在等待我们提供更加清晰的图景，等待一些真正有学习价值的东西。大数据训练了 LeNet 去理解复杂的人类笔迹，现在它也在训练 AlexNet 去理解万物。

后来我才知道，在 2012 年之前的几年里，辛顿重拾激情，想要证明神经网络的可行性。2011 年，他认为自己比以往任何时候都更接近转折点，于是开始以一种既对抗又合作的方式与同事沟通，他的表达方式听起来更像是提出挑战，而不是提出问题。他跟同行探讨下一步行动计划，其中一个同行就是吉滕德拉。虽然他们两人早有交情，但吉滕德拉一直对辛顿的项目持怀疑态度。

「我要怎么做，才能让你相信神经网络是未来的趋势?」辛顿问道。

「你真的想打动我吗，杰弗里? 那就让我看看它们能不能处理一些真正的任务。」

「比如?」

「比如物体识别，真实世界中的物体识别。」无论吉滕德拉对 ImageNet 有什么看法，他的确相信视觉分类的力量，这一点我在加州理工学院时就了解到了，「你参加过 PASCALVOC 吗?」

「参加了啊。但没什么用，他们的数据集太小了，例子不够，所以我们给神经网络展示新图片的时候，泛化效果并不好。」

「那你就需要更大的数据集。你关注过飞飞的实验室吗? 等你准备好迎接真正挑战的时候，可以看看她组织的比赛。」

不管吉滕德拉是真的对我的项目改变了看法，还是只是想打老朋友的脸 (这两种情况似乎都有可能)，辛顿都认真地听取了建议。

ImageNet 的数据广泛而全面，覆盖了世界上绝大多数物体。现在看来，AlexNet 和 ImageNet 也属于相互成就。简而言之，这就是最大的不同——现在算法可以探索的数据范围大大增加了。一想到训练完成后 AlexNet 的层级中包含的内容，我就惊叹不已：形状、边缘、图案、纹理，涵盖我们多年来从互联网上捕捉到的所有人物、动物和物体。现实世界中幽灵般的碎片，以恰到好处的方式组织起来，供算法来查看。

06 AlexNet 实现了

计算机视觉领域的新跨越

第二天一早，消息就传开了。据传，会上将宣布一个具有历史意义的事件。这些含糊不清的传言激起了与会者的好奇心。

从研讨会开始的那一刻起，现场的气氛就异常紧张，人群分成了三派。第一派是 ImageNet 的少数支持者。第二派占绝大多数，由中立但感兴趣的观察者组成。第三派虽然人数不多，但态度强硬，也最直言不讳。他们是那些从早期就反对 ImageNet 理念的批评者，虽然我通常不理会他们的态度，但在会议现场很难忽视他们的存在。

更糟糕的是，我们并没有形成统一战线。辛顿无法亲自参会，因为他长期患有背部疾病，几乎不可能进行国际旅行，所以他派了亚历克斯·克里热夫斯基代他出席。亚历克斯非常有才华，也是算法的主要作者，所以可以代替辛顿。但就像许多杰出的人一样，他的个人表现与他工作成果的高度并不相符——我不确定他是否完全理解这一点。他的表现笨拙而轻率 (这在学术界并不罕见)。一个典型的例子是，我在研讨会开始前多次给他发短信确认会面时间，但他完全没有回应 (但幸好，他按时到了现场)。由于听众的怀疑态度空前高涨，他只摆事实、不带情感的演讲更难赢得他们的认同。

提问环节一开始，现场的紧张气氛就越来越浓。我们听到了所有常见的抱怨：ImageNet 太大了，不实用；没有必要包含这么多类别；物体识别模型还太原始，不需要如此庞大的数据集；等等。事实上，AlexNet 几乎是逐点证明了相反的观点，但奇怪的是，观众却不信服。同时，也出现了一些新的批评声音，有些甚至非常离谱。一位与会者（来自顶尖大学的后起之秀）煞有介事地提出，描绘 T 恤的图片类别多样性不够，因而无法可靠地训练模型。对此我更多的是感到好笑。是认真的吗？T 恤图片是致命弱点？会议现场的其他人也都一头雾水。

但那些认真倾听的人得到了回报。在 27 张幻灯片中，大多数只有黑白文字和图表，却以我们从未见过的清晰方式展示了神经网络的本质，极具启示性。继罗森布拉特的感知机、福岛的新认知机和杨立昆的 LeNet 之后，AlexNet 实现了计算机视觉领域的新跨越。这一步早就应该迈出，却历经了数十年的酝酿，现在终于横空出世，利用大型数据集充分彰显了潜力。

尤其值得注意的是 AlexNet 的学习过程。

与所有神经网络一样，AlexNet 的初始状态是无形的、惰性的，就像虚空中的一块挂毯。然后，学习过程就开始了：面对从 ImageNet 库中随机选择的图片，神经网络的任务是从上千个标签中选择一个正确的标签，对图片进行标注。这个过程周而复始，不断重复。

一开始，标注几乎是不可能完成的任务；AlexNet 的数千万个神经元是随机配置的，对世界甚至连一点儿模糊的理解都没有，只会产生错误的结果。把一张蘑菇图片标注为「瓶盖」。错误。把一张拖车图片标注为「电吉他」。错误。把一张棱皮龟图片标注为「浴巾」。错误。

但失败并非无用功。错误会触发纠正信号，在网络的数千万个组成部分中蔓延开来，同时对每个部分对于结果的贡献进行评估，并按比例推动它们下次采取不同的行动。这是最简单的学习方式：减少失败的行为，增加成功的行为。但学习的规模极大，算法会仔细审查每个错误的每个细节：每一片光影、每一个图案和纹理、每一个柔和的渐变和坚硬的边缘。

在早期阶段，效果并不明显，当 AlexNet 再次看到类似它之前错误分类的图片时，很可能会再次出错。不过，错误会更小一些。如此循环往复，直到正确为止，哪怕只是靠运气。这一次，信号的目的是强化，而不是削弱：强化任何看似指向正确方向的东西。训练继续进行。错误。错误。错误。正确。错误。错误。正确。正确。错误。

ImageNet 规模巨大，算法学习也注定是个漫长的过程，即使只是为比赛挑选的 1000 个类别的子集，完成学习也需要很长时间。ImageNet 涵盖了各种各样的对象，比如数字钟、篱笆、盘式制动器、秒表、意大利灰狗、微波炉、醋栗，每个类别都有上千个不同的品种。不过，AlexNet 本身也是个庞大的网络。它有 65 万个独立神经元，通过 6.3 亿个连接组成网络，其中有 6000 万个微小的、几乎无法察觉的权重影响着连接的强度，当信号从网络的一端流向另一端时，一些连接会增强，另一些则会减弱。

训练从早到晚不停地进行，直到每幅图像的每个像素都被研究完毕。几个小时变成几天，几天又变成一周。图形处理器推动之。ImageNet 挑战之。AlexNet 适应之。随着数以千万计的权重一次又一次地调整，整个网络出现了更庞大、更奢侈的结构。就像铁匠用锤子敲打发光的钢铁。每次微小的增量积累，直到近乎肉眼不可见的扰动变成山脉和山谷，延伸到数千维的超空间。这个网络是世界无数细节的幽灵般的均值，是 1000 种不同事物、每种事物 1000 幅不同照片留下的痕迹。这里有 1000 只达尔马提亚犬，那里有 1000 个洗衣篮，另一处有 1000 个马林巴琴。

就像地质变化一样，种种印记凝聚成了地形，从 AlexNet 的一端延伸到另一端。削笔刀、清真寺、海星、曲棍球——所有事物都镶嵌在这个地形之中。算法不仅「看到」了这些东西，还成为它们。我们花了数年时间在互联网上搜寻照片，这些照片形成了完整多元的机器意识空间，原始而强大，成为世界一切事物的统一表征。

在经过 140 万轮标注后，最后几张图片与其说是一场磨炼，不如说是一场加冕礼。网络的焦点穿过像素，随着熟悉模式的识别而亮起，并传递到下一层，与其他模式相结合，形成越来越强大的感知。算法的反应不再是随机的，大多数也不再是错误的。土狼。正确。台灯。正确。敞篷车。正确。显然，这是硬件、软件和数据的神奇组合，比计算机视觉领域所打造的任何成果都更接近于捕捉到塑造了人类这种哺乳动物思维的进化精神。

ImageNet 的多样性是在全世界众包志愿者的共同努力下实现的。它所形成的拓扑结构无比多样、强大，达到了圣杯的境地。AlexNet 是计算机视觉领域有史以来最大的神经网络，它的训练数据比此前任何神经网络都要丰富，而且具备了泛化能力。

ImageNet 与神经网络算法、GPU 共同开创了现代人工智能时代，图片来源：李飞飞推特

我们要花上几个月的时间，才能真正理解在那个会议室里看到的一切，但即使在那一刻，我们也清楚地知道我们正在见证非凡之物。这么多年来，我一直希望 ImageNet 能够推动新事物的诞生，现在我终于明白，一切的一切，都是为了认可和表彰一种永恒的成就，我们对此刻期待已久。受生物学启发的算法几十年来一直凝视着我们，它只是需要适当的挑战，才能充分展现出来。

这个下午也让我们有机会回顾计算机视觉领域在过去 10 年的发展历程。我的实验室将所有赌注都押在了长达数年的、规模空前的数据追寻上，而辛顿的实验室则将他们的声誉都押在了卷积神经网络这套几乎已经被专业领域抛弃的算法上。我们都在赌，都有可能赌错。但在那一天，当我们看到神经网络在 ImageNet 强大训练能力的支持下展现出的惊人能力时，我意识到，虽然两个项目都获得了认可，但这只是因为它们是同步发展的。所有参与者都不知道，我们的每一步都相互依赖。

我在来时飞机上狂躁的思绪和焦灼的问题一扫而空，取而代之的是一种意外的感觉。不是平静，而是大悟，是沉思。这一次，从起飞到着陆，我一直静静地坐着，脑子里只回荡着一个念头：历史刚被创造出来，而世界上只有少数人知道。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业