我要投稿

Ilya Sutskever演讲：大语言模型的核心理念、大脑意识、自我

发布日期：2024-10-01 10:14:37 浏览次数： 2370 作者：Dance with GenAI

今天，我们非常荣幸地邀请到伊利亚·楚斯科夫（Ilya Sutskever）来到 ETL。伊利亚是 OpenAI 的游戏角色设计师和首席科学家，OpenAI 的目标是为全人类的利益构建通用人工智能。埃隆·马斯克等人都曾提到，伊利亚是大语言模型生成GPT-3以及其公开产品 ChatGPT 的核心技术思想背后的基石。ChatGPT 的几次产品发布创造了前所未有的兴奋、好奇和恐惧，尤其是在 2022 年 11 月首次发布后。伊利亚是另一个以色列和俄罗斯带来非凡天才的例子。伊利亚出生于俄罗斯，在五岁时移民到以色列并是在那里长大的。他在以色列读了一半本科，之后转学去了多伦多大学，获得了数学学士学位。接下来，他在多伦多大学获得计算机科学的硕士和博士学位，并在斯坦福“农场”短暂与安德鲁·杨·安德森合作后回到多伦多，在他的导师杰弗里·辛特的研究公司 DNN Research 工作。谷歌随后在 2013 年收购了 DNN Research，伊利亚成为 Google Brain 的研究科学家，2015 年他离开谷歌成为刚刚成立的 OpenAI 的总监。

自去年 11 月以来，ChatGPT 对世界的影响是前所未有的。尽管 ChatGPT 的发布似乎突然间颠覆了世界，但事实上，它背后有着深厚的创新背景。正如伊利亚·楚斯科夫曾在这样深刻的创新和人工智能方面体现的那样。杰弗里·辛特曾说过，伊利亚是 AlexNet 项目的主要推动力，AlexNet 项目发表于 2012 年，它被认为引发了一场深度学习革命，这一革命最终导致了我们现在所处的这一刻。当然，ChatGPT 终于在 OpenAI 成立后的 7 年后于 2022 年 11 月被释放到公众视野中。

伊利亚在 2022 年被选为皇家学会院士。他曾在 2015 年被评为《麻省理工科技评论》35岁以下达人的其中之一。他在 2014 年获得了多伦多大学的创新者之年称号，并在 2010 年至 2012 年间获得了谷歌研究生奖学金。

因此，各位，让我们一起给予伊利亚热烈的掌声，并欢迎他来到企业思想领袖研讨会。所以伊利亚，大家一起鼓掌欢迎，而只要你有空，你随时都会被邀请重回斯坦福“农场”。所以伊利亚，我们有很多可以讨论的内容。我知道我接下来会提问，因为我们观众的涉猎范围较广，涉及 ChatGPT 和大型语言模型。我想开始一个问题，关于技术的问题，也就是 OpenAI 以及更广泛的生成人工智能的基础技术是大型语言模型。你能用简单的话来描述这项技术吗？而现在你在最前沿的科技，你能分享一下有哪些你没想到的成就超出你的预期吗？

当然，我可以解释这项技术和它为什么有效。我认为这两点简而言之都能很好地解释这种技术为什么有效。

你知道我们的大脑是世界上最智能的事物。我们知道，大脑由大量的神经元组成，非常多。神经科学家多年来一直在研究神经元的工作原理，但目前对其运作方式仍存在很多未知。然而，早在 40 年代，最早的深度学习研究者的初步假定是，我们的仿真神经元与生物神经元非常相似，如果我们把眼睛眯起来看，就可以接受这个假设。我们可以将这种假设付诸实践。这些仿真神经元的优点之一是，它们相对简单，我们可以用数学方法来研究它们。

在仿真神经网络领域一个非常重要的突破是在被称为深度学习之前就存在的，即反向传播算法的发现。反向传播算法描述了这些仿真神经网络学习过程的数学表达式。通过这个算法，我们能够将大型计算机中的神经网络以代码形式实现，从而制定出一个公式告诉这个神经网络如何通过调整连接来从中学习。

在这些进一步的进展过程中，我们还必须了解这种学习过程有多好，以及在什么条件下这种学习过程能运行。尽管这在计算机科学中有点像一种实验科学，有一点像生物学，我们有一项类似于生物实验的东西。因此，深度学习的基本进展基本上归结为我们在大型计算机上构建这些神经网络，并训练它们在某些数据上。我们训练这些大型神经网络去做数据要求它们做的事情。

现在，大型语言模型的想法是，如果你拥有一个非常大的神经网络，甚或近似如此，经过训练后能够从一系列单词中猜测下一个单词，这就是大型语言模型的核心概念。你训练一个大型神经网络去从文本中一系列先前的单词中猜测下一个单词，并且希望它尽可能准确地猜测出这个下一个单词。这里的关键是，我们需要回到最初的一个假设，即生物神经元或许并不像仿真神经元那么不同。所以如果你拥有一个能很好地猜测下一个单词的大型神经网络，你可能会发现它和人们说话时的行为不太不一样。这就是我们得到的结果。因此，当你与一个神经网络交流时，由于它有如此准确的后续词汇的理解能力，它可以正确地缩小可能性范围，即使它无法预知未来，但也能根据其理解准确预测出下一步的词汇，这是将理解的概念操作化的方式。

神经网络要理解意味着什么很难给出一个明确的答案，但衡量和优化其预测下一个词的错误是非常简单的。所以我们希望理解，但我们可以优化预测，这就是我们做到的，这正是我们能够获得当前大型语言模型的方式。

这些大型的神经网络是通过使用一个非常强大的反向传播算法来训练的，如果你允许自己设想一个仿真的神经元并不像生物神经元那么不同，那么，就像我们的大脑一样，它们其实能很好地完成猜测下一个词的任务，如果你非常专注的话。因此，如果我热爱编程，我只想把这个类比再进一步推演。从生物学大脑到这些神经仿真的物理网络，数字网络，如果人类从前被认为是无法学习的，那么现在它已经是理所当然的可以学习或预测未来的成果。如果我们从学习来看，你会发现人类是什么水平，而ChatGPT又是什么水平呢？毕竟从数据角度来看，人们比我们的人工神经网络能够从更少的数据中学习更多。

所以，换个角度，大型神经网络在处理任务时可能还是有点慢，但它们也在变得更快。总体上，它们仍然与人类有显著不同。

人们的学习方式与这些神经网络的学习方式有很大的不同。例如，这些神经网络对数学或编程是非常擅长的，但它们要学好类似微积分这样的知识，可能需要阅读大量的书籍，而人只需要少量的书籍和一些练习，就能做得很好。所以，要对此有个大致的概念，如果我们放松数据限制，让机器随便消耗数据，你认为它的表现大致如何？它现在是否达到了我们人类的1/10的表现？还是说我们对此很难下结论。

让我告诉你，为什么我犹豫不回答这些具体比例性的问题，我认为这样的比例会有误导。我来解释一下原因，因为当下的任何一个这样的神经网络，在知识的广度和所掌握的许多技能方面都是超乎常人的。比如，它们非常善于写诗，可以很好地讨论任何主题，可以谈论历史事件和其他多种多方面的话题。另一方面，人类可以深入研究，也确实会深入钻研。所以你可能会有某个专家，尽管他只阅读了少量的文档，但他理解非常深刻。

由于这种差异，我不愿意给出一个像0 或者1这样的数字来回答那个问题，但你认为机器超越人类在学习和适应的速度上会有这么一个奇点时刻吗？你会认为那会是何时呢？我不知道，我不知道会在什么时候发生。我估计还需要一些额外的进展，但我绝对不赌机器不会在某个时点上超越人类。你能给我一个大概的时间范围吗？当然，问题是的不确定性相当高，因为这些进展可能需要耗费很长时间。

我认为它可能需要令人失望地长一段时间，或者有些年了。但我真的很难给出一个准确的答案。我知道还有很多推动力在前进，所以我最后再问一个关于其他问题的问题。

但我知道我在阅读伊利亚童年的经历时，他小时候对意识的概念感到困扰。我不确定他是如何描述这个词汇的，但我很好奇，你如何看待意识、知觉或自我主权？你认为这是必然会发生的事情吗？

当然，关于意识的问题，我在小时候会盯着我的手，思考它是如何出现的。这种感觉很复杂。如何定义意识？它长期以来都无法被定义。

那怎么在系统中测试它？也许有一个系统表现完美，就像一个有意识的系统应该那样表现，但可能未必知道它是不是真的有意识。我认为确实有一种简单的方法可以测试人工智能系统。我们目前还不能运行这个实验，但它可能是当 AI 能够非常快速地从少量数据中学习时可以在将来运行的实验。我们可以精心设计数据，不让其中包含任何关于意识的描述，我们只说“这是一个球”、“这是一座城堡”，以及一些你想象中的小玩具。

假设我们有这样经过控制的数据，可能积累多年这样的训练数据。也许这个 AI 系统会与很多不同的老师互动，向他们学习。但无论如何，我们要非常小心，不要提到意识。不要讨论任何人，除了最基本的经验层面。

然后到了某个点，我们会坐下来与这个 AI 对话，我想要告诉你关于‘意识’的事。这是一种不太清楚的概念，人们对其有争论，但这是他们描述它的方式。设想这个 AI 然后说：“好吧，我感觉到了同样的东西，但我不知道怎么表达它。”这将是一个非常有意思的例子。如果 AI 只是基于非常基本的物体验数据进行训练，没有提及任何概念，我们还是能用这种方式表达它，并让我们相信这是令人信服的。

你认为这种意识是程度性的，还是更具二元性的？我认为它是程度性的。我认为，例如，如果一个人非常疲劳，几乎醉了，那么在他那种状态下，也许他的意识已经有所减小。我想象动物的意识可能也有所降低。如果我们从大型灵长类动物开始，例如狗、猫，最后是老鼠，甚至更小的昆虫，可以说这是一个连续的过程。

好了，即使我能继续问更多关于技术的问题，但我更想转向讨论 OpenAI 的使命，以及你对伦理的的看法，作为首席科学家，你认为伦理在你的角色中扮演什么作用？

于是让我从几个基础点开始，然后请你谈谈，OpenAI 的使命是为了确保通用人工智能能够为全人类带来益处。它最初是一个非营利组织并开源，现在是一个营利组织并封闭源代码，且与微软有紧密关系，而 Elon Musk 也签了OpenAI 创立的文件，并曾向非营利组织捐赠了 1 亿美元。他最初的愿景是为了对抗谷歌等大型公司，他不想让人工智能这样的技术变成人类生存的威胁被一家公司垄断。而现在 OpenAI 既不是一个开放的组织，也不是非营利组织，而是同时是一家营利组织，且与微软有紧密联系，似乎世界正朝着微软和谷歌的私人垄断局面发展。你能否阐明从营利组织转变成非营利组织的决策背后的考量，你是否参与了这份决策中的伦理考量，或者你更认为这是其他人应该处理的问题，而你主要的任务是推动技术前进？

确实这个问题有很多方面。让我从几个方面来考虑最好的方法。首先，这个问题相关的部分包括开源 vs 闭源、非营利 vs 营利以及与微软的关系。再结合 Elon Musk 最近的评论。然后是我想从最简单的地方谈起，因为我认为那更容易。

我认为我的角色感觉上我直接负责 OpenAI 推动的策略，即使我不担任主要的科学前沿的角色。事实上，我是公司的创始人之一，最终我非常在乎 OpenAI 的整体影响。

接下来，我想在开源 vs 闭源以及非营利 vs 营利的背景下就这些内容进行讨论。首先，我从开源开始，因为我认为一个难点在于 AI 涵盖了大量的各个方面，带来了很多不同的挑战和危险，这些都是相互冲突的。开源与闭源是一个典型的例子。

为什么开源是有吸引力的？或者说，为什么开源 AI 是有吸引力的？它的论点之一在于防止将这种强大的技术集中在少数公司手中。如果你在一个只有少数几家公司的世界中，你可能无法控制这项技术。你可能会认为这种世界是不理想的，AI 应该是开放给每个人的，任何人可以使用 AI。这是开源的理由之一。但这个论点也显而易见，它也有一些短期的商业优势，反对开源的原因也是长期的。如果相信最终 AI 会变得极其强大，如果某家 AI 公司强大到可以自主地研发新的 AI 或者可以自主地开展生物研究实验室之类的事，这是一项令人难以想象的能力，原本是如此细微的控制协调，却又变得如此不可思议。这种超级强大的人工智能应该开源吗？

我的开源立场是这样的：我认为在某种程度上，神经网络的能力决定了这一点。想象一下一个在能力较低的阶段，开源是件好事。但到了某个点，开放源代码的模型会变得极为巨大，很显然为投资者和雇员着想，保持闭源会变得更加责任重大。

现在回到你的问题。是否有其他部分？你说的另一部分是非营利 vs 营利。我们可以讨论这一点，事实上，如果 OpenAI 仅供非营利组织运营直到其使命达成，那会更好得多。

然而，一个值得指出的问题是这些数据中心的实际成本。你可能注意到许多 AI 创业公司在筹集资金，其中大部分是流向云服务提供商的。为什么？这是因为这些大型神经网络需要计算能力。需求就是这样。

你可以看到现在学术界和 AI 公司之间出现了一个分歧。长期观察，许多前沿的 AI 研究在过去几十年内一直在学术部门进行，直到中2010 年代中期，情况依旧如此。但当这些项目的复杂性和成本变得巨大时，大学的竞争性也不复存在。此外，AI 研究也好，其他大学的工作也好，现在寻找新的贡献方式变得至关重要。

放在这种背景下，你可能想到非营利意味着捐赠给非营利组织的人无法得到任何回赠。这是一个真正的捐赠。令人难以置信的是，说服人们捐钱给非营利组织是比较困难的。因此，为了应对这个问题，我们提出了一个独特的企业结构，在世界上我没有找到类似的案例。OpenAI 不是一个营利性公司，而是一个有限利润公司。让我解释这意味着什么。

这意味着 OpenAI 的股权更类似于债券而非传统的公司股权。债券的特点之一是发行后即消失。换句话说，OpenAI 替投资者有有限的义务，而不是传统公司无限度的义务。这是否包括创始人？创始人的股份在 OpenAI 里是怎么样的？Sam Altman 没有股份，但其他创始人呢？是否有上限？存在上限是因为创始人们是按名义价格买入的。

我不完全理解你的问题，但我能解释一部分你理解到的内容：当然，它与传统的创业股权不同，但有一些相似之处，早期加入公司的人股权限制较高，因为需要更高的初始投资者来吸引第一笔投资。公司持续成功下股权限制会减少。这对于什么目的重要？因为它意味着，当投资者和雇员的义务全部履行后，OpenAI 就会再次成为非营利性组织。你可以认为这有点疯狂，你在说什么？这不会改变任何事情，但它值得思考。我们对未来 AI 的期待是什么？也就是说，我们可以从现在的 AI 出发，完全想得到 OpenAI 在那种计算能力强大的时刻，承担了对投资者和雇员的义务，转为成为非营利性组织，可以带来巨大的经济破坏，这次转型会非常有益。这就是有限利润 vs 非营利的解答。

这是你问题的最后一部分。我知道回答问题用了段时间，但问题有很多部分。

最后，关于微软关系的问题。这是一个幸运的地方。微软正从正确的方式考虑这些问题。他们了解 AGI 的潜力和重要性。例如，在所有投资者的文件中，任何 OpenAI 的投资者都已签署。顺便提一下，微软作为投资者参与 OpenAI，这与谷歌 DeepMind 合作不同，任何人在任何投资文档中都会看到顶级紫色的框，说明管理职责是为 OpenAI 的使命服务的，这意味着可能会面临关键冲突风险，导致所有资金的损失。所有投资者都签署了这一点。让我在这里澄清一下，因为谷歌收购了 DeepMind，后者只是谷歌的资产对谷歌负责。现在微软作为投资者参与 OpenAI，并对非营利组织的重大使命抱有义务，这个非营利组织是限利润合伙。Ok，我明白了。就像这样，我是说，有一些关于这个问题的细节我没有完全告诉你，但这大致是情形。

尽管有人认为现在特别是史蒂夫·沃兹尼亚克等人已经在公开签名提议说已经到了一个无法逆转 AI 发展和限制其影响的时刻，我们应该立刻停止它。作为世界公民，你出生在俄罗斯，你是在以色列长大的，你又是加拿大人，面对这样一个公开的请愿，伊利亚是如何回应的呢？你知道，萨姆基本上说这并不是正确的处理方式，但与此同时，萨姆也在世界各地进行巡回演讲，访问了许多可能对西方持敌对态度的国家。

你认为当下的公民责任和道德责任是否在某种程度上超越了你传播这项技术的责任？尤其是在通过 OpenAI 在全球推广这项技术的过程中，我们都应该遵守某种监管或监督吗？

这个问题有很多部分，让我再次给你提供足够的时间来回应。我知道我们可能已经超出了时间范围，所以我只是希望能分享我所想的，并让你决定如何处理。好的，谢谢。的确，AI 将变得极其强大且极其具有变革性，我们希望生活在一个有理性的政府规章的世界。这个世界的多方面应该是怎样的：例如清晰地规定如何训练更强大的神经网络，以及如何谨慎地评估并预测这些神经网络今天的功能和未来的功能。我认为这些都是非常必要的。

为了使技术进步变得实际，我不会用“减慢”这个词。我更想说如何使技术进步变得理性，我们需要在每一步中都做好准备。确保我们有一个令人信服的故事，可以说，在这一步中，我们已经训练了系统，我们已经做了每一步，这些步骤已经被验证或认证。我认为我们现在正朝着正确的方向前进。

至于公民责任，我觉得：我认为有两种回答方式。当然，我居住在美国，非常珍视这里的生活，我希望有尽可能多的地方繁荣发展，我当然关心这个问题。但世界不仅仅是美国。我认为这些问题超越了我的专业知识，特别是在不同国家之间的关系如何运作。但我相信将有大量讨论。好的，我能转向战略问题吗？

我想问你们内部的标准是什么？你们有哪些关键指标？目前你们最重视的 KPI 是什么？我认为这个问题不同的人可能会有不同的回答。但如果说最核心的 KPI，如果要严格总结一下，我会说：有两个非常重要的 KPI 和进步的维度，第一个显然是技术进步方面。我们是否做优质的科研？我们是否更好地理解我们的系统并能够更好地训练它们和控制它们？我们的研究计划是否顺利执行？我们的安全计划是否执行得好？我们对这一点有多满意？我认为这是最重要的 KPI。即像我刚才所说，尤其是在那种情况下，你更应该坚持自己的想法，并且真正问自己，有没有什么对你来说显而易见却其他人没有看到的东西，让他们问自己‘为什么其他人没有发现？’如果你有这样的感觉，这是个好迹象，这意味着你可能能够深入挖掘和探索这些想法，看看你的直觉是否正确。这可能并不真实，但我有一个叫杰夫的顾问，他说过一句话，我非常赞同。他说，你应该信任你的直觉，因为如果你的直觉是好的，你将取得巨大成就；如果不好，那也没办法。

至于创业领域，我觉得这种独特的视角变得更加重要。或者说不妨说是同样重要。这或许是因为与研究领域的独特视角相比，这个领域的独特视角更值得重视。按理说，在研究领域，独特的视角也非常有价值。但在创业领域，你需要从你独特的生活经验中汲取一切，以这样的方式思考，‘好的，我看到了这一点，这项技术，某些事情，我从一个非常宽泛的角度来看待它们，如果我能聚焦一点，就大胆行动吧。’这将会是我给你的一般性建议的结论，也是很好的结论。

好了，我接下来会回答学生的问题。一个投票最高的问题是：未来5到10年，你如何看待深度学习领域的发展？

嗯，让我看看，我认为深度学习领域将继续取得进步。在一个时期，很多进展都是通过扩大规模实现的。我们从GPT-1到GPT-3的进步就表现得最明显。但变化会稍微有所不同。这种大规模进展迅速的原因是人们有很多未使用的数据中心。通过重新分配现有的资源，你可以迅速取得很多进展。重新分配现有资源并不一定需要很长时间，你只需要有人决定这样做即可。但现在，训练任务变得更大，所以扩展的进度不会像过去那样快。

建立数据中心需要时间，但我认为深度学习领域仍然可以从其他方面取得进展，通过这些方式继续前进。

深度学习的栈非常深，我期待不同层级都会有改进，综合起来仍然会推动整体进展的稳定增长。如果我猜测，我想象中，到了5到10年后，我们肯定会发现现在尚未知的新特性，并利用这些特性。我相信5到10年后的系统会比现在的好得多。但具体会怎么发展，我认为还是有些难以回答，进步可能是由一些重大的改进和大量的小改进整合而成的。

至于我的同事萨姆·奥尔特曼说，我们已经达到了通过扩大更大语言模型规模所能取得的极限。你同意吗？如果是的话，那么下一个你要关注的创新前沿是什么呢？

我认为某种意义上，我不完全记得他的具体说法，但可能他想表达这个意思。简洁来说，规模法则scaling law的简单时代已经结束。当然，更大的神经网络定会有更好的效果，但这不仅需要大量的努力和成本。不过，我会认为还有许多不同的前沿领域。实际上，关于如何在深度学习领域寻找这些被他人忽视的前沿领域，自己找到一个方向，这确实非常有回报。你能进一步讨论这一点吗？

因为我认为垂直专注于一般泛泛的训练存在争论。是的，以特定领域的数据集进行训练是否会带来更好的性能，如法律或医学？还是说，泛滥的训练结合所有可用数据会更加有益？换句话说，我们迟早会希望专家训练能够产生重大影响。但为什么我们依然做一般性训练，是因为我们希望能够首先达到神经网络能够理解我们提问的阶段。只有当它具备非常坚实的理解，我们才能进行专家训练，真正从中受益。所以我认为，我认为这些都是有前景的方向，但什么时候是时候集中于专家训练，我不知道。

你知道，像开源工作者和使用开源模型的人，他们会做大量的专家训练，因为他们的模型相对无力，他们想尽办法提升性能。所以，这是一种例子，现在这种现象已经部分发生。这不是二元对立的问题，可以想象为一个连续的光谱，你认为竞争优势是否会来自于拥有专有数据集还是依赖高性能的大语言模型？

我认为，可以认为AI是多个因素的结合，每个因素都作出贡献。是否使用有助于在特定任务中提升AI性能的专有数据集？当然，当然有一个更强大的基础模型会更出色。所以，我并不认为这是非此即彼的答案。

接下来，我会回答其他的几个问题。好几个问题都是关于GPT-3/4的训练成本。我知道具体的成本我不便评论。但是从我们的研究社区来看，大家都希望能够了解更多关于OpenAI技术的不同方面。有没有计划将其开放给研究人员或其它初创公司，以促进更多的竞争和创新？一些请求包括无保护地自由互动，理解模型表现，模型规格，包括训练方法的细节和访问模型本身，即训练参数。你们对这些有什么评论吗？

我认为这与我们之前讨论的开放和封闭有所关联，我认为一些介于两者之间的方法可能会非常有成效。例如，模型访问和各种组合方案可以非常有生产力，因为这些大规模的神经网络已经具有非常大的行为面，并给予了深入研究的空间。我们有学术访问项目，提供各种形式的模型访问。事实上，很多学术研究实验室都在这样的方式下研究它们。这种做法可行，我们正在这样做。我们即将结束时间，我最后提一个问题：能否分享一些其他人可能不知道，但很有意思的ChatGPT使用场景？

我会说，这并不是不为人知的，但我非常喜欢它们的诗歌创作能力，它可以写诗，可以说唱，很有趣。你们会用到它吗？

你们在Open团队中有一个整合的部分吗？我认为是的，但我很好奇，当AI深深融入人类团队工作时，它对团队动态会有什么影响？你有没有一些见解是我们还不知道的情况？

总的来说，我认为今天的影响力最好的描述是，每个人都略有效率提升。工作的进展稍显有序。我不是说现在有巨大的变动。我可以说，动态的转变在某种程度上相当显著，但我不认为这使对话变得不那么个人化，当然可能还太早。我预测这不会是情况，我们拭目以待。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业