我要投稿

发布会后Sam Altman首次采访，揭秘GPT-4o怎样炼成？

发布日期：2024-05-21 08:20:27 浏览次数： 1977 作者：乌鸦智能说

近日，OpenAI发布了全新大模型GPT-4o，GPT-4o中的“o”不只是一个字母，它代表的是“omni”，意味着这款模型拥有多模态的能力，能够灵活处理文本、图像和音频等多种类型的数据。

这款大模型集成了多模态交互能力，实现在320毫秒内实时响应，并具备增强的智能与情感理解能力，不管是与它闲聊，还是向它咨询问题、交代任务，都像与真人交互一样丝滑。这款模型将在未来几周内逐步向广大开发者和消费者推出，并且，它将面向免费客户开放。

在与Logan Bartlett的深度访谈中，OpenAI首席执行官Sam Altman透露了这一突破性产品诞生的关键内情。

Altman坦言，GPT-4o的出现并非一蹴而就，而是过去几年OpenAI在音频、视觉模型及模型结合研究方面努力的最佳力作。他认为GPT-4o关键不仅在于性能，更在于其高效运行状态，以至于这一当今全球最佳模型之一甚至可供免费用户使用，令人叹为观止。

在谈及模型未来发展时，他表示AGI（通用人工智能）只是智能连续发展过程中的一个节点，很可能会以过去10年的疯狂速度持续向前，让我们有机会亲历更多不可思议的时刻。他大胆预测，在不远的将来，编程或将成为最重要的应用领域；同时，具备泛化推理能力的通用模型将扮演比众多专业化模型更为关键的角色，成为驱动科技进步的中流砥柱。

以下为本期内容目录：

01GPT-4o新品发布

02AI发展预测

03AI创业机会

04通往AGI之路

05OpenAI内部运营

06Sam的个人思考

/ 01 /

GPT-4o新品发布

Logan Bartlett：你今天早些时候宣布了GPT-4o的消息。它可以同时处理文本、语音和视觉信息。你能谈谈这为什么重要吗？

Sam Altman：我认为这是一种令人难以置信的人机交互方式。一直以来，我们都有语音控制计算机的想法，比如Siri之类的东西。但对我来说，它们从来没有真正让人感觉自然好用。GPT-4o则完全不同，因为它可以实现很多事情，比如速度快、可以理解多种模态、语调自然，还可以根据你的指令改变说话速度和语气。它的流畅性和灵活性让我着实着迷。

Logan Bartlett：你有没有发现一些让你印象深刻的用例呢？

Sam Altman：目前我只用了一个星期左右，但让我惊讶的一个用例是在我全神贯注工作的时候，我可以把手机放在桌子上，不用再切换窗口，而是直接用GPT-4o作为另一个信息通道。比如说，我正在处理某件事，以前我可能不得不停下来，切换到另一个标签页，然后用谷歌搜索一些东西，点击来回浏览等等。但是现在，我只需要问它问题，它就可以立即给我答案，而我仍然可以专注于电脑屏幕上的内容，这太酷了。

Logan Bartlett：促成GPT-4o诞生的是架构上的转变还是计算能力的提升？

Sam Altman：这应该是过去几年我们所学到的一切的共同作用。我们一直在研究音频模型、视觉模型，以及如何将它们结合起来，同时也在努力提高模型的训练效率。并不是说我们突然解锁了一项疯狂的新技术，而是将许多部分整合到了一起。

Logan Bartlett：你们是否还需要开发类似于设备模型的东西，以便降低延迟到可用水平？

Sam Altman：对于视频处理来说，也许是这样。网络延迟在某些情况下会带来麻烦。比如说，我一直认为最酷的事情之一是，未来我们可以戴上AR眼镜之类的设备，然后实时用语音与世界交互，看着事物随之改变。而网络延迟可能会成为这种应用的障碍。不过就目前而言，2300毫秒的延迟感觉上已经非常快了，甚至比人类的响应速度还要快。

Logan Bartlett：关于后续的ChatGPT版本，人们猜测下一个重大发布可能不会是GPT-5，而是会采取一种迭代的开发方式。你们公司似乎也的确是这样做的。这种理解方式正确吗？以后不会再有盛大的发布活动推出全新版本GPT-5，而是会采用另一种方式？

Sam Altman：我们老实说还不知道。我认为我学到的一件事是，人工智能和惊喜并不总是相辅相成的。尽管科技公司通常会以发布会的方式推出产品，我们或许应该尝试不同的方式。也许我们仍然可以把它命名为GPT-5，但以不同的方式发布，或者换个名字。

但就目前而言，我并不认为我们已经找到给这些产品命名和打造品牌的方法。从GPT-1到GPT-4的发布似乎还算合理。现在，GPT-4显然还在不断改进。我们还有一个想法，那就是可能存在某种“虚拟大脑”，它可以在某些情况下比其他模型产品思考得更深入。也许这会是不同的模型，但用户可能并不关心它们是否相同。因此，我们还没有想清楚如何将这些产品推向市场。

/ 02 /

AI发展预测

Logan Bartlett：这是否意味着随着模型的不断增量改进，对计算能力的需求可能比历史上要少？

Sam Altman：我想我们总会尽可能利用可获得的计算力。现在我们正在取得令人难以置信的效率提升，这非常重要。今天发布的语音模式显然是一个很酷的功能。但也许更重要的是，我们能够以如此高的效率运行它，甚至可以将其提供给免费用户。可以说，这是目前世界上最好的模型之一。任何想要免费下载ChatGPT的人都可以使用它，这比GPT-4和GPT-4Turbo有着显著的效率提升，而且我们还有很大的改进空间。

Logan Bartlett：你说ChatGPT本身并没有改变世界，而只是改变了人们对世界的期望？

Sam Altman：是的，如果你想用经济指标来衡量，可能找不到ChatGPT发布后生产力或其他方面的显著提升。

Logan Bartlett：在未来12个月里，你认为哪些应用或领域最具前景？

Sam Altman：虽然这可能会因为我所处的位置而让我产生偏见，但我认为编程是一个非常重要的领域。

Logan Bartlett：这有点类似于你最近提到的一个深刻教训，你谈到了针对特定数据和特定目的训练的深度专业化模型与能够进行真正推理的泛化模型之间的区别。

Sam Altman：我认为具有泛化能力的模型更重要。如果模型能够进行泛化推理，能够自己弄清楚新的东西，那么当它需要处理新的数据类型时，你可以把它输入进去，它就可以完成任务。但反之则不然，一堆特化模型组合在一起，在我看来，是无法进行泛化推理的。

Logan Bartlett：你认为在未来两年内，人类和人工智能之间主要的沟通方式是什么？

Sam Altman：自然语言似乎是一个非常好的选择。我对这样一个总体想法很感兴趣，即我们应该规划一种未来，让人类和人工智能能够使用相同的方式进行交流。因此，比起其他形式的机器人，我更倾向于人形机器人。因为我认为现在世界的一切基本上都是为人类设计的，我并不希望为了某种更有效的东西而改变这一切。我喜欢这样一种想法，即我们与人工智能的交流可以使用经过优化非常适合人类的语言，甚至它们彼此之间也用这种方式交流。也许我的想法并不成熟，但总的来说，我认为这是一个值得探索的方向。

Logan Bartlett：对于C端用户来说，商业交互页面和易用性才是重头戏？

Sam Altman：这些当然很重要。它们一如既往地很重要。你知道，我可以设想还有其他情况，比如一种市场或网络效应，在那里我们的agents能够互相沟通。当然，也可能有不同的公司和应用商店，但我倾向于认为一般的商业规则在这里仍然适用。每当有新技术出现时，人们就会认为它们不适用，但这通常是假新闻。一切传统的创造价值方式在这里依然重要。

Logan Bartlett：有报道说你打算募集大量资金投资晶圆厂和半导体行业等。我想《华尔街日报》是比较可信的报道来源。英伟达也在加紧满足对AI基础设施的需求预期。你最近说过，你认为世界需要更多的AI基础设施。你是否看到了需求方面的一些情况，需要比目前英伟达和台积电等提供的AI基础设施多得多？

Sam Altman：首先，我确信我们将找到办法大幅降低交付当前系统的成本。其次，我确信在做到这一点后，需求将大幅增加。第三，我确信通过构建更大更好的系统，将会有更多需求。

我们都应该希望拥有一个智能太廉价以至于无需计量的世界。它无处不在，丰富无比。人们可以将其用于各种用途，甚至不会考虑是否使用，比如说:“哦，我是否需要这个来帮我阅读所有邮件并回复？”或者是“我是否要用它来治愈癌症？”你当然会选择治愈癌症。但答案是，你希望它能把这些事都做了。我只是想确保我们有足够的资源。

Logan Bartlett：像Humane和Limitless这样的不同实体设备助理而言，你认为它们做错了什么？或者你认为它们的采用率可能还没有达到用户的期望？

Compaq TC1000，发布于2003年

Treo 90，发布于2002年

Sam Altman：我认为这只是一个早期阶段。我一直是各种计算设备的早期使用者。我在大学一年级时就拥有并非常喜欢Compaq TC1000平板电脑。我觉得它太酷了，尽管它离iPad还有很长的距离。然后我买了Treo（于2002年首发的一系列智能手机），那时候孩子们是没有这个的。它离iPhone还有一段距离，但我们最终还是走到那一步了。而且，你知道，这些东西给人一种很有前景的方向，只是需要一些迭代。

/ 03 /

AI创业机会

Logan Bartlett：你最近提到，许多建立在GPT-4之上的企业将被未来的GPT“碾压”。你能详细阐述一下这一点吗？此外，你认为哪些AI企业能够在GPT不断进步的情况下生存下来？

Sam Altman：我发现唯一有效的框架是，你要么建立一个业务，赌下一代模型在这个业务上表现不会太出色，要么建立一个可以从下一代模型的出色表现中获益的业务。有时你为了使一个GPT-4无法解决的使用场景能够成功运作而做了大量工作，最终你让它勉强可以工作了。然而随后GPT-5出现，它可以非常好地完成这个用例以及所有其他事情，你就会为之前那种将这个用例勉强实现感到遗憾。但如果你有一个总体来说还不错，人们可以用于各种用途的产品，而你并没有为了让某个用例勉强工作而投入大量工作，然后GPT-5或无论我们将其命名为什么出现，它的表现远远更出色，你原有的一切事物都将随之受益。

我建议的是，在大多数情况下，你并不是在创建一个AI企业，而是在创建一个利用AI技术的企业。在App Store早期，我认为确实存在着填补一些明显空白的应用，但最终苹果修复了这些问题，你就不再需要从App Store下载手电筒之类的应用了，它已成为操作系统的一部分，这是必然会发生的事情。然后还有一些像Uber这样，是受益于智能手机的出现而存在，但确实建立了一个非常有护城河的长期业务。我认为你就应该瞄准后一种类型。

Logan Bartlett：你能举一些新颖的概念作为例子吗？可以是真实的公司，也可以是一个有趣的想法。

Sam Altman：实际上我会赌注在新公司身上。人们经常举的一个常见例子是试图打造类似AI医生或AI诊断师的东西。人们会说，我不想在这里创业，因为Mayo Clinic（美国老牌顶级医院）或其他人会做这件事。但我会赌是一家新公司做这种事情。

Logan Bartlett：对于那些希望投身于此的CEO，你有何建议？

Sam Altman：智能作为一种服务将会每年变得更好、更便宜，但这只是你取胜的必要非充分条件。因此，你仍然必须找出你的业务的长期防御性是什么。如今这个赛场比很长一段时间以来都要开放。有令人难以置信的新事物可做。但即使你现在有更多的手段去实现，你也不能免于建立持久价值的艰苦工作。

Logan Bartlett：你能想象在5年内，由于AI的发展而出现或变得主流的职位或工作职责吗？也许现在这种工作还很小众或不存在。

Sam Altman：我正尝试着找到未来将有1亿或5000万人从事的工作是什么，应该是新型艺术、娱乐的宽泛领域，有点像是人与人之间的相互连接。我不知道这个职位会叫什么。我不知道5年内我们是否能实现这一点，但我认为以人为本、现场的具身体验将会备受推崇。我不知道我们会怎么称呼它，但我可以看到这将成为一个全新的、非常庞大的类别。

Logan Bartlett：OpenAI最近一轮融资的估值约为900亿美元左右。在实现AGI之前，有一两件事情你认为将让OpenAI成为万亿美元公司吗？

Sam Altman：我认为，如果我们能够保持目前的改进速度，并找到继续利用这项技术制作出良好产品的方法，而且收入持续像现在这样增长，我不知道具体的数字，但我认为我们会很好。

Logan Bartlett：目前的商业模式能否创造出万亿美元的公司估值？

Sam Altman：是的，ChatGPT的订阅模式对我们来说真的很管用。出乎意料的是，我原本不会赌注于此，没有足够的信心认为它会像现在这样成功，但结果确实不错。

Logan Bartlett：我想我们都听你谈过有关盈利模式等问题。手工劳动显然是第一步，然后是白领工作，再接下来是创作。不过实际情况在某种程度上却恰恰相反。还有其他一些你曾经预设了某种观点，但事实证明完全相反的事情吗？

Sam Altman：这绝对是我最大的意外之处，就是你提到的那一点。有其他一些，比如我没想到它这么早就能如此擅长法律工作，因为我认为那是一件非常精确、复杂的事情。但没错，最大的惊喜就是你所说的那一点，体力劳动、脑力劳动和创作劳动的顺序颠倒过来了。

/ 04 /

通往AGI之路

Logan Bartlett：在通往AGI的道路上，你认为最大的障碍是什么？听起来你认为目前的规模化趋势或许还能在未来几年内持续？

Sam Altman：我认为最大的障碍是新的研究。你知道，我从互联网软件转向人工智能时必须学会的一件事是，研究并不像工程那样按照相同的时间表进行，这通常意味着需要更长的时间，有时候也意味着进展速度比任何人预测的都快得多。

Logan Bartlett：什么意思？你能详细解释一下，为什么说它不是线性进展的？

Sam Altman：最好的解释方式是举一些历史例子。我可能会搞错数字，但我想中子（neutron）首次被提出概念是在20世纪初期，可能是在10年代或20年代被首次探测到。关于后来的原子弹的工作始于30年代，40年代就实现了。从完全没有中子这个概念，到能够制造原子弹，彻底打破我们对物理学的所有直觉，这一切发生得太快了。还有一些不那么纯粹的科学例子，比如著名的关于莱特兄弟的引语。我也会搞错数字，但假设是在1906年，他们说飞行还需要50年时间，但在1908年他们就做到了，大致如此。科学和工程史上还有许多其他类似的例子。当然，也有我们提出理论但从未实现的事情，或是耗时几十年甚至几个世纪才实现的情况。但有时事情确实会进展得非常迅速。

Logan Bartlett：在可解释性方面我们处于什么位置？长远来看，它对AI有多重要？

Sam Altman：可解释性有几种不同类型。一种是我是否理解神经网络中每一个机械层面上的每一个细节；另一种是我能否审视输出结果，指出其中的逻辑缺陷等等。我对OpenAI和其他机构在这方面正在进行的工作感到兴奋。我认为可解释性作为一个更广义的领域，看起来很有前景且令人兴奋。

Logan Bartlett：人们既对AGI发展感到兴奋，又担心由你或OpenAI这样的人单方面掌控并做出决定。这让人们觉得需要一个类似政府的结构，由选举出来的领导者而不是你们来做决定。

Sam Altman：我认为对现有能力的模型进行严格监管可能是一个错误，但当模型确实对世界构成重大灾难风险时，就应该有某种监管。现在的问题是，在何处设置门槛，以及如何进行测试。

Logan Bartlett：那些被指控可能会遭受监管约束的风投人士，你认为他们没有看到AI潜在风险的哪些方面？

Sam Altman：我认为他们根本就没有认真思考过AGI的问题。事实上，那些最大声疾呼监管会成为阻碍的人，不久前还在完全否认AI的可能性。我理解他们的立场，监管确实没有为科技带来什么好处，看看欧洲的科技行业就知道了。但我认为，我们正在走向一个门槛，超过这个门槛后，我们所有人的想法都可能会有所不同。

Logan Bartlett：你认为开源模型本身存在一些固有的危险吗？

Sam Altman：目前还没有，但我可以想象未来可能会出现这种情况。

Logan Bartlett：我听你说过，所谓的“安全”在某些方面是一种错误的表述，因为这更像是一种关于我们明确接受什么程度的风险的讨论，就像航空业一样。

Sam Altman：对，安全不是一个非黑即白的事物。你之所以愿意乘坐飞机，是因为你认为它们相当安全，尽管你知道偶尔也会出现坠机事故。至于称一家航空公司为“安全的”需要达到何种程度，这就需要讨论了，人们会有不同意见。这是一个极具典型意义的说法。就目前而言，整个航空业的安全性已经令人难以置信地提高了，可以说是一个巨大的成就。但“安全”并不意味着飞机绝对不会出事故，有人会在飞机上丧生。

Logan Bartlett：我很好奇，有很多不同的快速爆发场景。而我们今天所面临的一个制约因素就是缺乏AI基础设施，对吗？我猜，如果有研究人员开发出一种对当前的transformer架构的修改，可以大幅减少所需的数据和硬件规模，更像人脑那样。我们是否有可能看到一种快速爆发的情况？

Sam Altman：这是可能的，当然可能。而且甚至可能不需要任何修改。但这不是我认为最有可能的路径，不过我也不会完全排除这种可能性。我们有必要将它列入可能发生的情况加以考虑。我认为事情可能会更加连续，即使是加速发展。我们不太可能在一夜之间就拥有真正的超级智能。但即便爆发过程持续一年或几年，在某种程度上也算是快速的。

Logan Bartlett：当你思考模型会变得越来越智能时，你之前稍微提到了创造力这个元素，那么你认为人类仍然独特的是什么呢？当模型开始能够做我们曾经认为它们做不到的事情时。

Sam Altman：我认为，即使是多年以后，人类仍然会关心其他人类。你知道，我在网上看到有人说，现在每个人都会爱上ChatGPT了，每个人都会把ChatGPT当作女朋友之类的。我不这么认为。我们如此渴望长期关心其他人，以各种方式。这种对他人的痴迷将会持续下去。

/ 05 /

OpenAI内部运营

Logan Bartlett：在经营OpenAI这家公司时，你在YC构建了很多如何经营业务的规则或框架。然后你也打破了其中的一些规则。对于这家公司，你是否雇佣了与你创办消费互联网公司或B2B软件公司时不同类型的人，尤其是在高管层？

Sam Altman：研究人员和产品工程师大多数情况下是非常不同的。而且，我大多数情况下并没有外聘高管。

Logan Bartlett：在OpenAI的运营过程中，你做出过哪些决定感觉最重要？当时你是如何做出这些决定的？

Sam Altman：很难只指出一个，但我们决定采取所谓的迭代部署策略，而不是秘密地构建AGI，然后一次性推向世界，后者是当时普遍的智慧，也是一些其他公司的计划。我认为这是我们做出的一个非常重要的决定，当时也觉得它很重要。押注于语言模型也是一个重要的决定，当时也觉得很重要。

Logan Bartlett：实际上我不太了解你们当初押注于语言模型的故事。这是怎么开始的呢？

Sam Altman：嗯，我们当时有其他一些项目，正在从事机器人和视频游戏方面的工作。然后有一个非常小的努力开始关注语言建模，伊利亚（Ilya Sutskever）真的相信这个方向，相信即将到来的语言模型时代。我们做出了GPT-1，GPT-2，开始研究规模化定律，扩展到GPT-3，然后我们做出了一个重大押注，决定把语言模型作为我们要做的事情。当时的情况看起来并不那么显而易见，我当时的感觉并非如此。

/ 06 /

Sam的个人思考

Logan Bartlett：你最近还提到了两种使用AI的方法，一种是复制自己，另一种是最聪明的员工方式。

Sam Altman：这不是指AI本身，而是关于你想如何使用它。就像你想象与你的个人AI助手互动时的情况。

Logan Bartlett：当时你做出这种区分时，似乎有很深的见解，但你能再解释一下吗？因为这似乎体现了你对AI未来使用场景的独特看法。

Sam Altman：如果你在未来的5年给我发短信，我认为你需要明确是在给我发短信还是给我的AI助手。然后，如果是我的AI助手要把信息打包在一起，稍后再答复。我认为将这些事情分开并保持独立是有价值的，而不是AI仅仅是Sam的延伸。我不知道我在和Sam还是Sam的AI幽灵交谈，但没问题，因为它们是一回事。这是一个合并的实体。我认为会有像我和我的AI助手这样的存在，这个东西并非只是和我的延伸联系在一起，而是一个我可以越过屏障与之交流的独立实体。它会替我回复消息，我会把它看作是一个非常出色的合作伙伴，我可以对他说：“嘿，你能做这件事吗？完成后你再告诉我”。但我不会把它当成我自己。

Logan Bartlett：当你思考教育体系时，比如说2030年或2035年的大学生，将来的某个群体，你认为应该在大学教育体系中做出哪些具体的改变，以使人们为未来做好准备？

Sam Altman：最大的一点是，我认为人们不仅应该被允许，而且应该被要求使用这些工具。当然，在某些情况下，我们希望人们用老式方法，因为那有助于理解。你知道的，就像我记得有时在数学课上，有些题你不能用计算器。但总的来说，在现实生活中，你可以使用计算器。你需要理解它，但你也必须熟练使用计算器。如果你上数学课从不用计算器，那你将来做工作时就会技能不足。你知道，如果OpenAI的所有研究人员从未使用过计算器，OpenAI可能就不会存在了。至少在教授电脑知识时，我们没有试图让人们不使用计算器和电脑。我认为，我们也不应该培养人们不使用AI。它将成为未来从事有价值工作的一个重要组成部分。

Logan Bartlett：在谈及AGI及其未来发展时，您曾提及AGI只是智能连续发展过程中的一个节点，进展很可能会持续下去，维持过去十年中所见进展的速度很长一段时间。您有没有亲自停下来思考或想象未来会是什么样子？或者说这个问题太抽象了无法思考。

Sam Altman：我一直在思考。我并不像科幻电影那样憧憬着天空中飞驰的汽车和充满未来感的城市，但当我想到一个人可以完成数百甚至数千人协作才能做到的事情，这让我着实兴奋。同样的，虽然我们或许无法穷尽所有科学领域的知识，但这种感觉就像——如果我们真的可以发现所有科学奥秘，那么世界会变成什么样子呢？这是我一直在思考且为之兴奋的。

文／小黑

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业