两段采访中,Kevin Scott首先依然对大模型的能力发展抱有很大信心,即使Kevin Scott可能是出于利益关系才力挺大模型,但头部企业释放出的信心和积极信号依然值得关注。第二段采访中,Kevin Scott表示,全新崛起的AI平台就像是过去x86这样的计算机架构平台,随着时间的推移,这个平台的力量会不断增长,吸引开发者和创业者在上面做出很多创新。我们剔除了一些过于技术向的内容,尽量让大家能更容易理解Kevin Scott的一些思考。主持人Ben Thompson提问水平很高,对Kevin Scott的提问抽丝剥茧,非常值得一读。(原文链接https://stratechery.com/2024/interviews-with-microsoft-ceo-satya-nadella-and-cto-kevin-scott-about-the-ai-platform-shift/#ks)内容合作交流,请扫码添加主编微信:
在红杉资本(Sequoia Capital)发布的《Training Data》播客中,微软首席技术官凯文·斯科特(Kevin Scott)坚定地重申了他对大语言模型(LLM)“规模定律scaling laws”将推动人工智能持续进步的信念。尽管在该领域存在一些怀疑声音,认为进步步伐已经放缓。斯科特在促成微软与OpenAI之间的130亿美元技术共享交易中扮演了至关重要的角色。"尽管其他人可能持有异议,但我们在扩大规模时并未遭遇边际效益递减的现象,"斯科特表示。"我试图让人们认识到,这里存在一个指数级的增长趋势,但不幸的是,这种增长的效果只能在每几年才能体验一次,因为构建超级计算机并在其上训练模型需要较长的时间。"LLM的“规模定律scaling laws”是OpenAI研究人员在2020年探索出的模式,表明随着语言模型规模的扩大(参数增多)、训练数据的扩展以及计算能力的增强,模型的性能会以可预测的方式提升。该法则暗示,只需增加模型的规模和训练数据,就可以在不必须进行基础算法创新的情况下,显著提高人工智能的性能。自此之后,尽管一些研究人员对规模法则能否持续有效提出了挑战,但这一理念仍然是OpenAI人工智能开发哲学的基石。斯科特的乐观情绪与一些人工智能界评论家的观点形成鲜明对比,他们认为在GPT-4级别的模型上,大型语言模型(LLM)的进步已经停滞不前。这种观点主要是由对Google的Gemini 1.5 Pro、Anthropic的Claude Opus,甚至OpenAI的GPT-4o等最近模型的非正式观察和一些基准测试结果推动的,一些人认为这些模型并没有显示出与前几代相比能力上的显著飞跃,他们认为LLM的发展可能正接近收益递减。“我们都知道GPT-3比GPT-2好得多。我们都知道GPT-4(13个月前发布)比GPT-3好得多,”人工智能评论家加里·马库斯(Gary Marcus) 在4月份写道。“但自那以后发生了什么呢?”斯科特的立场表明,像微软这样的科技巨头仍然认为有理由大力投资更大的人工智能模型,押注于持续突破而不是达到能力瓶颈。鉴于微软对OpenAI的投资以及对其自身Microsoft Copilot AI功能的大力营销,即使技术停滞不前,该公司也非常有兴趣保持持续进步的感觉。经常对人工智能持批评态度的埃德·齐特龙(Ed Zitron)最近在他的博客文章中提出,一些人为持续投资于生成式人工智能辩护,声称"OpenAI掌握了一些我们所不知道的东西——一项重大、令人兴奋的秘密技术,它将彻底粉碎所有怀疑者。"然而,他对这一观点提出了反驳:“不,它并没有这样的技术。”对LLM能力和基准测试进展缓慢的一些看法可能是因为人工智能在公众视野中迅速出现,而实际上,LLM已经开发了多年。OpenAI在2020年发布GPT-3之后,到2023年推出GPT-4之前,大约有三年时间一直在持续开发大型语言模型(LLMs)。许多人可能感觉到2023年GPT-4的发布带来了能力上的飞跃,这是因为他们直到2022年11月底ChatGPT的推出才开始意识到GPT-3级别的模型,而ChatGPT使用的是GPT-3.5版本。
微软首席技术官对人工智能发展陷入停滞的观点提出了质疑,但他同时指出了该领域一个实际问题:由于新模型的开发周期往往很长,因此在这个领域内,重要的技术进展或性能提升的数据点并不经常出现。尽管存在这样的挑战,斯科特仍然对模型的未来迭代持乐观态度,相信它们将在当前模型尚显不足的领域带来显著的改进。
斯科特在访谈中指出:“我们即将迎来下一代的人工智能模型,尽管我无法透露具体的时间表,也无法确切预言它的性能将达到何种高度,但几乎可以肯定的是,它将在目前尚显不足的领域带来显著的提升。例如,目前可能因为成本稍显昂贵或技术稍显脆弱而令人犹豫不决的应用场景,新模型都将使其变得更加实用。成本将降低,技术将变得更加稳定,而更复杂的应用也将因此成为可能。这正是随着我们不断扩大技术规模,每一代模型所展现出的发展轨迹。”
人工智能平台
Q:让我们回到大约10年前,带我回顾一下您当时的思考轨迹。这个思考轨迹引领了微软从人工智能、高性能计算或AI计算,到与OpenAI的合作之路。有没有一个关键时刻,让您意识到这是您必须选择的道路?KS:是的,当然。有趣的是,我在微软工作了七年半多一点,但10年前,我还在LinkedIn负责工程和运营团队。那时,人工智能领域已经出现了一个非常有趣的新趋势。虽然不是我们现在所说的生成式人工智能,但人们利用复杂的统计机器学习技术所取得的成果,以及这些系统规模的扩大带来的效益,都超出了我的预期。我涉足这个领域已有一段时日,因此早在谷歌公司上市之初,我就参与了众多机器学习系统的构建,这其中包括了当时负责管理广告拍卖的大型机器学习系统。即便在那个时期,规模的重要性已经显而易见。然而,大约六年前,我们观察到了一个相对较新的发展趋势:随着规模的不断扩大,人工智能模型开始呈现出平台化的特征。
我们不再只是拥有针对特定任务设计的模型,比如广告点击率预测等,而是这些大语言模型开始能够被广泛地应用于许多不同的场景。Q:这实际上是我想问的问题,因为您和Satya(指微软CEO)一直在强调这个“平台转变”。“平台”这个词不断被提及。Q:我本来想问您这个词的具体含义,但从您的回答中我理解到,您所说的“平台”,是指它的通用性。KS:没错。它是一个可以与您构建的软件系统以非常灵活、通用的方式结合的组件。在人工智能领域,像微软这样的公司可能有上百个团队,每个团队都需要负责自己的数据、机器学习算法、训练和部署过程,以及如何从实际使用中获取反馈来不断改进模型。但有了这种平台,您就可以集中投资于模型的训练,而得到的成果可以在广泛的应用中得到广泛使用,并且为创造以前不可能的新事物提供了可能性。Q:我想深入讨论一下“平台”这个概念。根据我目前的理解,可能还未能完全把握你的观点,但我在与您交谈之前已经有了一些初步的认识。例如,我们通常认为Windows是一个平台,它具备以下特征:提供了应用程序接口(APIs),拥有网络效应,并且构成了一个双向网络,一端是开发者,另一端是用户。此外,还有一些像x86这样的计算机架构平台。您能否进一步阐述这些平台之间的相似之处和差异?Q:我是否可以理解为您所说的平台,更接近于x86,而不是Windows?Q:或许更好的例子是通用处理能力,因为当您谈论从专用到通用的转变时,这听起来就像是从只执行单一功能的专用处理器转变为广泛可编程的通用逻辑芯片的过程。
KS:是的,我认为x86是一个非常好的比较对象,因为x86的有趣之处在于它是一个通用的基础设施,允许开发者编写大量的软件。随着时间的推移,这个平台的力量不断增长,因为它的成本每隔大约18个月就会降低,同时性能却得到了提升。因此,这种能力上的快速进步就迅速传递给了众多的开发者和创新者,他们利用这一平台构建了各种新的应用和服务。x86、操作系统、PC制造商以及在其上构建应用程序的人员之间存在着明确的界限。有时,微软既开发应用程序也开发操作系统,因此它两者兼具,但在这个Wintel("Wintel"是一个由"Windows"和"Intel"两个词组合而成的术语,指的是由微软公司的Windows操作系统和英特尔公司的x86架构处理器所构成的个人电脑技术平台。这个术语通常用来描述在20世纪90年代至21世纪初期主导个人电脑市场的技术标准,其中Windows操作系统与Intel处理器的结合提供了强大的兼容性和性能,成为了个人电脑行业的一个标杆。在上文提到的语境中,Wintel平台强调的是其开放性和扩展性,允许第三方开发者在其基础上创造各种应用程序和服务。)平台上,人们可以进行各种与微软预测的所有有用事物无关的创新。人们可以相信这是一个有趣的平台,因为有一个叫做摩尔定律的指数级增长,它最终将使这个平台变得无处不在。Q:好的。我们会讨论摩尔定律的问题,我知道这是你和Satya经常讨论的一个话题,你也想要触及这一点,但你提到了Wintel。随着时间的推移,x86的发展结果是,我们有了Windows,有了Linux,甚至最终有了Mac等。在技术架构中,尽管存在多个层次或层面,但对开发者来说,他们主要关注和操作的是操作系统这一层。操作系统层提供了一组接口和工具,使得开发者能够构建和运行应用程序,而无需深入了解更底层的硬件或更高层次的应用程序逻辑。对于人工智能模型,我的问题是真正的机会会出现在哪里?所以让我们回顾一下。我认为Nvidia现在有一个有趣的现象,显然,有很多长期看好Nvidia的理由。但我认为有一个结构性的原因值得关注,那就是CUDA(Compute Unified Device Architecture,统一计算设备架构)这一层,CUDA原本是非常专业化的领域,开发者为它以及其他目的开发了各式各样的框架。然而,大语言模型(LLM)已经将这些专业化的需求转化为了更为通用的解决方案,目前在一个更高层次上,你实际上无需了解CUDA就能开发人工智能应用程序。但是,这是否就是实际的层次结构?还是会在未来出现一个位于其上的操作系统呢?Q:不是传统的操作系统,而是某种特定的环境(sort of context)。KS:是的。看,我认为这是计算机历史的一个缩影,人们简化复杂的现实世界问题或系统层次总是在提高。Q:我们正处于由这个新模型引领的变革时期。
KS:我完全赞同这一点。尽管我无法预知未来对复杂系统的理解和操作的简化级别将达到的具体层次,但显而易见的是,当前的境况已经有了翻天覆地的变化。我们现在拥有的提示工程师们,仅凭自然语言的指令就能驱动这些系统去执行极其复杂的任务,指导它们应该做什么或者避免做什么。我们正在开发各种工具来优化这一流程,例如,为了让大型语言模型根据你的意图去行动,你必须将大量信息有效地组织进上下文窗口。在微软研究院,我们开发了像GraphRAG这样的系统,它通过图形化结构来高效地组织上下文,避免了向模型发送不必要的令牌,这不仅减少了成本,也降低了延迟。我们的目标是确保模型能够迅速获取到解答问题或完成任务所需的关键信息。
我不确定所有抽象层(abstractions)的完整集合是什么,这正是我们讨论所谓的Copilot技术栈的原因。我们并没有完全理解Copilot技术栈中的每一个组成部分。在过去几年里,我们已经识别出许多部署现代应用程序所必需的关键要素,但随着模型能力的提升,我们也在不断提升抽象(abstractions)的层次。就像你提到的Windows系统的例子,最初的Windows版本并没有包含DirectX(DirectX是微软公司开发和提供的一系列应用程序接口(APIs),主要用于多媒体应用,特别是游戏开发中。它提供了一组丰富的功能,包括图形渲染、声音处理、输入设备管理和网络通信等,以方便开发者在Windows操作系统上创建高性能的应用程序。),因为那时计算机的图形处理能力还不足以让我们考虑实现着色器这样的高级功能。KS:的确,我们面前还有许多待发掘的潜力。我相信,你至少会从我们这里看到一个明确的立场,虽然我不敢断言这将是最终或绝对正确的立场,但它将提供一个关于构建真正丰富、引人入胜且创新应用所需的各种要素的看法。除了拥有一个先进的核心技术模型外,我们还将探讨其他必要的组件,以实现这些应用的全面发展。在未来一年中,我们特别期待看到人工智能推理过程在不同设备上的分散执行。这意味着许多推理任务将直接在您的个人设备上完成,无论是您的电脑还是手机。这样做的好处是,我们可以充分利用设备的本地处理能力,让AI应用运行得更快、更可靠,同时还能更好地保护用户的隐私。
当遇到设备性能或存储空间不足的情况时,才需要转向云端的强大计算资源来完成更复杂的推理任务。
Q:要构建的最重要的代理是这个编排代理(orchestration agent) ,它可以解决第一个问题:“我们要本地化吗?”,“我们要到云端吗?” - 第二,如果我们转到云端,“我们如何重写这个提示或请求?”?就你之前所说的观点而言,我们最大限度地减少了代币(tokens)的数量,这是非常高效的。您是否在谈论 Windows 上的 Phi 模型(Phi模型是微软研究院开发的一系列先进的小型语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本。这些模型在保持较小的参数规模的同时,通过精心设计的训练数据集和优化的算法,实现了与大型模型相媲美的语言理解和推理能力。),实际上其中最重要的部分不是您可以在 Windows 上进行共同绘图,而是您实际上可以在 Windows 中为 Copilot 降低成本。KS:我认为这是一件重要的事情,而且abstractions的数量越来越多。重要的是,如果你正在制作一个真正有用的东西,并且你的受众群体非常大,那么你希望能够将其分发给该受众群体中尽可能多的人,因此成本绝对是一个考虑到这一点的因素。所以,如果有办法为他们提供优质的产品,例如将云卸载到小型模型以交付该应用程序,那就太好了。你绝对应该这样做