我要投稿

深度 | 万字访谈Suno CEO：如何用AI打破创作边界；用美学评估AI音频模型

发布日期：2024-06-24 04:46:10 浏览次数： 2845 作者：Z Potentials

Z Highlights：

创新的音乐创作方式：Suno利用AI音乐生成工具，通过简单的文本提示即可创作完整歌曲，彻底颠覆了传统音乐创作流程。
促进音乐的社交化和个性化：通过Suno，用户可以体验到与他人合作创作音乐的乐趣，推动了音乐创作的社交化和个性化发展。
Suno的音频Token化创新：Suno的许多创新集中在音频Token化上。音频不像文本那样易于离散化，其采样速度快且为连续信号。因此，Suno必须使用启发式算法或模型将其转换为可管理的Tokens。
用美学评估AI音频模型：美学在AI音频模型评估中至关重要。虽然AI领域常依赖度量标准，但在现实中这些并不够用，尤其在新兴的音频领域。因此，Suno依靠听觉进行评估，通过听大量音乐和A-B测试，不断加深对人类情感的理解。

背景与介绍

Sarah: 听众朋友们好，欢迎来到 No Priors。今天我们邀请到了Suno 的联合创始人兼 CEO Mikey Schulman。Suno是一个 AI 音乐生成工具，旨在普及音乐创作。用户只需输入一个文本提示，就能生成一首带有歌词的歌曲。今天早上我试用了这个工具，生成了一首带有复杂节奏的lo-fi 风格的“Kodo Boom Bop”。

‘Beak with trees and this spring embraces nature, weaves tales, and its gentle race. Material petals fall, time toes its base, retreating cherry plume, a hint of grace.’

Sarah: 成立不到两年就已经在AI音乐行业引起轰动，真是令人兴奋。Mikey，你们是去年年底才公开的吗？

Mikey: 没错。

从科学到音乐的跨界之旅

Sarah: 很高兴和你聊聊AI音乐模型以及发布后的进展。非常感谢你的参与。先给我们介绍一下你的背景吧。你小时候喜欢音乐，参加乐队。后来怎么从音乐爱好者变成哈佛物理学博士，并创办了几家AI公司呢？

Mikey: 是的，我的路有点曲折。我从四岁开始弹钢琴，一直玩音乐。高中和大学时，我参加了很多乐队。但其实我的音乐天赋并不出众，所以我选择了更擅长的物理学。我上了大学，读了研究生，最后获得了物理学博士学位，研究量子计算。或许下次播客我可以告诉你为什么不该进入量子计算领域。

Sarah: 你当时认为自己会做什么呢？你想成为理论物理学家或者学者吗？

Mikey: 其实我从来没有一个明确的计划，所以并没有想过自己会做什么或不做什么，但我肯定不擅长物理。我的博士学位相对成功，不是因为我擅长物理。我研究的量子力学大部分在50年代就已经解决了。

低温微波工程非常复杂，而这对于实际应用来说非常重要。我很幸运，在这方面比较擅长。这算是两个学科交界处的研究，我非常享受这个过程，即使知道自己将来会做什么，我仍然会选择再经历一遍。现在，我和我的博导关系依然很密切。我现在住在离旧实验室步行距离的地方，在马萨诸塞州剑桥散步很有趣。不过，量子计算虽然很酷，但不是我想要一辈子做的事。

我偶然知道了Kentro公司，并加入了他们。当时公司有大约10个人，我很喜欢他们，于是我说“让我们一起做吧”，然后我被聘为软件工程师。我觉得自己非常幸运。在我加入公司大约一个月后，机器学习的机会就出现了。在2014年，物理学博士也可以转行做机器学习工程师。所以我抓住了这个机会，学到了很多，组建了团队，开发了一些有趣的产品。我们在2018年被S&P Global收购，之后也做了很多有趣的项目。所以我算是偶然进入AI领域，但我非常喜欢它，真的很有趣。

AI与音乐的结合

Sarah: 你们最初是从开源模型Bark开始的。能否谈谈最初的想法以及如何走上音乐生成之路？

Mikey: 我们在Kentro做的都是文本处理，直到被S&P Global收购后，我们才做了第一个音频项目，学习转录财报电话会议。我相信你们都读过财报电话会议的转录，这些通常是由S&P Global完成的，以前这些都是手动完成的，非常费时。引入自动化后，我们大大提高了速度和规模，也因此爱上了音频AI。

虽然我们是音乐爱好者，但正是这个不太吸引人的财报电话转录项目，让我们意识到自己有多喜欢它。我们也发现，音频技术相比图像和文本确实落后很多。这是在2020年。看看过去几年图像和文本技术的发展，音频技术可能现在落后得更远了。

正如我所说，我们从来没有一个详细的计划。我们将Bark打造成了一个开源项目。其实在发布Bark之前，我们就已经决定不会专注于语音技术。说实话，很多人建议我们，“去做一家语音公司吧，这条路更简单。你们会开发出一个很棒的B2B产品，人们一定会喜欢的。”但我们实在太热爱音乐了，无法抵挡这个诱惑。

Sarah: 为什么你们知道自己不会专注于语音？

Mikey: 语音技术确实很有趣，但我们所追求的内在创造力并不在语音领域。语音只需要准确传达信息，比如朗读一篇《纽约时报》的文章。即使朗读稍显机械或不那么生动，也依然能够完成任务。而真正的创造力存在于音频的另一个领域——音乐。我所关心的是音乐带给我的感受。

技术与创意的平衡

Elad: 你们采用的方法中，我了解到主要有两种架构是人们用于不同形式的音频模型的，很多是传统模型和扩散模型。我知道在 Transformer 方面有更多的研究，同时也有一些其他类型的架构。你能告诉我们一些你们采用的技术方法或者你们的思考方式吗？我之所以问这个问题，主要是因为对于很多 Transformer 模型，人们关注的是扩展规律以及随着规模变化的适应性。我有些好奇这如何应用于音乐领域，以及你们对这种模型和方法的未来看法。

Mikey: 我们不避讳这些模型都是Transformer。一方面是因为我们有处理文本的背景，另一方面是因为Transformers能很好地扩展。好处是，开源文本社区已经为你完成了大量工作，所以我们可以在创新领域上非常挑剔。我们很多创新都集中在如何将音频进行Token化。音频不像文本那样容易离散化。它的采样速度非常快，大约每秒50000个样本，是一个连续的信号。因此，我们必须使用一套启发式方法或模型来将其转换为一组可管理的 Tokens，这也是我们投入大量精力去深入理解的地方。

Sarah: 你们是如何评估自己模型的质量呢？你们是如何确定训练出的模型能够生成高质量作品的？是不是完全依赖于像Mikey这样的人类评估？

Mikey: 当然，我们不完全依赖人工评估，但我们认为美学非常重要。在所有AI领域，我们往往过于依赖度量标准。你可能会说，“我在这个基准上的准确率是这样，在那个基准上的准确率是那样”，但在现实世界中，这些并不是最重要的。而且，音频领域的基准尤其不可靠，因为这个领域还很新。所以，美学很重要，这意味着你必须用耳朵来评估。你可以参考一些指标，比如最终损失值，但最终评估过程比你想象的要繁琐得多。

好消息是这里的每个人都非常喜欢音乐。因此，评估模型时，我们会听大量的音乐，进行很多A-B测试，这其实很有趣。不过，在如何真正评估这些模型方面，我们还有很长的路要走。在这个过程中，我们也学到了很多关于人类和人类情感的知识。

Elad: 是的，这很有趣。拿Midjourney来类比，在它的早期阶段，人们觉得它与众不同，是因为它展示了更好的品味和美学，而不仅仅是因为优化了评估函数。尤其是在早期阶段，品味非常重要。你们的音乐背景对Suno的发展还有其他影响吗？它是否帮助你们推进了一些项目？

Mikey: 在机器学习和人工智能领域，仔细检查结果和数据非常重要。如果这个过程让人愉快，就不会显得那么繁琐。对我和这里的每个人来说，这一点都非常重要。自从创办这家公司以来，我确实学到了很多关于音乐的知识。接触到以前从未听说过的各种音乐类型，以及尚未被创造出来的音乐混合类型，这些都让我大开眼界。

但在设计模型时，我们非常努力地避免加入太多的个人音乐偏见。模型不应该了解音乐理论。就像你不会告诉GPT这是一个名词，这是一个动词；GPT自己会弄清楚。如果我告诉模型只有12个音调，模型就只能输出这12个音调。如果我告诉模型有50种不同的乐器，我就永远不会得到独特的声音。所以我们真的很努力地避免设定这些限制。老实说，我不认为这是我们特别聪明的地方，这是从文本领域借鉴来的。如果模型能够准确预测下一个Token，无论是在文本生成还是音乐生成中，这表明模型在理解和生成连贯内容方面具有很强的能力。

Sarah: Mikey，AI在音乐领域有哪些难点？你们希望在哪些方面取得突破？比如，在视觉模型或视频处理中，人类的手部动作和物体的持久性等问题，对我来说比较容易理解。

Mikey: 这是个很好的问题。我承认我没有仔细想过这个问题。有一些容易描述的方面，比如立体声效果是否正确，比特率是否足够高等等。但音乐的特别之处在于它能引发某种情感反应，而这点没有人能完全理解。情感也非常多样化，受文化、年龄和人口统计的影响很大。所以，我们所做的事情离客观标准还很远。对于那些处理文本的人来说，他们可能会关注“模型在标准测试中的表现如何，我能否通过大型模型达到高标准。”但这些对我们来说并不适用。

就像我创作了一首歌，它让我产生了一种特定的感觉。可能是因为音频质量粗糙，也可能是因为歌曲的长短不同。我觉得在这个领域还有很多问题是无法回答的。

Elad: 你们很早就推出了一个免费服务，允许用户每天最多创作10首歌，同时也有订阅模式。你们是如何看待不同类型的用户，比如普通消费者、准专业用户和企业用户？现在是否还太早做出判断？你们最关注的领域是什么？如何平衡这些不同的用户需求？

Mikey: 这是个很好的问题。我们的目标是改变全球与音乐互动的方式，为人们带来新的体验。因此，这是一个面向所有消费者的产品，而不仅仅是为那些使用Ableton、Logic或Pro Tools的专业人士准备的。它适用于所有人，比如我的妈妈。从商业角度来看，传统观点可能认为不应该立即对产品收费，但我们认为这是非常重要的。我们在尝试创造一种全新的模式，并且需要了解什么会真正促使人们愿意花钱购买。

坦白说，人们经常问我生成式AI的商业模式，我觉得现在大家都在使用类似SaaS 的定价方式，而且做得比较粗糙。我们当然也不例外。但我不确定这种方式在长期是否合适。很多现在从事和投资生成式AI的人，都是五年前从事和投资SaaS公司的那批人。所以，这种定价方式有点像是延续下来的惯例。没有冒犯的意思，你们都是很好的投资者，但我觉得这个模式还没有完全解决问题。

Elad: 是的。我记得在 90 年代，随着网络浏览器的兴起，我和一些人讨论过。他们当时在寻找网页的最佳商业模式，很多人关注微支付，即每次阅读《纽约时报》的文章时支付几分钱，而不是采用广告模式。当然，最终大家还是选择了广告模式。但当时和我交流过的人没有一个认为这是最佳答案，他们只觉得这是当时最容易实现的。

所以在订阅模式方面，我认为这里有一个非常有趣的问题，关于广告的投放，以及未来可能的各种模式。比如微交易、在市场上转售物品、让人们从订阅者中分成，有点像下一代的Spotify。这些未来的发展方向真的很有趣。我觉得你们现在深入思考这些问题真的很酷。

Mikey: 是的，听你这么说真有趣。我记得在90年代，我哥哥是AOL的测试员。我还记得他测试这些东西的情景。

社交化与个性化音乐体验

Elad: 有没有哪些使用产品的方式让你感到意外，或者有哪些令人惊讶的用例或应用？

Mikey: 看到大家用我们的产品创造出令人满意和惊喜的作品，真的很酷。人们喜欢感受到创造力，并且喜欢与他人分享。简单来说，他们喜欢获得认可。但这和名人获得的名声不太一样。人们会花很多时间在电脑前享受创作歌曲的过程。现在的音乐制作有时很痛苦，只为了最终的成品。但是，当你向人们开放这种机会时，他们也会关心最终的作品，但他们更享受创作的过程。我个人而言，最快乐的时刻是和朋友一起即兴演奏，即使没有录音。我认为这种体验与我们通过技术带来的体验非常相似。

Sarah: 这是一个非常神奇的体验，我觉得每个人都应该感受到这种与他人共同创作的快乐。你们在产品中是否已经看到了这种现象？你们认为这种协作的快乐来自哪里？是通过自己创作，提升技能，与Suno的AI协作，还是与他人即兴创作？你们现在看到类似混音带分享的行为吗？

Mikey: 这些情况都有，真的很酷。就像视频游戏一样，自己玩音乐很有趣，但多人模式可能更有趣。比如共同写歌词，轮流写词句。我写主歌，你写副歌，或者我写歌词，你选风格，然后我做一首歌给你，你再做一首歌回来。

我认为人类进化过程中与音乐产生了强烈的共鸣，喜欢一起做音乐。每个文化都有自己的音乐。所以，看到这些情况其实并不意外，但从我们的角度来看，这真的很有成就感，因为它确实让人们聚在一起，并且乐在其中。虽然Suno并不是在治愈癌症，但能让很多人快乐，这真的很酷。

Sarah:我们之前谈到，在创作平台上，创作者和听众、观众的比例通常很不平衡，这因平台而异。虽然现在有很多人创作音乐，但你听到的作品却来自相对少数人。你认为Suno这样的平台会对这种情况有多大改变？

Mikey: 我认为会有很大的改变。虽然现在还处于非常早期阶段，但我猜我们已经开辟了几个重要的途径。首先是小众的微分享，比如我们可以制作一些只有我们三个人会听的歌曲，因为它捕捉了我们三个人共同的时刻，就像拍一张自拍一样。这种分享方式在当前的音乐中是不存在的。

Sarah: 让我们试试创作一首歌吧。我们可以选择一些特别的流派和乐器，比如夏威夷R&B和锡塔尔。

Mikey: 好主意。我在Suno上听过很多很棒的锡塔尔Trap，真的非常搭配。这种尝试让我们学习和探索新的音乐流派，带来了很多乐趣和惊喜。

Elad: 听起来不错。最近我也发现锡塔尔Trap非常棒。

‘Numerous crunching stats in my statistical paradise. Where the beats are fat, priors in the game is all about probability. Got my Hawaiian shirt feeling real fly, you see? Simple data flowing like waves on the shore. I'm diving deep beneath the score. Probability's the law.’

Sarah: 我喜欢这首歌。我们得拍一张穿夏威夷衬衫的合影。我在Suno上创作歌曲时，总是想象创作这首歌的艺术家会是什么样子，比如一个穿着夏威夷衬衫、拿着锡塔尔的大个子。

Mikey: 我喜欢这个想法。有件很酷且意想不到的事是，我们推出了一个功能，用户可以编辑歌曲标题。结果人们开始在流行页面的歌曲标题中加入自己的名字，展示他们的创作。这让人们对自己的作品感到自豪。

回到你刚才的观点，Sarah，我们经常讨论创作和消费在不同平台上的不平衡。TikTok是一个创作活跃的平台，但大多数用户还是在消费内容。我认为这项技术能极大地改变这种比例，因为创作过程非常愉快。如果我们做得对，将来我们不会用“创作”或“消费”来描述这些活动。这些活动会相互融合，我们会有很多主动消费和被动创作的内容。最终我们不会区分有多少人在创作，有多少人在消费。我们只会说人们都在享受这些音乐。

未来展望与愿景

Elad: 这是一个非常有趣的未来愿景。我想这对音乐、音乐产业以及它如何渗透到社会有深远的影响。你对五年后的情况有什么看法？

Mikey:如果我们提供一些未被广泛接触的音乐体验，我们可以让十亿人更深入地参与音乐，无论是花的钱还是时间都会大幅增加，我对此很有信心。具体形式还有待讨论。音乐是充满情感的，我不认为人们会失去与喜欢的艺术家的联系。实际上，如果你了解音乐创作过程，你会对艺术家有更深的连接。

例如，DAW（数字音频工作站）让很多以前无法创作音乐的人开始创作。如果你有一副好的耳机，有好的听觉，并且愿意学习，你就可以在宿舍里创作音乐。如果我们能给更多人这种机会，文化和音乐风格的变化速度都会加快，新音乐风格的出现也会更多。即使你只是听音乐，这也会变得更加有趣。人们不会像以前那样互相模仿。所以我对此非常兴奋。

Sarah: 并不是每个听众都会使用像Ableton这样的数字音频工作站 (DAW) 进行混音。你可以在宿舍或公寓里生成音乐，低成本地创建声音，就像Mikey说的那样。

Mikey: 当你不再需要50万美元的混音器和10人团队来制作专辑时，这确实是一个革命性的变化。许多年轻人因此被发现，对我们的文化产生了巨大影响。

Sarah: 这真的是一个未被讲述的故事。有人应该详细解释音乐数字化的过程。现在，我们可以拥有无限的声音，并用比传统工具便宜得多的方式实现这一切，而不需要会演奏任何乐器。我觉得Suno正在让这一切变得更容易。

Mikey: 我同意。过去十年的音乐变化主要是在声学上产生有趣的声音，而在让歌曲本身更有趣方面的进展稍少。这是技术解锁的结果，比如很多东西的数字化。AI可以产生我们从未听过的有趣声音，但将这些工具交到人们手中，我们可以解锁新的歌曲结构和和弦变化，借鉴并混合不同风格，制作出不仅在声学上新颖，而且在旋律上也新颖的作品。我认为这真的能让人们持续听音乐。我希望音乐可以“去TikTok化”，让我们一次听超过30秒的内容。也许我有点天真和乐观，但我认为这是可能的。

Sarah: 在我们结束之前，你也播放一首你最喜欢的创作吧。

Mikey: 我想播放一首展示榜首的歌曲，是由艺术家Oliver McCann创作的。这首歌非常有趣，播放量很高，我现在播放它。

‘Oh my love my friend you know it's been a while without thinking of you but the thoughts make me smile I know it but what am I to do I need some space to breathe so give me some room’

Elad: 顺便提一下，为了让听众了解，这首歌的歌声、音乐和歌词都是完全由机器生成的。这真的是一首合成歌曲，非常惊人。

Mikey: 是的，每天做这件事确实很容易忽视这一点，但这确实令人难以置信。进一步来说，机器甚至不知道声音的概念，它只是处理所有的声音，然后，它能够产生让我们共鸣的声音。所以这一切让我觉得我有世界上最酷的工作。

Sarah: 对于一个量子物理学家来说，这不算太糟糕吧，虽然你可能是个失败的量子物理学家。

Mikey: 没错。

Sarah: Mikey，现在Suno有多大规模了？它显然很受欢迎。你们在扩大团队时需要什么样的人才？

Mikey: 是的，我们一直在寻找最优秀的人才，热爱技术、热爱音乐，并且对将更多音乐带给世界感到兴奋的人。

-----------END-----------