AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


NotebookLM爆火背后:AI原生产品的核心洞察与创新
发布日期:2024-10-16 08:24:08 浏览次数: 1777 来源:OneFlow



Perplexity、Cursor爆火之后,NotebookLM成为又一款备受欢迎的AI原生产品。


NotebookLM是Google实验室(Google Labs)在2023年5月推出的一款原生AI笔记管理工具,能帮助用户高效地组织和提取信息,其前身是Google的Project Tailwind。


受益于有趣的产品设计与Google的多模态模型Gemini 1.5 Pro,在NotebookLM上线“音频概览”功能后,它能将文本文件、视频、PPT、录音甚至数据集都能变成自然、有趣的播客形式,这在近期形成一股风潮。目前,它已在Discord上拥有超过6万名用户。


前OpenAI联合创始人Andrej Karpathy在社交媒体上作了大力推介,并称NotebookLM让他想起了ChatGPT时刻。OpenAI CEO Sam Altman也表示这是一款很酷的产品。



为什么NotebookLM能爆红?做对了什么?作为NotebookLM的产品负责人,Raiza Martin认为真正的秘诀在于打造来一个叫做“内容工作室(Content Studio)”的工具近期,知名博主Lenny Rachitsky的播客节目中,Raiza分享了NotebookLM的诞生历程、产品背后的核心洞察和用例以及团队工作方式,此外,她还展望了产品的发展方向。


以下是访谈要点摘要:


  • 在大型组织中拥有创业心态。相比典型的Google团队,Google实验室在日常运作时流程更少,灵活性更高,这使NotebookLM团队能够更快地行动并迅速迭代,就像一家创业公司一样。


  • 寻找已有工具的独特用法。通常,强大的技术已经可用,真正的魔法的出现在于你如何与之交互。例如,通过将强大的音频模型与现有的LLM结合,NotebookLM以一种创新的方式来让用户与内容互动。

  • 不要等待完美的产品发布时间。从产品的可用版本开始,并基于用户反馈进行迭代和改进。这种做法可以揭示出意料之外的洞察和用户偏好,帮助你塑造最终的产品。


本文由OneFlow编译发布,转载请联系授权。原文:https://www.youtube.com/watch?v=sOyFpSW1Vls)

1

从“20%项目”开始的想法


Lenny:NotebookLM最近非常火爆,颠覆了大家的设想,激发了许多人对AI未来可能性的想象,也让我们看到了行业发展的巨大潜力,聊聊产品历史吧。


Raiza:Notebook最开始是一个“20%项目”(Google员工在主要工作之外,每周用20%时间探索新想法的创新机制,许多成功产品由此诞生),就像Google的很多项目一样,最初都是这么开始的。不过,我不会称它为“20%项目”,因为我们投入的远不止这一点精力。


当时我负责的是AI Test Kitchen(编者注:主要用于测试Google的各种AI系统),这是我们最早在Google推出的AI项目之一。我记得实验室里有一个更小的项目叫“Talk to Small Corpus(与小型语料库对话)”,其想法是拿一段内容,使用大语言模型与之互动。我们当时觉得这个点子听起来很有趣,但后续应该怎么改进,让它真正有用呢?当时就只有我这一个工程师,后来Steven Johnson也加入了。


Steven是你能见过最聪明的人之一了。他写了14本书,是《纽约时报》的畅销书作者和演讲者,他在PBS(美国公共电视网)有一个节目非常精彩。他是一位记者和思想家。他的文章How AI is Mastering Language, Should We Trust What It Say(AI如何掌握语言,我们能否信任它所说的话)刊登在《纽约时报》上,这是我考虑加入实验室时Josh Woodward(Google实验室副总裁)发给我读的其中一篇。当时读完这篇文章,我心想,这就是我要做的,我要参与这个项目。


非常有趣的是,唯一真正全职投入这个项目的人其实就是负责这项技术的工程师,其他人都是陆续参与进来,大家都觉得这个项目非常有趣,一起讨论怎么把它做得更好。因此,它确实是从一个“20%项目”开始的,并逐渐发展壮大。


Lenny:随着项目的发展,团队规模肯定也在扩大。现在团队大概是什么情况?


Raiza:上个月有很多人加入,主要是为了应对未来发展需求,但在此之前,我们的工程师数量甚至不足10名。我们发布Project Tailwind(NotebookLM前身)时只有3个工程师。我,一个设计师以及Steven,即使从去年第一次Google I/O大会到上个月,我们大概也只有8个工程师。


2

让产品生成出人意料的惊喜内容


Lenny:我们来聊聊Audio Overview(语音概览)功能吧,这个功能是怎么诞生的?


Raiza:今年五月的I/O大会上,我们发布了这个功能的预览版。当时NotebookLM发布的是一个基于内容的聊天界面,很多人在用。我们当时在研究Google推出的新模型,比如即将发布的Gemini 1.5,以及一系列对现有技术的升级。我们在思考如何利用这些新技术,让NotebookLM变得更好。


于是,我们开始和Google内部的另一个实验室团队合作,他们有一些非常强大的音频模型,于是我们开始思考一些好的应用场景。最后灵感来了:如果能让用户只提供一点信息,比如输入一个URL或上传简历,然后系统就能自动生成一些让人意外、充满惊喜的内容,那会怎样?


Lenny:你们最初要解决的问题是什么?


Raiza:我一直以来构建产品的方式是从问题出发,思考如何以有意义的方式为人们解决这个问题。而在Google实验室,特别是从技术出发,这实际上是一个很有趣的起点,你会想这个技术有什么实际应用?有些人会直接把工具推出去,研究人们如何使用,这也没错,但我们尽量在此基础上进行更多的假设,以获得更多收获。


对于音频功能来说,关键点在于人们已经可以与文本互动,但却觉得“输出的仍然是文本”。我个人很喜欢语音交互,因此经常使用语音输入。而我注意到,特别是我早期实验时,语音输出对我产生了很大影响,改变了我与技术的互动方式,改变了我对技术的感觉,甚至影响了我在整个过程中实时思考的方式。


因此,我们想用一个恰当的方式来向人们介绍这个功能,让人们能够轻松获取价值,同时也能玩得开心。对我来说,乐趣也是一个很重要的部分,如何让这个功能变得有意思?我们做到了这一点。


Lenny:这感觉很像“ChatGPT时刻”,当时技术已经存在了,GPT模型已经发布一段时间了,但正是这种新的互动方式改变了人们对其可能性的想象,大家立即看到了其强大的能力。技术已经在那里了,而你们开发的这个新媒介真正激发了人们好奇心,没想到AI已这么强大,语言模型这么厉害了。


Raiza:很多技术都需要去塑造,让它更贴近我们的生活。反复推敲和迭代的过程非常有趣,你会去思考它的形态应该是什么?如果你不断努力,最终会出现一个人们看到后会说“我明白了”的产品,这始终是我们追求的目标。


我同意你的观点,技术一直存在。即使是我们今天所知的LLM聊天机器人,自出现以来,再加上引入的这些新技术,我们才做了两年,但已经在探索多种不同的使用方式。


3

NotebookLM成功背后的秘诀


Lenny:把内容做成音频内容是个很出人意料但很聪明的点子。我们来深入探讨这背后的技术吧。首先,需要哪些技术才能让这成为可能?其次,你们是如何让音频内容变得如此出色?你们是怎么训练模型来生成这么高质量的音频内容?


Raiza:Gemini模型非常强大,我们使用的是Gemini 1.5 Pro作为NotebookLM的基础模型。在此基础上,我们还有一个强大的语音模型和音频模型。但我认为,真正的秘诀在于我们打造的一个叫做“内容工作室”(Content Studio)的工具。你可以在NotebookLM中看到这个工具的线索,当你打开Notebook Guide时,它会采取一种有判断倾向的方式处理你提供的内容。它为你提供概述,点击后它会为你生成内容,音频是其中一个重要部分。


对我们来说,有趣的地方在于我们需要考虑这些音频内容应该是什么样的。我们首先想到的是“深度探索(Deep Dive)”的形式。我们团队里有一位非常有才华的工程师Usama,他是内容工作室背后的匠人,他深入思考了如何让内容与人们产生共鸣,使其更具吸引力和趣味性。内容工作室是真正“奥秘”所在。


我不能透露太多工作原理,但你可以想象,内容工作室和NotebookLM的核心功能一样,允许你以不同的方式与数据互动。你可以在NotebookLM中进行问答,但有时你只想按下一个按钮,生成一些新的内容。内容工作室正是与这种需求相连接。


Lenny:所以这个接口是用来与NotebookLM互动的,包括不同的提示和如何提问的建议?特别的是,在互动和对话的方式上,如果你听这些音频内容,你会发现它们会笑、会犹豫、会偶尔打断对方、会表现出惊讶,还有非常传神的语气变化。你们是怎么做到让音频听起来这么自然的?


Raiza:这是我们所用的音频模型的功劳。与此同时,设计出内容工作室也是为了充分发挥这个模型的优势。我们回顾了很多早期生成的音频,都远远没有达到现在的效果。我们做了大量的聆听工作,去找出让模型以当下这种方式表现的效果。


Lenny:你们是听了很多音频内容的片段,然后从中找出一些共鸣点吗?


Raiza:大多数时候我都尽量不在家谈论工作。不过,当我在家里反复听这些音频概述,厌倦了戴耳机就直接外放。我丈夫会问我在听什么,觉得没完没了、毫无意义。我只好说,这是我的工作需求。有趣的是,他居然没发现这是AI。


Lenny:我进行过很多尝试,其中一个是为我妈妈写了一篇简短的自传。我有这份自传的PDF版,于是把它输入到NotebookLM,生成了音频并发送出去。她大为震惊,给所有朋友展示,还说不知道这是怎么回事。我很喜欢的一个功能是创建学习指南,这是NotebookLM的一个功能选项。我把学习指南发给她,她回复说,在犹太新年晚宴上要讨论她的传记的学习指南。


Raiza:这真的很有趣。我也为我爸爸做过这样的事。我把他的个人医生简介输入到NotebookLM中,为他生成了一个音频概述。我父母都从事医疗行业,他们并不完全清楚我的工作内容,但他们第一次觉得这太有趣了,原来这就是我从事的工作。


Lenny:你有没有看到过其他一些特别令人惊讶且有趣的音频深度探索的使用案例?


Raiza:我觉得与简历相关的案例非常有趣。在Google的第三季度考核时,我们需要为自己撰写绩效评估。有很多我甚至都不认识的同事联系我说,他们上传了自己的考核笔记,然后让它生成一个音频概述,这就极大地提升了他的信心。因为人们听到AI主持人对他们的季度工作很兴奋,所以进入正式会议时也会自己感觉良好。


Lenny:你说的简历内容,是不是指人们上传简历后,NotebookLM会呈现出对员工的正面评价?


Raiza:是的,这很有趣。我思考过它的使用场景,猜测可能有人会想试试这个新玩意儿。他们就会点击 “上传Google文档”,也许是自己的简历。想象一下,点击那个按钮,你还不知道会发生什么,但只需点击 “生成”,就会有两个人大力夸赞你。


4

Google内部的非典型产品团队


Lenny:作为外行人,这感觉不像是Google的产品,Google总会制造出让人愉悦的产品,但这个产品带来的愉悦感似乎与其他产品都不一样,你们的运作方式也颇具创业公司的风格,比如,你们每天都会在推特上分享事情进展。你是怎么在Google内部做到这一点的?这是否是你认为Google团队更愿意采用的运作模式?


Raiza:这是个很好的问题。我觉得可以分为这样几个问题:它是如何出现的,我们又是如何能够以这种方式运作,以及其他Google团队想要如何运作。


就回答第一部分而言,我想说这很有意思,因为Google实验室才成立大概三年,我加入时实验室还空无一人。我加入实验室是因为它是我的上一任老板Josh Woodward创立的,当时我根本不清楚Google实验室是什么,但我非常喜欢前老板,当时想无论他做什么,我都会去做。无论他有什么新想法,我都会去执行。


我刚加入时曾问道,我们的使命是什么?我们在这儿是为了什么?他回答说,我们要推出人工智能产品,并围绕它们开展业务。我之前从事的是支付和广告方面的工作,因此需要大量的学习新知识,这在思维上需要一定的转变,但我感觉这是我再次从无到有进行尝试的机会。我对此真的非常兴奋。


我曾和Josh谈论过,如果我们真的想实现从无到有的突破,就必须采取截然不同的做法。正因如此,我觉得这就是NotebookLM能够以不同方式运作的原因。在Google实验室里,我们拥有快速推进的环境。


我们的流程很少,甚至少到近乎极简的程度。有时,我们会参加这样的会议,产品经理、工程师和设计师都齐聚一堂,我们会同时进行模型设计和产品需求文档(PRD)的制定工作。在我们开会时,工程团队基本上已经在进行实施了。根据Google的工作传统,一般不会这样行事,尤其是从我之前所处的部门来看,完成一件事要花费大量时间。


Lenny:很多公司都想组建这样的团队,他们说要组建一个独立团队,去搞那种很有未来感的疯狂玩意儿,但实际上这种做法很少能成功,Google过去也有很多类似尝试,可大多都没成。在你在描述中,我发现了一些关键之处。第一,高层领导的想法很清晰,包括不同的做事方式,不按常规的排期流程。甚至不一定要先定个目标,就只是研究酷炫的技术,看看最后会怎样,另外,你们团队规模很小,这些似乎是成功的关键。


Raiza:确实如此。还有一件重要的事情,那就是我们得尝试新事物。从一开始我就想我们要开一个Discord用户群,肯定要有这样的东西。而按照Google一贯的行事风格,大家的反应是Discord是什么?好吧,去做吧,但接着又会问它到底是什么。


Lenny:为什么不用Google Meet?


Raiza:确实有人问过我为什么不用Google Meet、Google Group?当时的想法是,我甚至都不清楚如何在外部使用这些东西,所以我认为,Discord才是可行的途径。我最担心的事情之一就是要是没人加入该怎么办?要是没人进来讨论我们开发的东西该怎么办?现在回想起来,从第一天到现在已经有6万人加入,这真的非常令人兴奋。


还有三件值得分享的事。第一,对于一个推出仅约一年的产品而言,在通常衡量的留存率方面,即日留存率、周留存率和月留存率上,其上升速度对我们来说极为积极。甚至在与利益相关者交流时,我们都会说这里有好东西。


第二是用户群体的变化。起初,很多教育工作者和学习者非常喜爱这个产品,他们是我们用户群体的重要部分。如今,用户群体变得多元化。教育工作者和学习者依然占很大比例,但专业人士也表现出极大兴趣,他们将其用于工作。最近我与一家公司通话,他们发现公司里有一群人在用他们的Gmail账号使用这个工具,他们本不该这么做,不过现在正式规定允许员工在工作中使用工作邮箱来使用这个工具。


第三是使用NotebookLM的企业客户数量惊人,简直疯狂。我们现在已经到了必须招聘一名业务拓展人员的地步,因为我每天都要接听客户电话。


Lenny:对于这个团队和你而言,成功意味着什么?最初,你们可能只是想构建有趣的东西,然后看看会有什么结果。现在,对于这个团队未来应该达成什么样的目标,是否有了清晰的认知?


Raiza:我加入时,我的任务是创建一项业务。当时的想法是,如果我们把步骤拆解来看,那么在这个过程中,首先得打造出有意思的东西。我感觉我们已经做到了这一点,现在需要理清业务方面的问题。对于Google来说,思考如何推广、如何实现盈利以及如何将其商业化是很自然的事情,不管是通过云服务、工作空间,还是面向消费者的途径。对我而言,需要对用户体验进行更加深入地挖掘。在做这件事的同时,也应该考虑商业化的问题。


Lenny:来谈谈Steven Johnson在整个团队中扮演的角色吧。


Razia:我非常喜欢Steven,他特别有趣。Steven是一个充满好奇心、创意且尊重他人的人。我对他的工作方式很感兴趣,进而观察他对语言、信息和知识的看法,以及他是如何与人分享的。Steven的书真的很棒,既富有神秘色彩,又充满科学性,通过观察他的工作,我看到他做了大量的研究。也许我可以通过观察Steven的工作方式,他的技艺和简化信息的方式,了解他完成任务所需的时间,然后制定自己的标准,将他的专业技能传授给像我们这样的普通人。


Lenny:有没有什么经验教训让你思考未来如何打造产品,或者团队如何找到他们自己的Steven来开发产品,还是说这是一个独特案例?

Raiza:我觉得邀请像Steven这样的人加入团队,每天和他坐在一起,让他来解答如何正确地完成各种事情,这真是太疯狂了。更有意义的一课,也是我们每天在努力实践的是如何让用户或大家与你共度有意义的时光。这对我来说至关重要,不仅对Steven如此,对学生也是如此。跟着学生转,观察他们做作业、学习,和他们聊聊学习时的感受。我认为,能够有规律且有意识地做到这一点,对于你形成产品洞察力有巨大影响。


Lenny:感觉他是一个完美的综合体,聪明且有前瞻性思维、洞察力,他几乎就是你希望人们能够效仿的工作典范。


Raiza:坦白说,Steven和我在很多方面也有不同意见。我们有过不少冲突,但正是这些经历让我非常感激能够有机会与他合作,并以这样的方式与他共同成长。他非常脚踏实地,也非常谦虚,即使我们有分歧,最终也总能达成一致。这对专业产品人士,特别是产品经理来说,是强有力的支持,我不希望最后因为意见不合而一事无成。


5

NotebookLM的未来演进


Lenny:这个产品会如何发展,尤其是音频概述方面。


Raiza:我有一套特别丑的橙色PPT,真希望能展示给你看,那是我两年前做的。我都不明白自己当时是怎么想的,可能是想营造出一种非Google风格的氛围,就好像在说这次你要做不一样的事情了。那套PPT对我来说非常重要,承载着我的愿景。从一开始,我就想象着,在未来能够拥有一个完全可重新编辑的AI编辑界面,它可以处理任何输入和输出。


对我而言,这是一个非常有力的核心想法:假如你能够获取任何东西——无论是视频、音频、电子邮件、LinkedIn、Twitter内容,还是其他任何你关心的内容——并且拥有一个AI界面,允许你去塑造它,“从这些内容里,给我生成一篇博客文章。从这些内容里,给我制作一个教程视频。从这些内容里,创建一个聊天机器人。” 有趣的地方在于,对于大多数人们想做的事情来说,需求通常都是类似的,也就是获取一些内容并将其变成新的内容。我们将会去追求这一目标。


从技术层面来讲,我真正感兴趣的是思考如何将其应用到移动端。在目前的体验方面,移动应用存在着很大的差距,考虑到我们在产品开发周期中所处的阶段,这是可以理解的,但我认为这是下一个目标。


Lenny:我现在在设想,我能够以移动端体验的方式参与到与这些AI主持人的对话中。


Raiza:这是我们肯定会去尝试的事情之一。当我们在I/O大会上进行演示时,你可以对其进行打断操作,但我们正在认真思考这种打断实际呈现出来是怎样的,以及人们在进行打断操作时想要的是什么。对于我们接下来要推出的一系列改进内容,我最初想到的是,我们推出一些调节按钮,人们想要调节按钮、滑块和文本框。然而,当我看到模型时,我意识到,虽然给予人们更多的控制权是好事,但这可能不会像我们目前推出的产品那样给人带来神奇或愉悦的感觉。所以,我花了一些时间去思考怎样才能让控制体验也变得更加神奇和令人愉悦。


Lenny:很有趣。我想象中的那些调节按钮,就像是 “更深入”“更开心”“更严肃” 之类的。目前,它就像一次性的交易。这是我的文档,这是随后得到的音频内容,而且这是你所能拥有的唯一版本。


Raiza:确实是这样。这挺有趣的,很容易想到调节按钮这件事,我当时还在疑惑,这真的是人们想要的吗?


Lenny:我很期待看到在这方面的进展。我曾有过一份时事通讯,一个只有音频的播客,后来我又添加了视频。我意识到有些人只想观看内容,有些人只想收听内容,还有些人只想阅读内容。所以你所描述的本质上是将信息以人们喜欢的任何媒介传递给他们。它可以是一篇博客文章、一条推文、一个播客、一份时事通讯或者一个视频。


Raiza:确实如此。就我自己而言,这也取决于我的心情。当我在散步时,我想要音频内容;而当我在工作时,大多数情况下文字内容就很不错。思考一下如今的内容格式为何没有那么强的可塑性,我不得不接受你所给我的内容格式,但如果我能够选择,那么这就会改变人与所获取知识之间的动态关系。有很多次,我拿到一份100页的文档,最终却没有去读它,所以这种灵活性至关重要。


刚加入实验室时,Josh给了我一份50页的文档构想,然而我并没有去读它,只是不停地向他提问。我当时就说,“Josh,像聊天机器人一样回答我的问题。” 而他则说,“Raiza,所有内容都在文档里。” 但是Josh,聊天(问答)可要轻松多了。


Lenny:我们再深入聊一聊这个产品功能的不同使用场景吧,这样人们可能会从中获得灵感。看起来最初的使用场景之一是针对一篇科学论文,它可以据此创作出一段音频,这样你就不用通读整篇论文了。


Raiza:这是常见的使用情形之一。因为每个人都想掌握AI的最新情况,试图跟上已发表论文的步伐,但多数时候,阅读一篇论文会花费大量时间。论文内容丰富且复杂,你得理解其中的概念。所以,把科学论文转化为音频概述是一个具有很强扩展性的使用情形。不过首要的使用情形实际上是很多学生将他们的学习资料转化为音频指南。对他们而言,在外出或放松的时候收听学习资料非常有用。


Lenny:我想到了一个使用案例,顶尖AI科学家Andrej Karpathy(前OpenAI联合创始人)也是你正在构建的产品的忠实粉丝。他在Spotify上创建了一个名为“Histories of Mysteries”的完整播客系列,他基本上是把维基百科上所有历史谜团的故事转化成了一个十集的播客系列。


Lenny:你们是如何对这个项目进行红队判研,确保它不会对世界、对Google或对产品造成负面影响的?


Raiza:在Google,红队判研是我们最重视的事情之一,我们有庞大的团队专门负责这项工作。我们会测试尽可能多的领域,以确保产品安全。当然,我们可能会遇到一些意料之外或未充分测试的情况,这时我们就会将其加入测试案例。如果发现某个场景存在明显的安全隐患,我们会将其撤回。但幸好,目前我们构建产品时还没有遇到需要这样做的情况。


Lenny:NotebookLM未来会怎样发展? 听起来你们好像正在开发一个移动端应用程序,还有一些非传统功能来赋予用户更多使用权力。


Raiza:我最想说的一点,那就是我们每天都从用户那里学习,所以请继续使用NotebookLM。请继续分享你的反馈,无论你觉得它有用、没用,或者你觉得它令人厌烦都告诉我,无论是在推特还是在Discord上,我每天都在那里。即使没有回复,我也读了所有反馈。不要觉得我说的太过于浮夸,因为我们真的怀有极大热情,致力于为所有人打造正确且最好的产品。


我认为,有很多有趣的使用场景,但也有许多非常有用、能够改变游戏规则的工作流程。我们将继续朝这个方向发展。特别是对于教育工作者、学习者、专业人士和知识工作者,我们可以在短期内为其实现很多功能。




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询