AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


NotebookLM:语音产品的前奏,拆解硅谷最近的现象级 AI 产品
发布日期:2024-10-13 07:10:46 浏览次数: 1622 来源:Sentrum Okern



如果说硅谷最近有什么大家都在讨论的产品,那一定是来自谷歌的 NotebookLM。Sam Altman 在上周的 OpenAI Dev Day 上被问到除了自家产品外,最喜欢的 AI 产品是什么,他点名提到了 NotebookLM,他真的很棒。


在 OpenAI Dev Day 上 OpenAI 终于发布了目前第一个 Speech-to-Speech 语音接口 Realtime API,Sam 说和它语音对话让他第一次停不下来用 AI。


是的,语音作为交互入口来重塑用户产品体验的时候到了,而 NotebookLM 的 “Audio Overviews” (音频概览)功能,将任何输入的内容转化为几分钟双人 AI 播客的形式,应该目前是以语音为主要媒介的第一个现象级产品。它将不同模态内容(文字、幻灯片、音频、网页视频等)转化成双人对话音频的方式体现的是对人们接受信息的扩展。


本文结合 NotebookLM 核心成员的观点,拆解这块小巧精妙的产品是如何诞生的,包括以下内容:


1. NotebookLM 背后的团队

2. 产品起源:如何让技术离人们更近?

3. NotebookLM 是什么?

4. NotebookLM 是如何实现的?

5. 为什么是谷歌?

6. NotebookLM 的未来:All-In-One 的多模态内容重组器


稍等,先看一下 NotebookLM 对这篇文章的介绍吧!




一、NotebookLM 背后的团队


NotebookLM 是 Google Labs 孵化出的一个 AI 产品,最早开始于 2022 年,有三名早期成员,包括一名产品经理 Raiza Martin,作家 Steven Johnson 和一名工程师,其中只有工程师是 100% 投入到这个项目中,其他人是投入一小部分时间进来。


在这之前,NotebookLM 在谷歌是一个“20%”的项目,团队规模一直保持精简,直到上个月才开始扩大,而目前团队的工程师也只有 8 个人。


Steven Johnson|Google Labs 编辑总监:著名的美国科普作家和记者,于 2022 年夏天,他作为 Google Labs 的编辑总监加入了 Google,是 NotebookLM 得以实现的”大脑“。作为一个文字工作者,他将自己对文字、知识和内容的理解和创作过程产品化,是创作优质内容产品的核心人物。关于学术背景,他获得了布朗大学符号学学士学位,哥伦比亚大学英语文学硕士学位,是《我们如何走到今天:重塑世界的6项创新》、《伟大创意的诞生:创新自然史》等 14 本书的作者。


Raiza Martin|产品负责人:2019 年 4 月起加入谷歌,之前联合创办了 女性护肤品牌 Ma Mere Skincare,再之前是 NewsON 和多家初创公司如Chameleon、Atlas Informatics的客户成功经理和产品顾问。


Usama Bin Shafqat|AI 工程师:早期 NotebookLM 唯一的一个工程师,也是他搭建了最早 NotebookLM 的产品形态,被 Raiza 称之为一个手工匠人(craftman)。普林斯顿计算机本科,于 2018 年毕业后加入谷歌。


Jason Spielman|产品设计师:2017 年作为 Google Assistant 的交互设计师加入谷歌,后加入 NotebookLM 团队。


Google Labs 的副总裁 Josh 联系 Steven 说:“你一直在构想一个完美的软件,可以帮助你组织思路、辅助写作、促进联想和头脑风暴。我们相信现在可以将它变为现实。”约翰逊接受了这个机会。


二、产品起源:如何让技术离人们更近


NotebookLM 的 “Audio Overview”,这种音频输出 AI 双人播客这样的产品形态的背后,其实是团队一直在探索用户与文字类内容的交互形态,长达两年。


产品负责人 Raiza Martin 认为,语音输出可以改变人们接受信息的方式,使其更生动有趣。她希望找到一种方法,将这种新的交互方式以一种轻松、有趣的方式呈现给用户。

在以前,我们与文字类内容互动的方式仅限于文字输入→文字输出,而音频可以改变人们接受信息的方式,让音频输出更真实有趣。


“我感觉我一直以来构建产品的方式是从一个问题开始,然后思考如何以有意义的方式为人们解决它。”


“语音输出改变了我与技术互动的方式,它改变了我对技术的感觉。它甚至影响了我在这个过程中实时思考的方式。所以我们在想,有什么好方法可以向人们介绍这个,让他们轻松获得价值并玩得开心?对我来说,乐趣是其中很大的一部分,就是我们如何让这个变得酷。”


Raiza 说。



三、NotebookLM 是什么?


NotebookLM 是一个基于用户所上传信息的 AI 研究助手,用户可以与所上传的内容进行交互、提问,甚至生成一段十分钟以内的 AI 双人英文播客(Audio Overview)。值得注意的是,它是一个"封闭系统",只依赖用户提供的内容,而不进行网络搜索。



信息处理:


允许用户上传各种格式的文档,包括Google文档、PDF、文本文件、Google 幻灯片和网页URL等解析文档内容,将其分割成小块以便理解。


智能问答:


用户可以针对上传的文档提问,NotebookLM会基于文档内容回答。



内容生成:


生成文档摘要和关键问题


生成音频概览:可以生成一段十分钟以内的双人 AI 播客音频,模仿真实对话,包含自然的玩笑、语气词和情感深,这也是最被关注的核心功能。



几个有趣的使用场景:


1.上传简历:可听到两个人在谈论你的简历,讨论你伟大的历史叙事(笑,建立自信

2. 上传论文:生动解释、进一步了解论文里的内容

3. 上传家人和朋友的个人介绍:送给他人一个自传


主要用户:


最开始是教育工作者、学习者很喜欢这个产品,他们是主要的用户群体。


Professionals|专业人士:随着产品的兴起,一个比较有意思的现象的 Raiza 表示最近有很多企业用户注册甚至前来联系使用,希望将其用于工作。



四、NotebookLM 是如何实现的?为什么是谷歌?


技术路线


基座模型|LLM:使用 Google 最新的大型语言模型 Gemini 1.5 Pro 作为基座模型


音频模型|TTS:为了实现 “Audio Overview” 功能,NotebookLM 使用音频模型将文本转化为音频。该模型的关键在于生成自然的音频输出, 包括合适的停顿和节奏、连接词和语气词的使用,以及逼真的音色。


内容工作室|Content Studio:这是 NotebookLM 真正的核心,它涵盖了用户与输入内容的交互方式、界面设计,以及背后的提示词和工程实现。



为什么是 Google?


除了以上核心技术, NotebookLM 的成功也得益于 Google Labs 的独特环境和团队的协作方式。


Google Labs 成立于两年前,Josh Woodward 是 Google Labs的副总裁。Raiza 是最早的成员,成立的初衷是希望通过一个小团队来敏捷实验 AI 产品。


1. 有着比较清晰的目标:Josh 最开始成立 Google Labs 的初衷就是探索 AI 产品,即搭建一个灵活的团队来探索 AI 产品。


2. 深度协作:采用了一种非常高效的协作方式,产品经理、工程师和设计师紧密合作,快速迭代产品,甚至开会都是在“落地”,而不是单纯的“讨论”。


“我们的流程少得多,甚至可能少到有问题。有时我们会去开会,字面上就是产品经理、工程师、设计师都在一起,我们会同时修改模型和 PRD。而工程师基本上在我们开会的时候就已经在实施了。在Google,这不是传统的做事方式,特别是来自我之前所在的组织。做每件事都需要很多时间。”


3. 精简的团队: NotebookLM 的早期团队非常精简,只有一个产品经理、一个工程师和一个作家,这使得团队能够更加敏捷地进行实验和开发。


4. 和用户一起构建:NotebookLM 团队注重用户反馈,并不断迭代产品。他们早期就成立了 Discord 社群,可以很直接高效地收到反馈并做跟踪。例如,他们发现用户对内联引用的需求很大,于是迅速开发并发布了该功能。他们还致力于构建全新的、AI 原生的产品,缩小最先进研究与人类问题之间的差距。


NotebookLM 的 DIscord 社群


然而,NotebookLM 的 “Audio Overview” 功能也存在一些缺点。例如,Discord 上一些用户认为对话风格过于随意,不适合所有主题。


五、NotebookLM 的未来:All-In-One 的多模态内容重组器



多模态的内容编辑:Raiza 分享了自己在两年前对 NotebookLM 的理想产品形态,她是一个支持任何内容模特输入和输出的 AI 编辑器,或者我更愿意称之为一个“内容重组器”。你可以拿任何东西,无论是视频、音频、你的电子邮件、LinkedIn、Twitter,来输出任何你想要的内容,比如一段对话、一首歌、一段视频,甚至一首诗!


个性化人们对内容的消费方式和内容消费形态:比如工作的时候希望读文字、汽车做家务的时候更想听音频、偷懒休闲的时候可以看看更有趣更短的视频。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询