我要投稿

NotebookLM 启发的 AI 原生产品设计思路

发布日期：2024-11-05 22:06:30 浏览次数： 2112 作者：AI炼金术

Modality：模态转化

知识产权液化，随时随地变形

红红火火，其实和 NotebookLM 没什么关系。

和 Audio Overview 更相关，5 月份 IO 大会上宣发，9 月份正式上线，两波流量上涨。

Audio Overview 功能，和之前的 NotebookLM 相比，最直观的变化就是模态：语音。

类似的例子其实可以参考"樊登读书"和抖音上的"3 分钟看完 XXX"。

樊登读书，本质上是把经典书籍里的大道理，transform 成口语唠嗑，保留书籍里核心道理和趣味段子，但通过口语化、故事化、带情绪的表达，极大降低内容消费的认知成本。而那些"三分钟看完 XXX"的电影解读，通过旁白简化、快速讲解，只保留核心剧情和高光片段，也是通过 transform 来创造新内容。

如果是在同一个模态里做变化，比如把一个故事改成类似的一个故事，其实有很强的侵权风险。但模态转化之后，事情就变得模糊起来——樊登读书算侵权么？"三分钟看完 XXX"算侵权么？Andrej Karpathy 用 Wikipiedia 页面让 NotebookLM 生成的播客 Histories of Misteries 算侵权么？

技术的发展，总是会比社会规范的发展要快。传统的知识产权制度还没有跟上来的时候，是不是存在着大量的"洗 IP"的可能性？机会、风险和边界在哪里？

变成音频，变成服务

如果不把 Audio Overview 仅仅看作音频生成，而是模态变化，那么，下一步自然是视频和交互。

视频方面，归藏做了个有意思的 demo：

而在 Google IO 大会上，也已经演示过交互功能：

之前有看过类似的项目，是直播间 AI 一对一交互。比如你董宇辉直播间看他买菜刀，忽然想了解这个菜刀能不能拍蒜，就提问了，这时可以分叉出一个 AI 董宇辉一对一回答这个问题。顺着这个思路下去，其实所有的内容，都可以转化为视频、转化为虚拟人、转化为一对一的服务形态。

那么又是类似的问题，给梁宁的新书《真需求》做一个连载播客算侵权么？如果我没用梁宁的名字也没有提到《真需求》呢？如果我提到了梁宁也提到了《真需求》明目张胆蹭流量呢？给我的播客《AI 炼金术》做一个 AI 问答机器人算侵权么？如果只用到了内容但是没有蹭 IP 呢？如果硬蹭呢？

机会、风险和边界在哪里？

Persona：人格视角

被当作"人"，而不是工具

NotebookLM 还有个很特别的地方，就是非常"不机械"，非常"像人"。

想了一下，这个"像人"，主要可能来自于很多方面。首先是遣词造句非常口语化（甚至于有磕巴），加上语音语调非常自然情绪饱满，真人感觉就很足。更进一步，Audio Overview 采用用户旁听两个 AI 对谈的形式，而不是用户发出指令让 AI 回复和执行的形式，进一步降低了"应答工具感"（我说一下你动一下就很像是工具）。

而当用户相信了"人设"时，同样的任务，心态就发生了变化。比如同样是"讲书"，如果是一个工具，用户只会去评判"这个讲得好不好（其实就是看讲述的重点和他视角看到的重点是否重合）。但如果是听"樊登读书"，其实用户同样感兴趣"樊登的视角下，看到了什么"，评判会减弱，而好奇会加强。

所以，才会出现刷屏的"让 NotebookLM 为我的日记生成播客"和"让 NotebookLM 为我的简历生成播客"的玩法。用户要的并不是一个客观的"总结"或者"优化"，而是被另一个"人"看见和重视的感觉，以及从另外一个人格视角重新发现自己的新鲜感。

我也让 NotebookLM 根据我的 Linkedin 和网络搜索结果（秘塔搜索）出了一期播客。

怎么说呢……一边脚趾抠地，一边忍不住听下去，一边想“我真的有这么好么”、“我的故事这么漂亮”、“哇，原来还有这一面”……效果堪比最好的夸夸群。可能让我们爽到的，不一定是“夸”，也可能仅仅是“被认真的看见和对待”。

旁观者视角，心态更平和

前面说过，旁观者视角降低了 NotebookLM 的"应答工具感"。更进一步，这个视角其实也大幅度降低了用户的使用门槛。AI PM 常说的话就是自然语言交互界面给了用户充分自由，用户想干嘛只要说出来就好，但实际上"清晰表达需求"甚至于"能够应答对话"都需要付出很多的认知资源，并不容易。

什么更容易呢？刷抖音更容易，因为只需要"刷"，只需要看；听播客更容易，因为只需要旁观，只需要听就好。一次点击，生成音频，听就好，岂不快哉。

另外，旁观者视角同样也会弱化评判心态。如果是我们直接和 AI 一对一交互，很容易期待 AI 一次性给出让我们满意的回答，一旦期待落空就会失望。但如果我们只是旁听两个 AI 对话，我们会给他们更长的时间更多的机会表达，然后我们会听一个整体感受然后再给反馈。前者更像是在听下属述职，期待更高；后者更像是参会旁听，耐心更足。

去年初我写过一个"组织 6 个 AI 大佬形成自己的私董会"的 prompt 火了，后来我们根据这个想法 MVP 了一个小工具 ChatRoom，也是用户说点什么，然后看到 6 个 AI 围绕这事儿吵来吵去，用户只需要旁观就好，也是这个大逻辑。

Engaging：趣味优先

混搭的反差，创造新奇感

在 NotebookLM 创始团队几个采访里，都反复提到了他们觉得产品首先是要好玩（fun，entertaining，engaging），觉得这也是我们在做效率类工具时可以多提醒自己的角度。

首先是表面的好玩，要让人印象深刻，要出梗，这样更有利于传播。比如有用户上传了一个全是 poop and fart（屎尿屁）的文档让生成 Audio Overview，出来的结果意料之外的好（两个 AI 在认真讨论自己是不是中了"总想在无意义中寻找意义"的毒，这是不是类似于杜尚的小便尿斗（《泉》）的当代艺术表达，以及建议大家别太把一切当真，let it go 吧，非常有趣而且有深度）。

这种过于离谱的段子很多（比如还有一篇写满 Chicken 的论文），而这种内容的传播性显然好于正经内容。举例来说，我也用 NotebookLM 做了两档英文播客（100 Must-Read AI Papers 和 100 Successful AI Startups），你看到这两个名字只会评估实用性（值得听么，讲论文比"李沐讲论文"讲得更好么），而很难激起好奇心。但根据前面那个全是屎尿屁的文章生成的深度播客，你难道不好奇想听一下么？

这种好玩，其实首先来自于混搭造就的"反差感"，用新闻联播的方式一本正经聊 poop and fart，或者用播客聊天的形态比较两份保险单，都是日常生活中见不到的搭配，充满了新奇。如果是一个开放命题创作，AI 现在未必比人类更强。但如果是规定的混搭题（比如用古诗词形态说清楚原子弹爆炸和酸奶发酵有什么共同点），AI 完成这种命题作文的能力比人类强百倍，应该好好应用。

故事好听，比精确总结最重要

做产品的时候，我们经常有一个倾向，就是把一切都当做“需要解决的问题”，从而把思考重点全部放在“如何高效解决”上。但实际上，很多事情并不是“问题”而是“体验”，不需要效率而需要爽感。

比如购物助手，很容易就思考到帮用户去比价、比参数、找到最适合的产品。但国民经济里有多大比例是这种刚消费呢？回到所谓“知识萃取”场景，很容易也想到如何“总结得准确”，但我们真的需要一份总结得更准确的记要么？我很怀疑，因为我自己几乎从来不看自己的读书笔记和会议记要……

我们更多的，是想要消费内容获得爽感，而不是进一步深度工作获得效率。当然，如果能够戴着“深度工作”、“深度学习”的帽子来消费内容（本质类似于刷抖音）的话，既得到即时满足，又让自我感受良好，当然更好。类似很多人刷抖音 2 小时看段子会有负罪感，但听范登读书 2 小时讲段子会觉得自己在学习，后者让人感觉更良好。

所以，哪怕是工作和学习类的产品，其实还是要花很多时间研究“体验”的爽，而不是效率提升。到 Audio Overview 这个具体的产品，创始团队在采访里就反复强调需要把产品设计得更加 engaging，其中两个方法一个是创造 tension（紧张感），让两个 AI 不能总是太平和、太一致，得偶尔吵起来；另一个则是要保持悬念，不要一开始就把核心信息暴露出来（虽然根据金字塔原理来说这样效率最高），而是要慢慢铺陈，渐渐展开（unfold），保持听众的兴趣。

这两天 Meta 也出了个开源的 Meta NotebookLM，其中第三步是 Dramatise Podcast，也是类似的逻辑。

Podcast：巧妙定位

听播客，有启发就好

觉得 Audio Overview 有一个很赞的特点，就是简单，点一下就好，没有太多选项，这样交付就简单，品控就好做。

但可以这么做，其实是因为定位得当，借用的是听播客的心智，而不是“安排任务”的心智。如果是安排任务，自然得安排得细致妥帖，但如果是听播客呢——看标题选好听哪期就好，不会有我得指点播主多讲点这个少讲点那个的心思（虽然后面给了定制化功能），这就让交付容易了非常多。

更进一步，只要是在“听播客”的框架下，大家更多的期待其实是“启发”而不是“完成工作”。比如大家听我的博客“AI 炼金术”里某一集讨论传统企业 AI 转型，心理预期其实是听一些类似企业搞 AI 的段子看能不能有点小启发，只要有一两个点觉得有收获就会给好评；比如朋友找我去“顾问”，其实我只需要针对他的问题给一些相关的方法论、情报、最佳实践，让他看到更多可能性，就会觉得很有收获。但反过来，如果是你在听下属（Copilot or Agent）在给你汇报说“我们应该怎么 AI 转型”，你其实会期待他给一个真正可行的方案，听的过程中很容易找到 100 个不满意的地方。

为了显示自己的价值，我们经常会把自己的产品往李一舟方向走，这其实很难交付很难让用户满意。AI 当下的能力，其实更胜任做 CEO 教练和导师（给启发），而不是做实习生（交付具体的活儿）。做产品的时候，把自己定位在合适的位置，可能比盲目优化，更重要。

抽象看，不止是播客

抽象看，其实打开的并不是“做播客”这件事，而是将内容转化模态的一种新思路。

这个框架里，包含“信息源”（A）、“戏剧”（B）和“交付模态”（C）三个变量。Audio Overview 的信息源是用户指定的，讨论者是两个播客主播一男一女，而交付模态是音频播客形态。但其实 A、B、C 都可以调整。

比如调整 A，信息源。如果信息源是用户每天的日记和健康数据呢？如果信息源是用户关注的 X 账号和 RSS 更新呢？如果信息源是用户的 Readwise 或者 Cubox 收藏夹呢？如果信息源是“Sam Altman 关注的人今天在 X 上说了些啥”呢？如果信息源也是用 AI 根据用户期待自动生成的呢（比如我们做 100 Successful AI Startups，信息源其实来自 Perplexity 和秘塔找的材料）？已经有产品走在这条路上，比如 Rift Podcast，会做选题然后自己聚合信息源生成不同选题的播客，虽然质量还显著低于 NotebookLM，但值得关注一下。

当然，更极致的信息源的变化，应该完全放弃这些“有用”的信息，而追求爽感。源头应该是明星八卦，家长里短，各种狗血故事——总之，如果要服务更多用户的话，现在大众市场在消费的那些内容才是好源头。

调整信息源（A）之外，其实还可以调整戏剧（B），其中包含角色和关系。比如不用是两个人对谈，也可以更偏向于采访，甚至于可以树立稻草人靶子惹人生气然后疯狂攻击（爽剧模型）。另外，也可以借鉴其他的成熟形态，比如相声的对话方式（我很喜欢的播客《半拿铁》，就是用相声的方式嬉笑怒骂讲商业史），比如辩论的对话方式，比如圆桌论坛的讨论方式，比如设计思维的工作坊推进方式。最后，这些角色未必需要都理性客观公正，也未必需要是 2 人，可以每个人都有极端视角和人设（类似六顶思考帽），然后碰撞出激烈火花。

而角色设计方面，还有个机会就是安排一个用户代言人。有一个角色，能够理解用户的兴趣、水平和视角，然后引导整体的讨论往用户会喜欢的方向走，这就可以让整体的内容更加个性化 & 有数据飞轮。

最后，模态（C）方面，也未必是播客对谈，更未必一定要是音频。首先，哪怕是音频，未必要是播客形态，其实之前更火的是深夜电台（一个磁性男性嗓音讲故事，或者一个犀利主持人对谈观众）。除了音频之外，很容易想到的是视频、PPT、互动……自然都很好。但反过来想，其实文本未必不是好选项，Audio Overview 隐藏的一个特点是通过对话把一个大内容碎片化，而碎片化的内容其使用文本表达也是不难吸收的——更关键是，碎片化的文本浏览和反馈更容易做出数据反馈飞轮。

最后，当然是一期播客

我把这篇文章做成了 PDF，然后让 NotebookLM 做成了一期 Audio Overview：

作为总结，不及格。但作为这篇文章的作者，我居然听得下去，而且从他们的讨论中反过来看到了自己并没有关注到的角度、得到了新的启发，这种体验实在太神奇。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业