微信扫码
与创始人交个朋友
我要投稿
Modality:模态转化
知识产权液化,随时随地变形
红红火火,其实和 NotebookLM 没什么关系。
和 Audio Overview 更相关,5 月份 IO 大会上宣发,9 月份正式上线,两波流量上涨。
Audio Overview 功能,和之前的 NotebookLM 相比,最直观的变化就是模态:语音。
类似的例子其实可以参考"樊登读书"和抖音上的"3 分钟看完 XXX"。
樊登读书,本质上是把经典书籍里的大道理,transform 成口语唠嗑,保留书籍里核心道理和趣味段子,但通过口语化、故事化、带情绪的表达,极大降低内容消费的认知成本。而那些"三分钟看完 XXX"的电影解读,通过旁白简化、快速讲解,只保留核心剧情和高光片段,也是通过 transform 来创造新内容。
如果是在同一个模态里做变化,比如把一个故事改成类似的一个故事,其实有很强的侵权风险。但模态转化之后,事情就变得模糊起来——樊登读书算侵权么?"三分钟看完 XXX"算侵权么?Andrej Karpathy 用 Wikipiedia 页面让 NotebookLM 生成的播客 Histories of Misteries 算侵权么?
技术的发展,总是会比社会规范的发展要快。传统的知识产权制度还没有跟上来的时候,是不是存在着大量的"洗 IP"的可能性?机会、风险和边界在哪里?
变成音频,变成服务
如果不把 Audio Overview 仅仅看作音频生成,而是模态变化,那么,下一步自然是视频和交互。
视频方面,归藏做了个有意思的 demo:
而在 Google IO 大会上,也已经演示过交互功能:
之前有看过类似的项目,是直播间 AI 一对一交互。比如你董宇辉直播间看他买菜刀,忽然想了解这个菜刀能不能拍蒜,就提问了,这时可以分叉出一个 AI 董宇辉一对一回答这个问题。顺着这个思路下去,其实所有的内容,都可以转化为视频、转化为虚拟人、转化为一对一的服务形态。
那么又是类似的问题,给梁宁的新书《真需求》做一个连载播客算侵权么?如果我没用梁宁的名字也没有提到《真需求》呢?如果我提到了梁宁也提到了《真需求》明目张胆蹭流量呢?给我的播客《AI 炼金术》做一个 AI 问答机器人算侵权么?如果只用到了内容但是没有蹭 IP 呢?如果硬蹭呢?
机会、风险和边界在哪里?
Persona:人格视角
被当作"人",而不是工具
NotebookLM 还有个很特别的地方,就是非常"不机械",非常"像人"。
想了一下,这个"像人",主要可能来自于很多方面。首先是遣词造句非常口语化(甚至于有磕巴),加上语音语调非常自然情绪饱满,真人感觉就很足。更进一步,Audio Overview 采用用户旁听两个 AI 对谈的形式,而不是用户发出指令让 AI 回复和执行的形式,进一步降低了"应答工具感"(我说一下你动一下就很像是工具)。
而当用户相信了"人设"时,同样的任务,心态就发生了变化。比如同样是"讲书",如果是一个工具,用户只会去评判"这个讲得好不好(其实就是看讲述的重点和他视角看到的重点是否重合)。但如果是听"樊登读书",其实用户同样感兴趣"樊登的视角下,看到了什么",评判会减弱,而好奇会加强。
所以,才会出现刷屏的"让 NotebookLM 为我的日记生成播客"和"让 NotebookLM 为我的简历生成播客"的玩法。用户要的并不是一个客观的"总结"或者"优化",而是被另一个"人"看见和重视的感觉,以及从另外一个人格视角重新发现自己的新鲜感。
我也让 NotebookLM 根据我的 Linkedin 和网络搜索结果(秘塔搜索)出了一期播客。
怎么说呢……一边脚趾抠地,一边忍不住听下去,一边想“我真的有这么好么”、“我的故事这么漂亮”、“哇,原来还有这一面”……效果堪比最好的夸夸群。可能让我们爽到的,不一定是“夸”,也可能仅仅是“被认真的看见和对待”。
旁观者视角,心态更平和
前面说过,旁观者视角降低了 NotebookLM 的"应答工具感"。更进一步,这个视角其实也大幅度降低了用户的使用门槛。AI PM 常说的话就是自然语言交互界面给了用户充分自由,用户想干嘛只要说出来就好,但实际上"清晰表达需求"甚至于"能够应答对话"都需要付出很多的认知资源,并不容易。
什么更容易呢?刷抖音更容易,因为只需要"刷",只需要看;听播客更容易,因为只需要旁观,只需要听就好。一次点击,生成音频,听就好,岂不快哉。
另外,旁观者视角同样也会弱化评判心态。如果是我们直接和 AI 一对一交互,很容易期待 AI 一次性给出让我们满意的回答,一旦期待落空就会失望。但如果我们只是旁听两个 AI 对话,我们会给他们更长的时间更多的机会表达,然后我们会听一个整体感受然后再给反馈。前者更像是在听下属述职,期待更高;后者更像是参会旁听,耐心更足。
去年初我写过一个"组织 6 个 AI 大佬形成自己的私董会"的 prompt 火了,后来我们根据这个想法 MVP 了一个小工具 ChatRoom,也是用户说点什么,然后看到 6 个 AI 围绕这事儿吵来吵去,用户只需要旁观就好,也是这个大逻辑。
Engaging:趣味优先
混搭的反差,创造新奇感
在 NotebookLM 创始团队几个采访里,都反复提到了他们觉得产品首先是要好玩(fun,entertaining,engaging),觉得这也是我们在做效率类工具时可以多提醒自己的角度。
首先是表面的好玩,要让人印象深刻,要出梗,这样更有利于传播。比如有用户上传了一个全是 poop and fart(屎尿屁)的文档让生成 Audio Overview,出来的结果意料之外的好(两个 AI 在认真讨论自己是不是中了"总想在无意义中寻找意义"的毒,这是不是类似于杜尚的小便尿斗(《泉》)的当代艺术表达,以及建议大家别太把一切当真,let it go 吧,非常有趣而且有深度)。
这种过于离谱的段子很多(比如还有一篇写满 Chicken 的论文),而这种内容的传播性显然好于正经内容。举例来说,我也用 NotebookLM 做了两档英文播客(100 Must-Read AI Papers 和 100 Successful AI Startups),你看到这两个名字只会评估实用性(值得听么,讲论文比"李沐讲论文"讲得更好么),而很难激起好奇心。但根据前面那个全是屎尿屁的文章生成的深度播客,你难道不好奇想听一下么?
这种好玩,其实首先来自于混搭造就的"反差感",用新闻联播的方式一本正经聊 poop and fart,或者用播客聊天的形态比较两份保险单,都是日常生活中见不到的搭配,充满了新奇。如果是一个开放命题创作,AI 现在未必比人类更强。但如果是规定的混搭题(比如用古诗词形态说清楚原子弹爆炸和酸奶发酵有什么共同点),AI 完成这种命题作文的能力比人类强百倍,应该好好应用。
故事好听,比精确总结最重要
做产品的时候,我们经常有一个倾向,就是把一切都当做“需要解决的问题”,从而把思考重点全部放在“如何高效解决”上。但实际上,很多事情并不是“问题”而是“体验”,不需要效率而需要爽感。
比如购物助手,很容易就思考到帮用户去比价、比参数、找到最适合的产品。但国民经济里有多大比例是这种刚消费呢?回到所谓“知识萃取”场景,很容易也想到如何“总结得准确”,但我们真的需要一份总结得更准确的记要么?我很怀疑,因为我自己几乎从来不看自己的读书笔记和会议记要……
我们更多的,是想要消费内容获得爽感,而不是进一步深度工作获得效率。当然,如果能够戴着“深度工作”、“深度学习”的帽子来消费内容(本质类似于刷抖音)的话,既得到即时满足,又让自我感受良好,当然更好。类似很多人刷抖音 2 小时看段子会有负罪感,但听范登读书 2 小时讲段子会觉得自己在学习,后者让人感觉更良好。
所以,哪怕是工作和学习类的产品,其实还是要花很多时间研究“体验”的爽,而不是效率提升。到 Audio Overview 这个具体的产品,创始团队在采访里就反复强调需要把产品设计得更加 engaging,其中两个方法一个是创造 tension(紧张感),让两个 AI 不能总是太平和、太一致,得偶尔吵起来;另一个则是要保持悬念,不要一开始就把核心信息暴露出来(虽然根据金字塔原理来说这样效率最高),而是要慢慢铺陈,渐渐展开(unfold),保持听众的兴趣。
这两天 Meta 也出了个开源的 Meta NotebookLM,其中第三步是 Dramatise Podcast,也是类似的逻辑。
Podcast:巧妙定位
听播客,有启发就好
觉得 Audio Overview 有一个很赞的特点,就是简单,点一下就好,没有太多选项,这样交付就简单,品控就好做。
但可以这么做,其实是因为定位得当,借用的是听播客的心智,而不是“安排任务”的心智。如果是安排任务,自然得安排得细致妥帖,但如果是听播客呢——看标题选好听哪期就好,不会有我得指点播主多讲点这个少讲点那个的心思(虽然后面给了定制化功能),这就让交付容易了非常多。
更进一步,只要是在“听播客”的框架下,大家更多的期待其实是“启发”而不是“完成工作”。比如大家听我的博客“AI 炼金术”里某一集讨论传统企业 AI 转型,心理预期其实是听一些类似企业搞 AI 的段子看能不能有点小启发,只要有一两个点觉得有收获就会给好评;比如朋友找我去“顾问”,其实我只需要针对他的问题给一些相关的方法论、情报、最佳实践,让他看到更多可能性,就会觉得很有收获。但反过来,如果是你在听下属(Copilot or Agent)在给你汇报说“我们应该怎么 AI 转型”,你其实会期待他给一个真正可行的方案,听的过程中很容易找到 100 个不满意的地方。
为了显示自己的价值,我们经常会把自己的产品往李一舟方向走,这其实很难交付很难让用户满意。AI 当下的能力,其实更胜任做 CEO 教练和导师(给启发),而不是做实习生(交付具体的活儿)。做产品的时候,把自己定位在合适的位置,可能比盲目优化,更重要。
抽象看,不止是播客
抽象看,其实打开的并不是“做播客”这件事,而是将内容转化模态的一种新思路。
这个框架里,包含“信息源”(A)、“戏剧”(B)和“交付模态”(C)三个变量。Audio Overview 的信息源是用户指定的,讨论者是两个播客主播一男一女,而交付模态是音频播客形态。但其实 A、B、C 都可以调整。
比如调整 A,信息源。如果信息源是用户每天的日记和健康数据呢?如果信息源是用户关注的 X 账号和 RSS 更新呢?如果信息源是用户的 Readwise 或者 Cubox 收藏夹呢?如果信息源是“Sam Altman 关注的人今天在 X 上说了些啥”呢?如果信息源也是用 AI 根据用户期待自动生成的呢(比如我们做 100 Successful AI Startups,信息源其实来自 Perplexity 和秘塔找的材料)?已经有产品走在这条路上,比如 Rift Podcast,会做选题然后自己聚合信息源生成不同选题的播客,虽然质量还显著低于 NotebookLM,但值得关注一下。
当然,更极致的信息源的变化,应该完全放弃这些“有用”的信息,而追求爽感。源头应该是明星八卦,家长里短,各种狗血故事——总之,如果要服务更多用户的话,现在大众市场在消费的那些内容才是好源头。
调整信息源(A)之外,其实还可以调整戏剧(B),其中包含角色和关系。比如不用是两个人对谈,也可以更偏向于采访,甚至于可以树立稻草人靶子惹人生气然后疯狂攻击(爽剧模型)。另外,也可以借鉴其他的成熟形态,比如相声的对话方式(我很喜欢的播客《半拿铁》,就是用相声的方式嬉笑怒骂讲商业史),比如辩论的对话方式,比如圆桌论坛的讨论方式,比如设计思维的工作坊推进方式。最后,这些角色未必需要都理性客观公正,也未必需要是 2 人,可以每个人都有极端视角和人设(类似六顶思考帽),然后碰撞出激烈火花。
而角色设计方面,还有个机会就是安排一个用户代言人。有一个角色,能够理解用户的兴趣、水平和视角,然后引导整体的讨论往用户会喜欢的方向走,这就可以让整体的内容更加个性化 & 有数据飞轮。
最后,模态(C)方面,也未必是播客对谈,更未必一定要是音频。首先,哪怕是音频,未必要是播客形态,其实之前更火的是深夜电台(一个磁性男性嗓音讲故事,或者一个犀利主持人对谈观众)。除了音频之外,很容易想到的是视频、PPT、互动……自然都很好。但反过来想,其实文本未必不是好选项,Audio Overview 隐藏的一个特点是通过对话把一个大内容碎片化,而碎片化的内容其使用文本表达也是不难吸收的——更关键是,碎片化的文本浏览和反馈更容易做出数据反馈飞轮。
最后,当然是一期播客
我把这篇文章做成了 PDF,然后让 NotebookLM 做成了一期 Audio Overview:
作为总结,不及格。但作为这篇文章的作者,我居然听得下去,而且从他们的讨论中反过来看到了自己并没有关注到的角度、得到了新的启发,这种体验实在太神奇。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-08
dify案例分享-基于多模态模型的发票识别2-多种发票识别
2024-11-07
星辰 AI 大模型:中国电信的 AI 大模型集合平台,支持多模态任务和多语种处理
2024-11-01
Oasis,世界第一款 AI 实时生成游戏来了,在线试玩,体验未来
2024-10-30
Cohere推出多模态 AI 搜索模型 Embed3了
2024-10-30
GPT-4o只考了21分:AI视觉推理能力受到严重质疑
2024-10-29
【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述
2024-10-29
Midjourney又更新,AI版的PS来了
2024-10-28
AI时代的人性化交互:语音交互技术
2024-05-30
2024-06-17
2024-08-06
2024-09-12
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-07-21
2024-07-11
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02
2024-06-29