微信扫码
与创始人交个朋友
我要投稿
太长不看:
NotebookLM是Google AI Lab开发的基于AI原生的笔记应用
它产品的设计逻辑完全基于Gemini 1.5 Pro的长文本理解+多模态能力
由于长文本上限,导致需要通过多个笔记本来区分内容
随着长文本/多模态的能力逐渐解锁,NotebookLM能力还会增强
目前看Google对于它的突破口还是考虑在教育领域
以下是正文:
最近NotebookLM很火,只需要提交一些文件或者链接,就可以非常快速的生成一条英文对话播客,两位AI主持人幽默风趣的和你大白话讲解内容,这可以用来帮助大家学习英语、幽默风趣的学习,等等,并且,现在还是免费的!
下面我会来讲讲NotebookLM这个新笔记品类,在开始前,请欣赏NotebookLM生成的荣耀最新发布的AI Agent手机讲解:
刚才这段音频是怎么生成的呢?
打开https://notebooklm.google.com/ ,在左侧树形列表的+号按钮点击,提交几个相关的网页,大约10秒钟,NotebookLM就会阅读完毕,然后生成右侧的“笔记本指南”。
除此之外,笔记本指南里会有若干功能,前面我们看到的音频对话,就是右上角的音频生成功能产出的,这是NotebookLM的Audio Overview功能!生成后我放到剪映里加上配图和字幕翻译。
这只是NotebookLM的其中一个爆款功能,我们继续试试其他能力,比如我们点击“常见问题解答”,它会立即生成一个笔记:
再比如,也可以通过Chat的方式基于内容去提问:
并且可以将对话内容保存为笔记。
这就是NotebookLM,一款基于内容源的AI Copilot笔记工具,利用LLM来协助用户更好的理解内容!
NotebookLM其实整体的产品交互设计非常一般,甚至说有些拉胯,比如笔记内容打开后无法全屏,阅读起来非常不方便:
你很难想象,一个以笔记为基础的产品形态,在笔记阅读方面做的如此之差。
但这其实不是它的强项,它的特殊之处在于:Gemini 1.5Pro极强的长文本理解能力,注意,我说的是:长文本理解能力
上图来源是Deepmind的论文《Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries》:https://arxiv.org/html/2409.12640
结论是在MRCR任务中,Gemini 1.5 Pro是断档式的存在。
稍微解释下,MRCR的意思是,在我们和大模型对话的上下文里,给模型提出上下文相关的问题,看模型回答的质量。
这篇论文的主要思想是:是要让大模型去理解内容,而不是单纯去大海捞针,因为捞针没意义,有意义的是能让大模型理解到超长上下文!
与流行的大海捞针方法(Kamradt,2023)相比,LSQ允许我们开发出相当复杂的评估。通过要求模型从结构中提取信息,而不是从键中提取值(从大理石中提取雕塑而不是从干草堆中找针),我们可以更深入地测试语言模型的上下文理解能力,超越简单的检索。
也因此,NotebookLM难看就难看点,但核心是模型能力强啊!断档式存在啊:
上一节我们说了NotebookLM的核心能力是Gemini 1.5 Pro的超强长文本理解能力,那基于这一点,NotebookLM的产品设计就会有一些不同:
使用NotebookLM,首先需要创建笔记本,创建笔记本后,添加来源,这样LLM才有用武之地。
为什么这么设计呢?
首先,“巧妇难为无米之炊”
要先给它设定一个箩筐(笔记本),然后在里面放进去食材(来源),NotebookLM才能给你烹饪出美食。
这是它非常特殊的一点!也带来了限制:
您可以在 NotebookLM 中使用笔记本整理项目。这类似于我们在计算机上使用文件夹整理文件的方式。每个笔记本都是完全独立的,因此 NotebookLM 无法同时访问多个笔记本中的信息。
每个笔记本最多可以创建 1,000 条笔记。
因为LLM即使支持的上下文再长,也是需要考虑成本、技术实现度的,所以用笔记本的方式来限制长度,可以理解。
其次,把笔记本当成项目使用
也可以用笔记本的方式去组织内容,这样我就能比较好的区隔多个项目。
每个笔记本当成一个研究项目,这样可以更方便的管理我的内容:
先看看添加来源,NotebookLM支持几种模式:
直接上传PDF、txt、Markdown格式的文件
上传Google云端硬盘内容
网站链接
粘贴文字
基于Gemini的多模态:“我们现在支持仅包含图像的PDF文件,可以多模态理解照片、绘图、图表、图表,甚至手写内容。”
现在NotebookLM支持上传图片的PDF类型内容了!
众所周知,Gemini还可以理解视频,相信在未来有可能会把这个能力放到NotebookLM内。
其次,每次Chat也可以选择指定的来源进行对话,这样LLM也能选择上下文去针对性理解和交流。
上面这两点,意味着什么呢?
由于Gemini是多模态大模型,其实它并不关心你每一个来源里面内容是什么?只要你选中,我就能基于内容理解,来和你交流!
好了,我们简单说了说NotebookLM的产品特点,下面来看看哪里能用上:
可以使用的场景,还真需要挖掘挖掘,核心前提是,基于超长内容源的理解。
我说几个case:
比如我把自己接近100篇和AI有关的公众号文章下载成txt,再丢上去,然后提问:
我要做一个20分钟的分享,主题是“好的AI产品是什么样的?”
它很快就给出了一条笔记,看了下内容还是很全面的!并且包含了引用,这意味着可以很方便的溯源。
社群的@HEXIN给出了一个更厉害的案例:
如果是基于公众号的内容整理成书稿,可以理解之后,编辑出书的大纲和小节,然后让NotebookLM提取信息,再用Claude或者GPT润色。这样可以很快整理出书稿。
更神奇的是,NotebookLM支持协作,所以这个案例中,作者本身的内容是授权给其他人来完成编辑的。
即刻的@Jing 给她朋友是这么推荐的:
我今天刚推荐给一个朋友用来扒各种外文内容写他的研究材料,跨语言总结和问答非常好用。
也是个Case
下个月我们将为学习者和教育工作者举办两场不同的虚拟活动:
8月7日 太平洋标准时间上午10:30 如何充分利用NotebookLM(面向学习者/学生)
8月8日 太平洋标准时间上午10:30 作为教育工作者如何使用NotebookLM(包括在课堂环境中)
这两场活动都将持续45分钟,我们的团队将为您介绍使用案例、最佳实践,分享一些即将推出的功能和想法,然后花一些时间现场回答问题。
可以看到官方的Discord频道里也确实在思考如何嵌入到教育场景内。
还有就是一开始就放出的case,其实这个方式对于长文来说是不大好的,核心在于插科打诨式的几分钟内容,很难真的讲清楚长文。
如果你听得到听书,会发现他们通常使用30分钟来试图讲透一本书,但每次我听完听书,再去看书,往往会很诧异,因为感觉是两本书。。。
核心还是一本书的内容外延是很大的,30分钟只能讲清楚几个要点,会忽略非常多的部分。以及一本书很多时候有完整的知识体系,对于每个人能有触动的点也不同,很难全盘覆盖。
所以,Audio OverView就更难做到了。当然这个问题在前面几个Case里或多或少都存在,但是Audio OverView更严重一些,因为目前的音频生成无法控制。
不过,用来找找乐子或者作为筛选内容还是OK的。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-30
2024-09-12
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-06-14
2024-07-21
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02
2024-06-29