AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


NotebookLM:一款基于长文本理解/多模态大模型设计的Google笔记应用
发布日期:2024-09-29 07:17:48 浏览次数: 2000 来源:AI产品黄叔


太长不看:

  1. NotebookLM是Google AI Lab开发的基于AI原生的笔记应用

  2. 产品的设计逻辑完全基于Gemini 1.5 Pro的长文本理解+多模态能力

  3. 由于长文本上限,导致需要通过多个笔记本来区分内容

  4. 随着长文本/多模态的能力逐渐解锁,NotebookLM能力还会增强

  5. 目前看Google对于它的突破口还是考虑在教育领域

以下是正文:

最近NotebookLM很火,只需要提交一些文件或者链接,就可以非常快速的生成一条英文对话播客,两位AI主持人幽默风趣的和你大白话讲解内容,这可以用来帮助大家学习英语、幽默风趣的学习,等等,并且,现在还是免费的!

下面我会来讲讲NotebookLM这个新笔记品类,在开始前,请欣赏NotebookLM生成的荣耀最新发布的AI Agent手机讲解:

01 NotebookLM是什么?

刚才这段音频是怎么生成的呢?

打开https://notebooklm.google.com/ ,在左侧树形列表的+号按钮点击,提交几个相关的网页,大约10秒钟,NotebookLM就会阅读完毕,然后生成右侧的“笔记本指南”。

除此之外,笔记本指南里会有若干功能,前面我们看到的音频对话,就是右上角的音频生成功能产出的,这是NotebookLM的Audio Overview功能!生成后我放到剪映里加上配图和字幕翻译。

这只是NotebookLM的其中一个爆款功能,我们继续试试其他能力,比如我们点击“常见问题解答”,它会立即生成一个笔记:

再比如,也可以通过Chat的方式基于内容去提问:

并且可以将对话内容保存为笔记。

这就是NotebookLM,一款基于内容源的AI Copilot笔记工具,利用LLM来协助用户更好的理解内容!

02 NotebookLM的核心能力是这个!

NotebookLM其实整体的产品交互设计非常一般,甚至说有些拉胯,比如笔记内容打开后无法全屏,阅读起来非常不方便:

你很难想象,一个以笔记为基础的产品形态,在笔记阅读方面做的如此之差。

但这其实不是它的强项,它的特殊之处在于:Gemini 1.5Pro极强的长文本理解能力,注意,我说的是:长文本理解能力

上图来源是Deepmind的论文《Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries》:https://arxiv.org/html/2409.12640

结论是在MRCR任务中,Gemini 1.5 Pro是断档式的存在。

稍微解释下,MRCR的意思是,在我们和大模型对话的上下文里,给模型提出上下文相关的问题,看模型回答的质量。

这篇论文的主要思想是:是要让大模型去理解内容,而不是单纯去大海捞针,因为捞针没意义,有意义的是能让大模型理解到超长上下文!

与流行的大海捞针方法(Kamradt,2023)相比,LSQ允许我们开发出相当复杂的评估。通过要求模型从结构中提取信息,而不是从键中提取值(从大理石中提取雕塑而不是从干草堆中找针),我们可以更深入地测试语言模型的上下文理解能力,超越简单的检索。

也因此,NotebookLM难看就难看点,但核心是模型能力强啊!断档式存在啊:

03 长文本理解能力对于产品设计的影响

上一节我们说了NotebookLM的核心能力是Gemini 1.5 Pro的超强长文本理解能力,那基于这一点,NotebookLM的产品设计就会有一些不同:

一. NotebookLM是基于笔记本的:

使用NotebookLM,首先需要创建笔记本,创建笔记本后,添加来源,这样LLM才有用武之地。

为什么这么设计呢?

首先,“巧妇难为无米之炊”

要先给它设定一个箩筐(笔记本),然后在里面放进去食材(来源),NotebookLM才能给你烹饪出美食。

这是它非常特殊的一点!也带来了限制:

您可以在 NotebookLM 中使用笔记本整理项目。这类似于我们在计算机上使用文件夹整理文件的方式。每个笔记本都是完全独立的,因此 NotebookLM 无法同时访问多个笔记本中的信息

每个笔记本最多可以创建 1,000 条笔记。

因为LLM即使支持的上下文再长,也是需要考虑成本、技术实现度的,所以用笔记本的方式来限制长度,可以理解。

其次,把笔记本当成项目使用

也可以用笔记本的方式去组织内容,这样我就能比较好的区隔多个项目。

每个笔记本当成一个研究项目,这样可以更方便的管理我的内容:

二. 多种内容形态的组合

先看看添加来源,NotebookLM支持几种模式:

  • 直接上传PDF、txt、Markdown格式的文件

  • 上传Google云端硬盘内容

  • 网站链接

  • 粘贴文字

基于Gemini的多模态:“我们现在支持仅包含图像的PDF文件,可以多模态理解照片、绘图、图表、图表,甚至手写内容。”

现在NotebookLM支持上传图片的PDF类型内容了!

众所周知,Gemini还可以理解视频,相信在未来有可能会把这个能力放到NotebookLM内。


其次,每次Chat也可以选择指定的来源进行对话,这样LLM也能选择上下文去针对性理解和交流。

上面这两点,意味着什么呢?

由于Gemini是多模态大模型,其实它并不关心你每一个来源里面内容是什么?只要你选中,我就能基于内容理解,来和你交流!

好了,我们简单说了说NotebookLM的产品特点,下面来看看哪里能用上:

04 那能在哪些地方使用?

可以使用的场景,还真需要挖掘挖掘,核心前提是,基于超长内容源的理解

我说几个case:

Case1:基于公众号内容的解析

比如我把自己接近100篇和AI有关的公众号文章下载成txt,再丢上去,然后提问:

我要做一个20分钟的分享,主题是“好的AI产品是什么样的?”

它很快就给出了一条笔记,看了下内容还是很全面的!并且包含了引用,这意味着可以很方便的溯源。

社群的@HEXIN给出了一个更厉害的案例:

Case2:基于公众号内容直接写书

如果是基于公众号的内容整理成书稿,可以理解之后,编辑出书的大纲和小节,然后让NotebookLM提取信息,再用Claude或者GPT润色。这样可以很快整理出书稿。

更神奇的是,NotebookLM支持协作,所以这个案例中,作者本身的内容是授权给其他人来完成编辑的。

Case3:用来做研究

即刻的@Jing 给她朋友是这么推荐的:

我今天刚推荐给一个朋友用来扒各种外文内容写他的研究材料,跨语言总结和问答非常好用。

也是个Case

Case4:官方如何应用

下个月我们将为学习者和教育工作者举办两场不同的虚拟活动:

8月7日 太平洋标准时间上午10:30 如何充分利用NotebookLM(面向学习者/学生)

8月8日 太平洋标准时间上午10:30 作为教育工作者如何使用NotebookLM(包括在课堂环境中)

这两场活动都将持续45分钟,我们的团队将为您介绍使用案例、最佳实践,分享一些即将推出的功能和想法,然后花一些时间现场回答问题。

可以看到官方的Discord频道里也确实在思考如何嵌入到教育场景内。

Case5:使用Audio Overview理解内容

还有就是一开始就放出的case,其实这个方式对于长文来说是不大好的,核心在于插科打诨式的几分钟内容,很难真的讲清楚长文。

如果你听得到听书,会发现他们通常使用30分钟来试图讲透一本书,但每次我听完听书,再去看书,往往会很诧异,因为感觉是两本书。。。

核心还是一本书的内容外延是很大的,30分钟只能讲清楚几个要点,会忽略非常多的部分。以及一本书很多时候有完整的知识体系,对于每个人能有触动的点也不同,很难全盘覆盖。

所以,Audio OverView就更难做到了。当然这个问题在前面几个Case里或多或少都存在,但是Audio OverView更严重一些,因为目前的音频生成无法控制。

不过,用来找找乐子或者作为筛选内容还是OK的。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询