我要投稿

NotebookLM：一款基于长文本理解/多模态大模型设计的Google笔记应用

发布日期：2024-09-29 07:17:48 浏览次数： 3603 作者：AI产品黄叔

太长不看：

NotebookLM是Google AI Lab开发的基于AI原生的笔记应用
它产品的设计逻辑完全基于Gemini 1.5 Pro的长文本理解+多模态能力
由于长文本上限，导致需要通过多个笔记本来区分内容
随着长文本/多模态的能力逐渐解锁，NotebookLM能力还会增强
目前看Google对于它的突破口还是考虑在教育领域

以下是正文：

最近NotebookLM很火，只需要提交一些文件或者链接，就可以非常快速的生成一条英文对话播客，两位AI主持人幽默风趣的和你大白话讲解内容，这可以用来帮助大家学习英语、幽默风趣的学习，等等，并且，现在还是免费的！

下面我会来讲讲NotebookLM这个新笔记品类，在开始前，请欣赏NotebookLM生成的荣耀最新发布的AI Agent手机讲解：

01 NotebookLM是什么？

刚才这段音频是怎么生成的呢？

打开https://notebooklm.google.com/ ，在左侧树形列表的+号按钮点击，提交几个相关的网页，大约10秒钟，NotebookLM就会阅读完毕，然后生成右侧的“笔记本指南”。

除此之外，笔记本指南里会有若干功能，前面我们看到的音频对话，就是右上角的音频生成功能产出的，这是NotebookLM的Audio Overview功能！生成后我放到剪映里加上配图和字幕翻译。

这只是NotebookLM的其中一个爆款功能，我们继续试试其他能力，比如我们点击“常见问题解答”，它会立即生成一个笔记：

再比如，也可以通过Chat的方式基于内容去提问：

并且可以将对话内容保存为笔记。

这就是NotebookLM，一款基于内容源的AI Copilot笔记工具，利用LLM来协助用户更好的理解内容！

02 NotebookLM的核心能力是这个！

NotebookLM其实整体的产品交互设计非常一般，甚至说有些拉胯，比如笔记内容打开后无法全屏，阅读起来非常不方便：

你很难想象，一个以笔记为基础的产品形态，在笔记阅读方面做的如此之差。

但这其实不是它的强项，它的特殊之处在于：Gemini 1.5Pro极强的长文本理解能力，注意，我说的是：长文本理解能力

上图来源是Deepmind的论文《Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries》：https://arxiv.org/html/2409.12640

结论是在MRCR任务中，Gemini 1.5 Pro是断档式的存在。

稍微解释下，MRCR的意思是，在我们和大模型对话的上下文里，给模型提出上下文相关的问题，看模型回答的质量。

这篇论文的主要思想是：是要让大模型去理解内容，而不是单纯去大海捞针，因为捞针没意义，有意义的是能让大模型理解到超长上下文！

与流行的大海捞针方法（Kamradt，2023）相比，LSQ允许我们开发出相当复杂的评估。通过要求模型从结构中提取信息，而不是从键中提取值（从大理石中提取雕塑而不是从干草堆中找针），我们可以更深入地测试语言模型的上下文理解能力，超越简单的检索。

也因此，NotebookLM难看就难看点，但核心是模型能力强啊！断档式存在啊：

03 长文本理解能力对于产品设计的影响

上一节我们说了NotebookLM的核心能力是Gemini 1.5 Pro的超强长文本理解能力，那基于这一点，NotebookLM的产品设计就会有一些不同：

一. NotebookLM是基于笔记本的：

使用NotebookLM，首先需要创建笔记本，创建笔记本后，添加来源，这样LLM才有用武之地。

为什么这么设计呢？

首先，“巧妇难为无米之炊”

要先给它设定一个箩筐（笔记本），然后在里面放进去食材（来源），NotebookLM才能给你烹饪出美食。

这是它非常特殊的一点！也带来了限制：

您可以在 NotebookLM 中使用笔记本整理项目。这类似于我们在计算机上使用文件夹整理文件的方式。每个笔记本都是完全独立的，因此 NotebookLM 无法同时访问多个笔记本中的信息。

每个笔记本最多可以创建 1,000 条笔记。

因为LLM即使支持的上下文再长，也是需要考虑成本、技术实现度的，所以用笔记本的方式来限制长度，可以理解。

其次，把笔记本当成项目使用

也可以用笔记本的方式去组织内容，这样我就能比较好的区隔多个项目。

每个笔记本当成一个研究项目，这样可以更方便的管理我的内容：

二. 多种内容形态的组合

先看看添加来源，NotebookLM支持几种模式：

直接上传PDF、txt、Markdown格式的文件
上传Google云端硬盘内容
网站链接
粘贴文字

基于Gemini的多模态：“我们现在支持仅包含图像的PDF文件，可以多模态理解照片、绘图、图表、图表，甚至手写内容。”

现在NotebookLM支持上传图片的PDF类型内容了！

众所周知，Gemini还可以理解视频，相信在未来有可能会把这个能力放到NotebookLM内。

其次，每次Chat也可以选择指定的来源进行对话，这样LLM也能选择上下文去针对性理解和交流。

上面这两点，意味着什么呢？

由于Gemini是多模态大模型，其实它并不关心你每一个来源里面内容是什么？只要你选中，我就能基于内容理解，来和你交流！

好了，我们简单说了说NotebookLM的产品特点，下面来看看哪里能用上：

04 那能在哪些地方使用？

可以使用的场景，还真需要挖掘挖掘，核心前提是，基于超长内容源的理解。

我说几个case：

Case1：基于公众号内容的解析

比如我把自己接近100篇和AI有关的公众号文章下载成txt，再丢上去，然后提问：

我要做一个20分钟的分享，主题是“好的AI产品是什么样的？”

它很快就给出了一条笔记，看了下内容还是很全面的！并且包含了引用，这意味着可以很方便的溯源。

社群的@HEXIN给出了一个更厉害的案例：

Case2：基于公众号内容直接写书

如果是基于公众号的内容整理成书稿，可以理解之后，编辑出书的大纲和小节，然后让NotebookLM提取信息，再用Claude或者GPT润色。这样可以很快整理出书稿。

更神奇的是，NotebookLM支持协作，所以这个案例中，作者本身的内容是授权给其他人来完成编辑的。

Case3：用来做研究

即刻的@Jing 给她朋友是这么推荐的：

我今天刚推荐给一个朋友用来扒各种外文内容写他的研究材料，跨语言总结和问答非常好用。

也是个Case

Case4：官方如何应用

下个月我们将为学习者和教育工作者举办两场不同的虚拟活动：

8月7日太平洋标准时间上午10:30 如何充分利用NotebookLM（面向学习者/学生）

8月8日太平洋标准时间上午10:30 作为教育工作者如何使用NotebookLM（包括在课堂环境中）

这两场活动都将持续45分钟，我们的团队将为您介绍使用案例、最佳实践，分享一些即将推出的功能和想法，然后花一些时间现场回答问题。

可以看到官方的Discord频道里也确实在思考如何嵌入到教育场景内。

Case5：使用Audio Overview理解内容

还有就是一开始就放出的case，其实这个方式对于长文来说是不大好的，核心在于插科打诨式的几分钟内容，很难真的讲清楚长文。

如果你听得到听书，会发现他们通常使用30分钟来试图讲透一本书，但每次我听完听书，再去看书，往往会很诧异，因为感觉是两本书。。。

核心还是一本书的内容外延是很大的，30分钟只能讲清楚几个要点，会忽略非常多的部分。以及一本书很多时候有完整的知识体系，对于每个人能有触动的点也不同，很难全盘覆盖。

所以，Audio OverView就更难做到了。当然这个问题在前面几个Case里或多或少都存在，但是Audio OverView更严重一些，因为目前的音频生成无法控制。

不过，用来找找乐子或者作为筛选内容还是OK的。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-18

一口气讲清楚：向量库、训练集、多模态

2025-04-17

豆包深度思考模型正式发布！和 o3 一样能「看图思考」，还有一个 Agent 大招

2025-04-17

刚刚，o4-mini发布！OpenAI史上最强、最智能模型

2025-04-17

刚刚，OpenAI重磅发布o3和o4-mini多模态推理能力爆炸式提升！！！

2025-04-17

OpenAI o3 和 o4-mini 多模态推理新模型重磅来袭

2025-04-16

解放双手！LabelStudio 智能标注实战

2025-04-16

Seedream 3.0 文生图模型技术报告发布

2025-04-14

DupDub 插件登陆 Dify Marketplace，带来强大的音频 AI 能力

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT-4 和 GPT-4o的主要区别

2024-09-12

ChatGPT记忆功能全解析：实用场景与操作指南

2024-06-14

面壁小钢炮 MiniCPM-V 2.6 部署指南

2024-08-06

Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库

2024-06-17

Qwen2-VL 全链路模型体验、下载、推理、微调实战！

2024-08-30

智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

2024-05-30

周鸿祎发布纳米搜索，做世界第一的AI搜索

2024-11-28

一文了解：最新版本 Llama 3.2

2024-10-07

深度解析Swarm Agent ：OpenAI 开源的多智能体协作框架

2024-10-16

深入解析Llama 3：开发者如何充分利用这一开源大模型

2024-04-21

大家都在问

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

我为什么要卸载DeepSeek ？

2025-03-02

千问又放大招！720亿参数的视觉语言模型什么样？

2025-01-08

为什么生成式AI不擅长同时做两件事？

2024-12-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB