我要投稿

对标谷歌大火的NotebookLM！Meta推出开源版：NotebookLlama

发布日期：2024-10-29 09:02:39 浏览次数： 2065 作者：AI寒武纪

抄抄抄！Meta也抄起来了：开源版播客模型NotebookLlama来了

前段时间谷歌推出了播客模型NotebookLM，AI大神Andrej Karpathy连连点赞（关于谷歌NotebookLM可以看我之前写的这篇

Andrej Karpathy 强推谷歌NotebookLM 的播客功能：堪比ChatGPT的推出）

刚刚Meta推出了对标谷歌NotebookLM开源版本NotebookLlama，它让你用LLaMa模型把PDF直接变成播客！

体验地址：

https://huggingface.co/spaces/gabrielchua/open-notebooklm

NotebookLlama核心流程是这样的：

1B轻量级选手——预处理PDF： 就像一个勤劳的清洁工，把PDF里的乱七八糟字符、编码错误什么的都清理干净，省得后面出幺蛾子。这步用了Llama-3.2-1B-Instruct模型，重点是只清理垃圾，不改内容，不总结概括

70B重量级选手——写播客稿： 这才是真正的主力输出！用Llama-3.1-70B-Instruct模型，直接把文本变成播客稿，创意直接拉满！当然，如果你觉得70B太壕，太吃显存，也可以用Llama-3.1-8B-Instruct模型，作者也推荐大家多试试，看看哪个效果更好。据说70B模型写出来的播客稿更具创意

8B调味大师——戏剧冲突MAX： 播客稿写好了，还得加点儿戏剧冲突才够味儿！Llama-3.1-8B-Instruct模型负责把稿子变得更刺激，更引人入胜！更重要的是，它返回的是对话元组，方便后续的TTS处理，数据结构101终于派上用场了！为了适配不同的TTS模型，还需要在prompt里针对每个speaker做一些特定的设定

语音合成终极大杀器： 最后，用parler-tts/parler-tts-mini-v1和bark/suno模型把文字变成声音，完美！这里用到了两个不同的TTS模型，speaker和prompt都是经过反复实验和模型作者建议才确定的。作者也鼓励大家多多尝试，说不定能找到更好的组合！需要注意的是，Parler需要transformers 4.43.3或更早版本，而前面的步骤需要最新版本，所以在最后一个notebook里需要切换版本

敲黑板！重点来了！

你需要一个GPU服务器或者API provider来跑70B、8B和1B的LLaMa模型。70B模型需要大约140GB的显存 (bfloat-16精度)

运行之前，先用huggingface-cli登录，然后启动jupyter notebook server，确保能下载LLaMa模型。需要Hugging Face的access token

先clone仓库，安装依赖：

git clone https://github.com/meta-llama/llama-recipes && cd llama-recipes/recipes/quickstart/NotebookLlama/ && pip install -r requirements.txt

每个notebook都有详细的说明和建议，鼓励大家修改prompt，尝试不同的模型，看看哪个效果最好！

未来展望：

• TTS模型的自然度还有提升空间
• 可以用两个agent辩论的方式来写播客大纲
• 可以用405B模型写稿
• 优化prompt
• 支持更多输入格式，比如网站、音频文件、油管链接等

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-25

78k star，像写 Markdown 一样画流程图，这个开源工具太牛了！

2025-04-25

MarkItDown MCP：一款好用的将文件和办公文档转换为Markdown的AI工具！

2025-04-24

AI+SQL客户端，这款开源神器让数据库管理像聊天一样简单！

2025-04-24

效率革命！GitHub爆火的开源神器MinerU：PDF、网页、电子书一键转Markdown

2025-04-24

Suna：构建你专属“通用智能体”的开源利器

2025-04-24

开源TTS领域迎来重磅新星！Dia-1.6B：超逼真对话生成，开源2天斩获6.5K Star！

2025-04-24

仅用3周时间，就打造出Manus开源平替！贡献源代码，免费用

2025-04-23

只需6G显存，就能本地跑的AI视频算法，开源了！

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

2025-04-21

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部