微信扫码
与创始人交个朋友
我要投稿
? Insight Daily ?
Hi,这里是Aitrainee,欢迎阅读本期新文章。
NotebookLM的第一个功能是RAG(Retrieval-Augmented Generation),允许用户对知识库进行提问,表现相当出色。每个空间最多可容纳50个文档,但用户可以创建更多空间。相比于Anythingllm,NotebookLM在这方面更具优势,使用的是免费的Gemini模型,操作也更加简便,唯一的挑战在于其界面基本上是全英文的。
这五个快捷选项挺有用的
比如其中,大纲 ...
然后时间线 ...
NotebookLM可以作为研究型专家,支持用户导入多种研究材料,如论文、参考资料、视频(youtube 链接)和音频等,集中进行混合研究。通过其知识库功能,用户可以结合不同领域的信息,模拟主持人与专家之间的一问一答形式。
基本的功能我们介绍完了,那么,对于 NotebookLM 有没有一些好的实践?
▲ 来源|36氪
这个东西操作挺简单的,到这里https://podlm.ai/zh-CN可以免费体验一定的次数,不过他也是开源的,你可以选择自己部署。
现在下面是使用PodLM的一个例子
点击生成它就会按照你填入的内容,自动补内容,形成播客脚本,并生成音频
这个音频就是用文章开头内容生成的AI播客,
虽然不如NotebookLM生成英文播客那样流利顺畅,不过也做的挺不错的,而且它是开源的:https://github.com/lihuithe/podlm-public。
这是一个挺厉害的TTS项目
我在Colab部署F5后生成了一个例子:
由于F5官方(https://huggingface.co/spaces/mrfakename/E2-F5-TTS)访问人数众多,经常出现卡顿,因此推荐本地部署。第一种方法是在我的Windows电脑上部署,使用4060显卡(8GB显存),生成15个字的内容也需要比较久的时间,显存要求较高。
如果你想要更便捷的体验,可以选择第二种方法,我已在谷歌Colab中调试好,只需连接到T4 GPU,速度比我本地的快得多。
现在看看第一种方式:首先克隆仓库
打开pycharm进入项目目录,pycharm提示自动按照requirements.txt创建虚拟环境,当然你也可以使用conda手动创建虚拟环境并安装依赖
我们需要查看本机的Cuda版本,安装对应的torch与audio torch,我这里使用了一个上海交通大学的源,测试下来比较好,我的cuda是12.1的
pip install torch===2.3.0+cu121 torchaudio===2.3.0+cu121 -f https://mirror.sjtu.edu.cn/pytorch-wheels/torch_stable.html
安装依赖
pip install -r requirements.txt
然后执行python gradio_app.py启动项目
点击web界面的端口
可以看到界面:
TTS功能是正常的,但是播客用不了,会报一个这样的错误
总之播客没有生成出来内容,我也不想花太多时间弄这个,网上也没有生成成功的例子,期待有人指明。并且,官网的播客也是一直处于生成错误的状态。
此外,如果你的TTS也没有成功的话,他可能缺少ffmpeg,你需要安装它
安装这个东西的网址在这(有不同系统的):
https://www.gyan.dev/ffmpeg/builds/
Windows中记得把bin文件夹添加到环境变量中。
现在第二种:Colab部署,我解决了几个潜在的问题,Colab版本可以直接运行,笔记本在这:
https://colab.research.google.com/drive/1KoMvZQyxXiE3bw00_InCyNDbD4WkPlNr#scrollTo=P9Sgtw-jBBRe
链接T4,然后点击最后一行,并“ctrl+F8”,它会执行所有代码。
总的来说,就是这样,语音是人类最自然的交互模式之一,符合我们大脑的认知习惯。虽然我们有教科书,但依然需要老师讲课来帮助理解复杂内容。当我们能用口语解释概念、讲给别人听时,才真正掌握了它。AI播客 就是用简单的语言重新诠释书面概念,同时融入情绪和语气,带来了更自然的感官体验。
传统媒体让你被动地听别人制作的内容,而现在,你可以主动制作个性化的音频。
正如 OpenAI 研究主管 Karina Nguyen 所说,‘我心目中的终极 AGI 界面是一张空白画布(Canvas)’,它随着人类的偏好不断演变,自我变形,给予用户无限的创作空间和自由度,让交互方式更加个性化和丰富。
?希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里?关注我,记得标星哦~
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-25
Encord全球首发多模态数据标注编辑器,AI数据开发技术有哪些新趋势?
2024-11-23
Pixtral Large:128K 上下文窗口 + 多模态融合,开启智能新视界!
2024-11-20
基于GPU的ANN检索
2024-11-20
打破文本边界:如何进行多模态RAG评估
2024-11-15
西湖大学&腾讯:一个多模态Web Agent的开源框架
2024-11-13
最复杂多智能体发布!百度推出“秒哒”和文心iRAG
2024-11-12
【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
2024-11-11
开摆!谷歌AI视频上线!脚本、素材、剪片全稿定!
2024-05-30
2024-09-12
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-06-14
2024-07-21
2024-11-25
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02