我要投稿

Dify工作流自测: 上传文档一键生成双人对话播客

发布日期：2025-01-21 19:59:30 浏览次数： 2039 作者：Joyce Birkins

上次研究AI工作流都是半年前了, 当时因为rerank, Embedding模型和自定义ai工具,部署难度等等问题,发现很难部署一个生成效果满意的有实际用途的AI应用, 于是半年一直了解AI市场和看论文去了。现在半年过去了, 发现RAGFlow和Dify进步都挺大的, 以前需要one api做集合调用, 现在直接支持各个平台的调用了。

只需要填写相应平台的base url, key和模型名称就能方便调用, 除了闭源平台, 还包括tetx Embedding inference, x inference ,ollama等。连OpenAI官方接口都支持填写base url, 要是半年前非官方openAI api端口的, 还得找openai compatible组件才能自定义base url

当初都还没有多少教程, 现在dify都有专门的社区,还有各种DSL模版

01

在介绍Dify的AI生成播客工作流之前, 先介绍一下我的模型配置。

包括OpenAI的GPT系列, TTS和Embedding系列,我是购买的中继api,不是官方的, Gemini 1.5和2.0系列则是在google ai studio申请的免费版本

ollama本地运行的qwen2.5:72b和gte-qwen2-7b-instruct:f16 embedding模型, 用来做备选, 以免Gemini和OpenAI的额度用完。qwen的LLM和向量模型都属于开源模型排行榜中考前的, 处理的大多是中文内容,因此我都是选用的qwen

事后测试了qwen2.5:72b的本地模型, 生成文本惨不忍睹,果断放弃

中国大模型换成了Deepseek, 可以调节token从4000--8000, 虽然没有GPT-4总结的内容多, 但还是看得过去, Deepseek注册会有免费的5M token额度, 有效期一个月,有chat和code两款LLM

下图就是调用Deepseek生成根据上一篇文章 NotebookLM自测 : 文档检索能力很顶,回答言之有物,AI播客以假乱真生成的脚本

本来想用ollama下个bge的rerank模型, 发现dify的ollama不支持rerank,而且ollama reranker模型太少了, 因此打算换X inference或text embedding inference 都支持bge-reranker-large, 但部署太麻烦, 最后rerank模型用的Jina API, 免费用户支持每分钟1M token, 500次调用

另外有个中国的集合模型调用的平台siliconflow, 注册就有免费额度, dify支持所有细分模型配置,包括LLM,图像模型,TTS模型,rerank,embedding模型, 可以白嫖一下, 以中国大模型为主,也有部分国外模型

整体LLM, 经测试, 效果最好的就是OpenAI,Gemini,Claude,国产就Deepseek, 其他的rerank模型和embedding模型之后配置Dify其他工作流再测试 , 这个AI播客工作流涉及不到这两个模型,不需要做文档检索

02

Dify工作流, 其实NotebookLM的AI播客功能你下载最新版本的Dify会自带的。我只修改了部分, 比如用户要上传自己播客节目的名称,开头介绍。

用户填写这些必选项, 再点击一下就能生成自己上传文档的AI双人播客

生成时间需要1分多钟

整个流程每一步AI生成的内容都有文本处理做内容承接, 生成内容分为细节内容和最后总结内容两部分。

语音是用的openAI的TTS, 因此说中文会有一股外国人的感觉, 不太地道。而说英文话, 效果接近NotebookLM 80%, 在语气自然转变还是差了一截, 还是有点AI味的,但也过得去。在文本内容精确度上相比NotebookLM要高些, 大致把我文档中的内容都介绍了。 NotebookLM基于那么多文档做总结 ,确实更笼统, 很多细节介绍不到。

工作流现在podcast audio generator组件只支持openAI的TTS, 无法选择ChatTTS或者siliconflow支持的fishaudio, 因此说话自然度方面很机器