支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Dify x Open Audio:用 Fish Audio 插件轻松实现 TTS 和语音克隆

发布日期:2025-04-14 16:29:47 浏览次数: 1575 作者:Dify
推荐语

Dify x Open Audio 插件 Fish Audio,让 AI 应用轻松实现语音合成与克隆。

核心内容:
1. Fish Audio 插件上线 Dify Marketplace,提供文本转语音和语音克隆功能
2. 实时语音合成、语音克隆、自定义语音模型创建和使用
3. 在 Dify Chatflow 中集成 Fish Audio,实现文本到语音的自动化转换

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

我们非常高兴地宣布,Open Audio 提供的多功能语音工具插件 Fish Audio,现已正式上线 dify Marketplace。通过这项集成,Dify 用户可以在 AI 应用中便捷地加入高质量的文本转语音(TTS)与语音克隆功能。

Fish Audio 的主要功能

Fish Audio 在语音生成和处理方面表现出色,主要提供以下核心能力:

语音合成 (TTS)

Fish Audio 提供实时的文本转语音功能,支持通过 WebSocket API 进行流式音频输出。用户可以灵活控制语速、音量等参数,并能输出包括 Opus、MP3、WAV 在内的常见音频格式。

语音克隆

该插件具备强大的语音克隆能力。只需 30 到 45 秒的音频样本即可完成快速克隆。

Voice ID

在 Fish Audio 平台上,Voice ID 就是特定语音模型的唯一标识符,它代表一款可用于文本转语音的具体声音。

创建和使用自定义语音

除了使用默认语音,你还可以使用 Fish Audio 的 “Build Voice” 功能训练自己的独特语音模型。训练完成后,打开 “My Library” 就能找到你定制的语音模型,只需复制对应的 Voice ID 并粘贴到 Dify 的工作流中即可使用。

快速上手

想在 Dify 中使用 Fish Audio 工具,首先需要在 Dify Marketplace 搜索并安装 “Fish Audio” 插件。

接着,获取你的 Fish Audio API Key 和 endpoint URL,并在插件设置中进行配置。配置时,你还需要选择适合的语音平衡模式。

获取链接:https://fish.audio/zh-CN/go-api/api-keys/

在 Dify 的 Chatflow 中使用 Fish Audio TTS 工具

举个例子:你可以在 Dify 中创建一个 Chatflow,让大型语言模型(LLM)先生成文本,然后将这些文本通过 Fish Audio 的文本转语音(TTS)节点自动转成音频片段。
配置 Fish Audio TTS 节点的流程如下:
  1. 输入文本:指定需要转换为语音的文本。例如可将 LLM 节点的输出直接连接到 TTS 节点的输入字段。

  2. 选择语音:通过设置对应的 Voice ID,选择需要的合成语音。

  3. 输出格式:选择你想要的音频文件格式进行输出。

这样,工作流就能把 LLM 生成的文本转换为指定声音和格式的语音。

现实使用场景

  1. 多语言客服场景

借助 Fish Audio 的语音克隆功能,企业可以基于自家客服专家的录音来创建专属语音模型。系统会将文本形式的客服回复自动转成自然的语音,并可根据客户语言自动切换到相应的语音和语言。整个流程同时用到了 Fish Audio 的语音克隆、自动语音识别(ASR)和文本转语音(TTS)等核心能力,大幅提升了客服沟通的效率与自然度。

  1. 教育与培训内容制作

在教育培训领域,Fish Audio 能够轻松创建标准化课程内容。以语言教学为例,它可以克隆母语者的声音,为学生提供清晰的发音示范,并利用 ASR 功能对学生的口语进行实时纠正。通过 TTS 功能自动生成音频讲解,也让课程制作和交付更为一致、高效。

  1. 播客与媒体内容创作

Fish Audio 为媒体创作者提供灵活的解决方案。创作者可以通过少量本人音频样本训练出个性化数字音色,再将写好的文本脚本转换为音频。借助 ASR 功能,后期还可快速生成字幕或文字稿,提高内容的可及性。此外,平台允许调节语速、情感等维度,确保最终音频与创作者的需求完美匹配。

关于 Open Audio

Open Audio 是 Hanabi AI Inc 旗下的研究实验室,致力于为开源社区提供更加优质的音频相关项目。当前,其产品 Fish Audio 在音频合成和语音识别方面均达到了业内领先水平,无论是开源还是闭源领域都表现出色。

关于 Dify.AI

Dify.AI 是一个帮助开发者更简单、快速地构建 AI 应用的开源平台。我们相信,通过灵活的插件机制、提示词编排、RAG、Workflow、应用日志监测等特性,可以大幅降低开发者的上手门槛,并在最短时间内完成从概念到大规模生产的飞跃。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询