AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


6K star!这款TTS效果太炸裂,网上的声音真不能乱信了
发布日期:2024-07-18 21:02:48 浏览次数: 1968


如果你想做视频,却感觉面对镜头有些紧张,那你的福音真的来了,今年各种TTS工具层出不穷,只需准备好文字,TTS就可以自动转成各种各样的语音了。

今天我们分享一个开源TTS项目,它可以快速克隆声音,效果非常的炸裂,可以满足用户的个性化需求,它就是:Fish Speech



Fish Speech 是什么



Fish Speech是一款创新的文本转语音(TTS)工具,它提供了极高的自定义性和灵活性,以满足用户的个性化需求。该工具采用了为处理大规模数据而设计的Flash-Attn算法,该算法以其高效性、准确性和稳定性著称,显著提升了TTS技术的性能。

Fish Speech的一个显著特点是其无需繁琐训练的能力,用户只需提供一段参考语音,便可迅速进行语音克隆。此外,该工具对显存的需求极低,仅需4GB,且具有快速的推理速度,极大地优化了用户体验。

项目在发布之后凭借出色的效果和极低上手门槛,热度上升得非常之快。




 在线Demo



另外,Fish audio提供了试用网站,直接打开就可以使用,上面还有很多网友制作上传的克隆声音,而且无需复杂的环境搭建过程。地址如下:

你可以选择已经有的声音来使用,也可以构建自己的声音,我觉得非常的贴心,对于那些动手能力不强的同学,是绝对的福音。比如这一段,可以听听看效果。

你也可以通过构建声音来创建属于自己的声音。




本地安装



资源要求

  • GPU 内存: 4GB (用于推理), 8GB (用于微调)

  • 系统: Linux, Windows

window建议考虑 WSL2 或 docker 来运行代码库。如果是想要不使用Linux环境来安装的话,可以参考文档进行操作,也不是很复杂。

Linux用户安装参考如下:

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenvconda create -n fish-speech python=3.10conda activate fish-speech
# 安装 pytorchpip3 install torch torchvision torchaudio
# 安装 fish-speechpip3 install -e .
# (Ubuntu / Debian 用户) 安装 soxapt install libsox-dev

完成安装启动后的WEB界面效果如下。

 




推理方式



总的来说, 推理分为几个部分:

  1. 给定一段 ~10 秒的语音, 将它用 VQGAN 编码.

  2. 将编码后的语义 token 和对应文本输入语言模型作为例子.

  3. 给定一段新文本, 让模型生成对应的语义 token.

  4. 将生成的语义 token 输入 VQGAN 解码, 生成对应的语音.

目前推理提供了3种方式:命令行, http api, 以及 webui

这里介绍下后两种方式,HTTP API和WEB UI的使用方式。

HTTP API:

首先启动API服务

python -m tools.api \\--listen 0.0.0.0:8080 \\--llama-checkpoint-path "checkpoints/fish-speech-1.2" \\--decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\--decoder-config-name firefly_gan_vq

随后, 你可以在 http://127.0.0.1:8080/ 中查看并测试 API.

请求示例代码如下:

python -m tools.post_api \\--text "要输入的文本" \\--reference_audio "参考音频路径" \\--reference_text "参考音频的文本内容" \\--streaming True

WEB UI 方式

你可以使用以下命令来启动 WebUI:


python -m tools.webui \\--llama-checkpoint-path "checkpoints/fish-speech-1.2" \\--decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\--decoder-config-name firefly_gan_vq




功能特点



  1. 高效语音转换:快速将文本转换为自然流畅的语音。

  2. 多语言支持:涵盖中文、英文和日文,跨越语言障碍。

  3. 语音克隆技术:通过深度学习实现个性化语音的克隆。

  4. 低硬件需求:仅需4GB显存,降低使用门槛。

  5. 快速推理:优化推理过程,缩短等待时间,提升效率。

  6. 多样的语音模型:支持多种先进模型,适应不同需求。

  7. 用户友好:简化安装和配置,易于上手。

  8. 微调能力:LORA技术提供细致的模型调整功能。

  9. 性能优化:采用先进技术确保高效稳定的处理能力。





总结



与其他开源TTS模型相比,Fish Speech在稳定性和可用性上都展现出了明显优势。在一些方面Fish Speech的效果比ChatTTS和GPT-SoVITS还要强。目前能看到的一些缺点是Fish Speech虽然最低系统配置要求不高,但是如果想实现高速推理还是比较吃资源的,另外就是对于字符长度的支持比较有限,每次转换都较短。




项目信息



  • 项目名称:  Fish Speech

  • GitHub 链接:https://github.com/fishaudio/fish-speech

  • Star 数:6K



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询