我要投稿

6K star！这款TTS效果太炸裂，网上的声音真不能乱信了

发布日期：2024-07-18 21:02:48 浏览次数： 3591

如果你想做视频，却感觉面对镜头有些紧张，那你的福音真的来了，今年各种TTS工具层出不穷，只需准备好文字，TTS就可以自动转成各种各样的语音了。

今天我们分享一个开源TTS项目，它可以快速克隆声音，效果非常的炸裂，可以满足用户的个性化需求，它就是：Fish Speech

Fish Speech 是什么

Fish Speech是一款创新的文本转语音（TTS）工具，它提供了极高的自定义性和灵活性，以满足用户的个性化需求。该工具采用了为处理大规模数据而设计的Flash-Attn算法，该算法以其高效性、准确性和稳定性著称，显著提升了TTS技术的性能。

Fish Speech的一个显著特点是其无需繁琐训练的能力，用户只需提供一段参考语音，便可迅速进行语音克隆。此外，该工具对显存的需求极低，仅需4GB，且具有快速的推理速度，极大地优化了用户体验。

项目在发布之后凭借出色的效果和极低上手门槛，热度上升得非常之快。

在线Demo

另外，Fish audio提供了试用网站，直接打开就可以使用，上面还有很多网友制作上传的克隆声音，而且无需复杂的环境搭建过程。地址如下：

你可以选择已经有的声音来使用，也可以构建自己的声音，我觉得非常的贴心，对于那些动手能力不强的同学，是绝对的福音。比如这一段，可以听听看效果。

你也可以通过构建声音来创建属于自己的声音。

本地安装

资源要求

GPU 内存: 4GB (用于推理), 8GB (用于微调)
系统: Linux, Windows

window建议考虑 WSL2 或 docker 来运行代码库。如果是想要不使用Linux环境来安装的话，可以参考文档进行操作，也不是很复杂。

Linux用户安装参考如下：

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenvconda create -n fish-speech python=3.10conda activate fish-speech
# 安装 pytorchpip3 install torch torchvision torchaudio
# 安装 fish-speechpip3 install -e .
# (Ubuntu / Debian 用户) 安装 soxapt install libsox-dev

完成安装启动后的WEB界面效果如下。

推理方式

总的来说, 推理分为几个部分:

给定一段 ~10 秒的语音, 将它用 VQGAN 编码.
将编码后的语义 token 和对应文本输入语言模型作为例子.
给定一段新文本, 让模型生成对应的语义 token.
将生成的语义 token 输入 VQGAN 解码, 生成对应的语音.

目前推理提供了3种方式：命令行, http api, 以及 webui

这里介绍下后两种方式，HTTP API和WEB UI的使用方式。

HTTP API：

首先启动API服务

python -m tools.api \\--listen 0.0.0.0:8080 \\--llama-checkpoint-path "checkpoints/fish-speech-1.2" \\--decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\--decoder-config-name firefly_gan_vq

随后, 你可以在 http://127.0.0.1:8080/ 中查看并测试 API.

请求示例代码如下：

python -m tools.post_api \\--text "要输入的文本" \\--reference_audio "参考音频路径" \\--reference_text "参考音频的文本内容" \\--streaming True

WEB UI 方式

你可以使用以下命令来启动 WebUI:

python -m tools.webui \\--llama-checkpoint-path "checkpoints/fish-speech-1.2" \\--decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\--decoder-config-name firefly_gan_vq

功能特点

高效语音转换：快速将文本转换为自然流畅的语音。
多语言支持：涵盖中文、英文和日文，跨越语言障碍。
语音克隆技术：通过深度学习实现个性化语音的克隆。
低硬件需求：仅需4GB显存，降低使用门槛。
快速推理：优化推理过程，缩短等待时间，提升效率。
多样的语音模型：支持多种先进模型，适应不同需求。
用户友好：简化安装和配置，易于上手。
微调能力：LORA技术提供细致的模型调整功能。
性能优化：采用先进技术确保高效稳定的处理能力。

总结

与其他开源TTS模型相比，Fish Speech在稳定性和可用性上都展现出了明显优势。在一些方面Fish Speech的效果比ChatTTS和GPT-SoVITS还要强。目前能看到的一些缺点是Fish Speech虽然最低系统配置要求不高，但是如果想实现高速推理还是比较吃资源的，另外就是对于字符长度的支持比较有限，每次转换都较短。