微信扫码
与创始人交个朋友
我要投稿
如果你想做视频,却感觉面对镜头有些紧张,那你的福音真的来了,今年各种TTS工具层出不穷,只需准备好文字,TTS就可以自动转成各种各样的语音了。
今天我们分享一个开源TTS项目,它可以快速克隆声音,效果非常的炸裂,可以满足用户的个性化需求,它就是:Fish Speech
Fish Speech 是什么
Fish Speech是一款创新的文本转语音(TTS)工具,它提供了极高的自定义性和灵活性,以满足用户的个性化需求。该工具采用了为处理大规模数据而设计的Flash-Attn算法,该算法以其高效性、准确性和稳定性著称,显著提升了TTS技术的性能。
Fish Speech的一个显著特点是其无需繁琐训练的能力,用户只需提供一段参考语音,便可迅速进行语音克隆。此外,该工具对显存的需求极低,仅需4GB,且具有快速的推理速度,极大地优化了用户体验。
项目在发布之后凭借出色的效果和极低上手门槛,热度上升得非常之快。
在线Demo
另外,Fish audio提供了试用网站,直接打开就可以使用,上面还有很多网友制作上传的克隆声音,而且无需复杂的环境搭建过程。地址如下:
你可以选择已经有的声音来使用,也可以构建自己的声音,我觉得非常的贴心,对于那些动手能力不强的同学,是绝对的福音。比如这一段,可以听听看效果。
你也可以通过构建声音来创建属于自己的声音。
本地安装
GPU 内存: 4GB (用于推理), 8GB (用于微调)
系统: Linux, Windows
window建议考虑 WSL2 或 docker 来运行代码库。如果是想要不使用Linux环境来安装的话,可以参考文档进行操作,也不是很复杂。
Linux用户安装参考如下:
# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech
# 安装 pytorch
pip3 install torch torchvision torchaudio
# 安装 fish-speech
pip3 install -e .
# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev
完成安装启动后的WEB界面效果如下。
推理方式
总的来说, 推理分为几个部分:
给定一段 ~10 秒的语音, 将它用 VQGAN 编码.
将编码后的语义 token 和对应文本输入语言模型作为例子.
给定一段新文本, 让模型生成对应的语义 token.
将生成的语义 token 输入 VQGAN 解码, 生成对应的语音.
目前推理提供了3种方式:命令行, http api, 以及 webui
这里介绍下后两种方式,HTTP API和WEB UI的使用方式。
首先启动API服务
python -m tools.api \\--listen 0.0.0.0:8080 \\--llama-checkpoint-path "checkpoints/fish-speech-1.2" \\--decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\--decoder-config-name firefly_gan_vq
随后, 你可以在 http://127.0.0.1:8080/
中查看并测试 API.
请求示例代码如下:
python -m tools.post_api \\--text "要输入的文本" \\--reference_audio "参考音频路径" \\--reference_text "参考音频的文本内容" \\--streaming True
你可以使用以下命令来启动 WebUI:
python -m tools.webui \\
--llama-checkpoint-path "checkpoints/fish-speech-1.2" \\
--decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\
--decoder-config-name firefly_gan_vq
功能特点
高效语音转换:快速将文本转换为自然流畅的语音。
多语言支持:涵盖中文、英文和日文,跨越语言障碍。
语音克隆技术:通过深度学习实现个性化语音的克隆。
低硬件需求:仅需4GB显存,降低使用门槛。
快速推理:优化推理过程,缩短等待时间,提升效率。
多样的语音模型:支持多种先进模型,适应不同需求。
用户友好:简化安装和配置,易于上手。
微调能力:LORA技术提供细致的模型调整功能。
性能优化:采用先进技术确保高效稳定的处理能力。
总结
与其他开源TTS模型相比,Fish Speech在稳定性和可用性上都展现出了明显优势。在一些方面Fish Speech的效果比ChatTTS和GPT-SoVITS还要强。目前能看到的一些缺点是Fish Speech虽然最低系统配置要求不高,但是如果想实现高速推理还是比较吃资源的,另外就是对于字符长度的支持比较有限,每次转换都较短。
项目信息
项目名称: Fish Speech
GitHub 链接:https://github.com/fishaudio/fish-speech
Star 数:6K
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-07
解密o1,六大推理秘诀大曝光!
2024-11-07
Ollama 0.4 版本发布,支持 Llama 3.2 Vision 视觉模型,实测满足个人使用
2024-11-07
Chat2DB:智能数据库查询工具,一款强大的数据库聊天机器人工具
2024-11-06
分步拆解,使用Qwen大模型创建多语言聊天和翻译应用
2024-11-06
Neolink.AI 集成 Ollama ,简化本地AI模型部署
2024-11-06
一个很酷的想法,基于llm的浏览器自动化,这个开源项目有前途
2024-11-06
刚刚,腾讯混元开源两大核心模型!
2024-11-06
Standard Intelligence Lab 推出 Hertz-Dev 实现AI实时对话了
2024-05-06
2024-08-13
2024-07-25
2024-06-12
2024-06-16
2024-07-11
2024-06-15
2024-07-20
2024-07-25
2024-07-25