我要投稿

炸裂！效果非常自然逼真！人类无法区分的语音克隆模型ChatTTS！

发布日期：2024-06-04 11:37:07 浏览次数： 3870

作者：GitHubStore

微信搜一搜，关注“GitHubStore”

项目简介

这个语音克隆模型的效果非常自然逼真，作者还只放出了4w小时训练的版本，确保这个模型的声音能被ai检测出来。作者还留着一个10w小时训练数据的版本。

这个语音专文本TTS模型应该是目前对中文支持最好的了。问了周围人，确实区分不出来声音是不是生成的。

ChatTTS：专门为对话场景设计的文本到语音TTS模型

该模型经过超过10万小时的训练，公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。

专为对话任务优化，能够支持多种说话人语音，中英文混合等。

模型还能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等，还能进行更细粒度的调整，如语速、音调和情感等。

亮点

对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。
细粒度控制: 该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。
更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型，支持进一步的研究。

对于模型的具体介绍, 可以参考B站的宣传视频

免责声明

本文件中的信息仅供学术交流使用。其目的是用于教育和研究，不得用于任何商业或法律目的。作者不保证信息的准确性、完整性或可靠性。本文件中使用的信息和数据，仅用于学术研究目的。这些数据来自公开可用的来源，作者不对数据的所有权或版权提出任何主张。

ChatTTS是一个强大的文本转语音系统。然而，负责任地和符合伦理地利用这项技术是非常重要的。为了限制ChatTTS的使用，我们在4w小时模型的训练过程中添加了少量额外的高频噪音，并用mp3格式尽可能压低了音质，以防不法分子用于潜在的犯罪可能。同时我们在内部训练了检测模型，并计划在未来开放。

用法

基本用法

import ChatTTSfrom IPython.display import Audio
chat = ChatTTS.Chat()chat.load_models()
texts = ["<PUT YOUR TEXT HERE>",]
wavs = chat.infer(texts, use_decoder=True)Audio(wavs[0], rate=24_000, autoplay=True)

进阶用法

#################################### Sample a speaker from Gaussian.import torchstd, mean = torch.load('ChatTTS/asset/spk_stat.pt').chunk(2)rand_spk = torch.randn(768) * std + mean
params_infer_code = {'spk_emb': rand_spk, # add sampled speaker 'temperature': .3, # using custom temperature'top_P': 0.7, # top P decode'top_K': 20, # top K decode}
#################################### For sentence level manual control.
# use oral_(0-9), laugh_(0-2), break_(0-7) # to generate special token in text to synthesize.params_refine_text = {'prompt': '[oral_2][laugh_0][break_6]'} 
wav = chat.infer("<PUT YOUR TEXT HERE>", params_refine_text=params_refine_text, params_infer_code=params_infer_code)
#################################### For word level manual control.# use_decoder=False to infer faster with a bit worse qualitytext = 'What is [uv_break]your favorite english food?[laugh][lbreak]'wav = chat.infer(text, skip_refine_text=True, params_infer_code=params_infer_code, use_decoder=False)