支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


字节超快超强声音克隆 MegaTTS3, 声音克隆几乎一模一样, 可跨语言克隆.

发布日期:2025-04-08 14:52:47 浏览次数: 1634 作者:明文视界
推荐语

探索字节跳动MegaTTS3技术,体验高质量声音克隆的神奇之旅。

核心内容:
1. MegaTTS3声音克隆技术介绍及其跨语言克隆能力
2. 安装和模型下载指南,以及音色克隆的具体操作步骤
3. 声音克隆安全考量与官方音色库资源分享

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

ComfyUI 的 MegaTTS3 声音克隆节点

https://github.com/billwuhao/ComfyUI_MegaTTS3

声音克隆质量非常高, 支持中英文, 并可跨语言克隆.

? 更新

[2025-04-06]⚒️: 发布 v1.0.0.

安装

cd ComfyUI/custom_nodes
git clone https://github.com/billwuhao/ComfyUI_MegaTTS3.git
cd ComfyUI_MegaTTS3
pip install -r requirements.txt

# python_embeded
./python_embeded/python.exe -m pip install -r requirements.txt

模型下载

模型和音色需要手动下载放到 ComfyUI\models\TTS 路径下:

[MegaTTS3](https://huggingface.co/ByteDance/MegaTTS3/tree/main)  整个文件夹全部下载放到 TTS 文件夹下.

MegaTTS3 文件夹中新建 speakers 文件夹, 从 [Google drive](https://drive.google.com/drive/folders/1QhcHWcy20JfqWjgqZX1YM3I6i9u4oNlr) 下载所有 .wav 和 .npy 文件, 放到 speakers 文件夹下.

唯一的遗憾是不能自定义克隆声音, 因为克隆质量太好了, 出于安全考虑, 官方未发布自定义克隆的参数, 但是你可以上传要克隆的声音申请(长度 24s 内), 申请地址:
https://drive.google.com/drive/folders/1gCWL1y_2xu9nIFhUX_OW5MbcFuB7J5Cl 
目前已经有近 300 种音色了. 我已经打包上传到云盘, 文末获取.
鸣谢

  • [MegaTTS3](https://github.com/bytedance/MegaTTS3)


- 效果演示. 前面是原声, 后面是克隆:

01

02

03

04

05


公众号后台聊天窗口回复 250406 获取.



  • 明文视界 AI 资源站:

    https://aiart.website/

  • 明文视界 GitHub ComfyUI 节点项目:

    • ComfyUI_MegaTTS3: 字节超快超强声音克隆, 可跨语言克隆.
    • ComfyUI_Prompt-All-In-One: 为所有影,音,图,文创作生成提示的 ComfyUI 节点.
    • ComfyUI_OneButtonPrompt: 在 comfyui 中一键辅助生成提示 (用于图像和视频生成等) 的节点.
    • ComfyUI_AudioTools: 音频处理等相关的 ComfyUI 节点. 包括 视频自动添加字幕; 音频任意时间刻度裁剪; 音频音量, 速度, 音高, 回音处理等; 去除音频中无声部分; 录音; 音频水印嵌入等.
    • ComfyUI_StepAudioTTS: Step-Audio-TTS 的 ComfyUI 节点, 文本转语音, 可说话, 唱歌, RAP, 或者克隆声音.
    • ComfyUI_SparkTTS: 在 Comfyui 中使用 Spark-TTS. Spark-TTS: 一种基于 LLM 的高效文本到语音模型,能克隆各种语言的声音.
    • ComfyUI_NotaGen: NotaGen 的 ComfyUI 节点. 可以同时生成古典音乐和曲谱.
    • ComfyUI_KokoroTTS_MW: Kokoro-TTS 的快速文本转语音节点. 支持 8 种语言和 150 种音色.
    • ComfyUI_gemmax: 小米 GemmaX 翻译, 支持 28 种语言的 ComfyUI 节点.
    • ComfyUI_EraX-WoW-Turbo: 超快速多语言语音识别的 ComfyUI 节点. 可带时间戳.
    • ComfyUI_DiffRhythm: 快速而简单的歌曲生成 ComfyUI 节点.
    • ComfyUI_CSM: 声音克隆, 多轮对话节点, 可根据对话情绪变化情绪, 只支持英文.
  • 明文视界仙宫云镜像:

    无需本地部署, 和高显卡要求, 直接云端玩 AI.

    https://www.xiangongyun.com/image/detail/a1cb959b-a750-4ce6-9418-3659906955d2?r=I9YXP1

    使用教程: 明文视界仙宫云镜像使用教程

  • LIBLIB AI:

    https://www.liblib.art/userpage/53a1edbdf5394aaba7028eff2aaec867

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询