我要投稿

惊！MockingBird 开源语音克隆神器，5 秒速 “复刻” 声音，摘得 35.4k 星闪耀佳绩！

发布日期：2024-11-30 07:35:17 浏览次数： 2802

作者：小兵的AI视界

微信搜一搜，关注“小兵的AI视界”

在当今科技飞速发展的时代，语音技术领域正不断涌现出令人惊叹的创新成果。其中，MockingBird 项目以其独特的实时语音克隆能力，吸引了众多关注的目光。今天，就让我们一同深入探索 MockingBird 的奥秘。

一、项目简介

MockingBird 是由 babysor 团队精心打造的开源项目，它具备一项极为强大的功能——能够在短短 5 秒内学习用户的声音特征，随后基于这些学习成果，精准地生成任意指定内容的语音。这一特性使得它在众多领域都拥有广阔的应用前景，无论是智能语音助手的个性化语音交互，还是有声读物制作中丰富多样的角色配音，亦或是影视后期制作中的配音工作，MockingBird 都能大显身手。

二、技术亮点

1、Transformer-TTS 架构奠定基础

MockingBird 采用了先进的 Transformer-TTS（Text-to-Speech）架构。这一架构作为深度学习模型中的佼佼者，通过端到端的训练方式，展现出卓越的性能。它能够在数据量相对有限的音频数据集上，深度挖掘并学习到独特的发音风格特征，进而成功模拟出任何人的声音。其中，自注意力机制和位置编码的运用堪称精妙。自注意力机制让模型能够自动关注输入序列中的不同部分，从而精准地捕捉序列中的长期依赖性，确保语音生成过程中音素间的连贯性和自然度。例如，在处理一段较长的文本内容转化为语音时，模型能够准确地把握每个单词、每个音节之间的逻辑关系，使生成的语音流畅自然，毫无违和感。

2、低数据需求，高效学习

与其他众多 TTS 系统相比，MockingBird 展现出了极为显著的低数据需求优势。传统的语音合成系统往往需要大量的音频数据来训练模型，以达到较好的效果。然而，MockingBird 却独辟蹊径，仅需用户提供短短几秒钟的音频样本，就能开启高质量的语音克隆之旅。这一特性大大降低了数据收集的难度和成本，无论是对于个人开发者还是小型企业来说，都极大地降低了使用语音克隆技术的门槛。例如，一位独立的内容创作者想要为自己的有声作品添加独特的角色配音，只需轻松录制几句角色的台词音频，MockingBird 就能依据这些少量的样本，生成逼真的角色语音，为创作过程增添更多的灵活性和创意空间。

3、高逼真度，真假难辨

当你聆听 MockingBird 生成的语音时，一定会被其高逼真度所震撼。它所生成的语音与真人录制的音频几乎难以区分开来，无论是语音的语调、语速、音色，还是情感表达，都达到了极高的水准。这背后离不开模型对语音细节的精准把握和对人类语音特征的深度理解。例如，在模拟一段情感丰富的朗读时，MockingBird 能够准确地根据文本内容调整语音的情感色彩，在表达喜悦时语调轻快上扬，在表达悲伤时声音低沉婉转，让听众仿佛置身于真人朗读的情境之中，为用户带来了极致的语音体验。

三、使用指南

1、环境搭建

要开启 MockingBird 的探索之旅，首先需要搭建合适的开发环境；需要 Python 3.7 或更高版本。

安装 PyTorch 和ffmpeg。
运行pip install -r requirements.txt 来安装依赖包。
安装 webrtcvad pip install webrtcvad-wheels。

2、模型准备

在环境搭建完成后，接下来就需要准备模型。MockingBird 提供了两种获取模型的途径：一是自行训练模型，这需要我们收集一定数量的音频数据，并按照项目的要求和规范进行训练过程的设置和执行；二是下载他人分享的模型，项目作者在一些平台（如百度网盘）上提供了多种模型的分享资源。我们只需将下载的模型文件准确地放置到 MockingBird 根目录下的特定文件夹内，并根据实际需求切换到对应的版本（例如 tag v0.0.1），即可为后续的语音合成操作做好准备。

作者

下载链接

效果预览

信息

作者

https://pan.baidu.com/s/1iONvRxmkI-t1nHqxKytY3g 百度盘链接 4j5d

75k steps 用3个开源数据集混合训练

作者

https://pan.baidu.com/s/1fMh9IlgKJlL2PIiRTYDUvw 百度盘链接提取码：om7f

25k steps 用3个开源数据集混合训练, 切换到tag v0.0.1使用

@FawenYo

https://yisiou-my.sharepoint.com/:u:/g/personal/lawrence_cheng_fawenyo_onmicrosoft_com/EWFWDHzee-NNg9TWdKckCc4BC7bK2j9cCbOWn0-_tK0nOg?e=n0gGgC

input output

200k steps 台湾口音需切换到tag v0.0.1使用

@miven

https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ 提取码：2021

https://www.bilibili.com/video/BV1uh411B7AD/

150k steps 注意：根据issue修复并切换到tag v0.0.1使用

3、启动应用

当模型准备就绪后，我们就可以启动 MockingBird 应用了。项目提供了两种便捷的启动方式：

1）启动Web程序（v2）：

python web.py

运行成功后在浏览器打开地址, 默认为 http://localhost:8080

仅支持手动新录音（16khz）, 不支持超过4MB的录音，最佳长度在5~15秒

2）启动工具箱：

python demo_toolbox.py -d <datasets_root>

请指定一个可用的数据集文件路径，如果有支持的数据集则会自动加载供调试，也同时会作为手动录制音频的存储目录。

四、项目意义与展望

MockingBird 项目的出现，无疑在语音技术领域掀起了一股创新的浪潮。它的开源特性更是为广大开发者和研究人员提供了一个宝贵的学习和探索平台。通过社区的共同参与和努力，MockingBird 有望不断得到改进和扩展，其模型的性能和应用范围也将进一步提升。在未来，我们有理由相信，MockingBird 将在更多的领域发挥重要作用，如智能教育中的个性化语音辅导、虚拟现实中的沉浸式语音交互等，为人们的生活和工作带来更多的便利和惊喜。让我们拭目以待，见证 MockingBird 在语音技术的星空中绽放更加耀眼的光芒。

项目地址：

https://github.com/babysor/MockingBird