AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


推荐 3 个 yyds 声音克隆开源项目

发布日期:2025-03-05 15:29:25 浏览次数: 1614 来源:逛逛GitHub
推荐语

掌握声音克隆技术,用AI复制任何声音!

核心内容:
1. 阿里CosyVoice 2.0:多语言支持与实时语音合成
2. Seed-VC:一键模仿偶像声音的AI神器
3. MaskGCT:更自然的大规模声音克隆技术

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

01

阿里开源 CosyVoice 2.0

阿里巴巴通义实验室推出的 CosyVoice 2.0 这个 AI 语音生成神器。它不仅在多语言支持、语音克隆、情感控制等方面表现出色,还首次实现了双向流式语音合成,适用于直播、客服等对响应速度要求极高的场景。  
① 多语言与跨语言生成
CosyVoice 支持中、英、日、韩等 10+ 语言的语音合成,并实现跨语言语音生成,例如用中文输入文本直接生成英语语音,无需额外翻译步骤。 
开源地址:https://github.com/FunAudioLLM/CosyVoice
② 零样本语音克隆
仅需 3 秒的语音样本,即可克隆目标音色,生成自然流畅的语音,且支持对音色、语速、情感的精细化调节。  
③ 双向流式语音合成
突破传统 TTS 的延迟限制,支持实时流式输出,适用于直播、客服等对响应速度要求极高的场景。  
④ 富文本与情感控制
通过自然语言指令(如“用欢快的语气强调第二句”)实现语音的韵律、情感控制,让合成语音更贴近真人表达。  

02

零门槛克隆声音 AI 神器 Seed-VC 

用 AI 一键模仿偶像的声音唱歌,或将影视角色配音替换成自己的音色。Seed-VC 开源项目,正是这样一个能实现“声音自由”的黑科技工具,无需训练、操作简单,连小白也能玩转!
开源地址:https://github.com/Plachtaa/seed-vc
它基于 SEED-TTS 架构开发的零样本语音/歌声转换模型。仅凭 1~30 秒的参考音频,就能克隆目标音色,并实时应用于语音或歌曲转换。
无论是将普通说话转为明星音色,还是翻唱周杰伦的歌曲,都能轻松实现,满足配音、翻唱、视频二创等需求。  

03

声音克隆神器:MaskGCT

由港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆神器,MaskGCT。
图片
与先有的文本转语音模型相比,MaskGCT 生成的语音更自然、更连贯。而且这个开源模型,支持控制生成的语音的总长度、语速、停顿、预期等特征,可以修改已经生成的语音或者支持声音克隆。
开源地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
可以通过声音来辨别人目前处于何种情绪状态,比如愤怒、开心、恐惧等,MaskGCT 对此也实现了精准模拟

MaskGCT 的架构

MaskGCT(Masked Generative Codec Transformer)的全新非自回归式(NAR)文本到语音(TTS)模型。MaskGCT 的设计旨在解决传统自回归(AR)和非自回归(NAR)TTS系统的不足之处。
MaskGCT采用了两阶段架构:第一阶段模型使用文本预测从语音自监督学习模型中提取的语义 tokens;第二阶段则在语义 tokens 的条件下生成声学 tokens。
图片
MaskGCT 能够实现在没有对齐监督的情况下,可以直接合成出高质量的语音。
支持语音内容编辑,借助遮罩与预测机制,通过对语义tokens的部分遮罩,MaskGCT可以实现零样本语音内容编辑。
能够语音转换,MaskGCT 支持零样本语音转换,能够根据参考音频将源语音转换为目标语音的音色,而保持语义内容不变。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询