我要投稿

01

阿里开源 CosyVoice 2.0

阿里巴巴通义实验室推出的 CosyVoice 2.0 这个 AI 语音生成神器。它不仅在多语言支持、语音克隆、情感控制等方面表现出色，还首次实现了双向流式语音合成，适用于直播、客服等对响应速度要求极高的场景。

① 多语言与跨语言生成

CosyVoice 支持中、英、日、韩等 10+ 语言的语音合成，并实现跨语言语音生成，例如用中文输入文本直接生成英语语音，无需额外翻译步骤。

开源地址：https://github.com/FunAudioLLM/CosyVoice

② 零样本语音克隆

仅需 3 秒的语音样本，即可克隆目标音色，生成自然流畅的语音，且支持对音色、语速、情感的精细化调节。

③ 双向流式语音合成

突破传统 TTS 的延迟限制，支持实时流式输出，适用于直播、客服等对响应速度要求极高的场景。

④ 富文本与情感控制

通过自然语言指令（如“用欢快的语气强调第二句”）实现语音的韵律、情感控制，让合成语音更贴近真人表达。

02

零门槛克隆声音 AI 神器 Seed-VC

用 AI 一键模仿偶像的声音唱歌，或将影视角色配音替换成自己的音色。Seed-VC 开源项目，正是这样一个能实现“声音自由”的黑科技工具，无需训练、操作简单，连小白也能玩转！

开源地址：https://github.com/Plachtaa/seed-vc

它基于 SEED-TTS 架构开发的零样本语音/歌声转换模型。仅凭 1~30 秒的参考音频，就能克隆目标音色，并实时应用于语音或歌曲转换。

无论是将普通说话转为明星音色，还是翻唱周杰伦的歌曲，都能轻松实现，满足配音、翻唱、视频二创等需求。

03

声音克隆神器：MaskGCT

由港中大（深圳）联手趣丸科技联合推出了新一代大规模声音克隆神器，MaskGCT。

与先有的文本转语音模型相比，MaskGCT 生成的语音更自然、更连贯。而且这个开源模型，支持控制生成的语音的总长度、语速、停顿、预期等特征，可以修改已经生成的语音或者支持声音克隆。

开源地址：https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

可以通过声音来辨别人目前处于何种情绪状态，比如愤怒、开心、恐惧等，MaskGCT 对此也实现了精准模拟

MaskGCT 的架构

MaskGCT（Masked Generative Codec Transformer）的全新非自回归式（NAR）文本到语音（TTS）模型。MaskGCT 的设计旨在解决传统自回归（AR）和非自回归（NAR）TTS系统的不足之处。

MaskGCT采用了两阶段架构：第一阶段模型使用文本预测从语音自监督学习模型中提取的语义 tokens；第二阶段则在语义 tokens 的条件下生成声学 tokens。

MaskGCT 能够实现在没有对齐监督的情况下，可以直接合成出高质量的语音。

支持语音内容编辑，借助遮罩与预测机制，通过对语义tokens的部分遮罩，MaskGCT可以实现零样本语音内容编辑。

能够语音转换，MaskGCT 支持零样本语音转换，能够根据参考音频将源语音转换为目标语音的音色，而保持语义内容不变。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

Ollama-Deep-Researcher-本地Mac结合魔搭社区模型搭建网页研究助手

2025-04-25

Manus开源版本！无需邀请码，老金手把手教你咋用！

2025-04-25

78k star，像写 Markdown 一样画流程图，这个开源工具太牛了！

2025-04-25

MarkItDown MCP：一款好用的将文件和办公文档转换为Markdown的AI工具！

2025-04-24

AI+SQL客户端，这款开源神器让数据库管理像聊天一样简单！

2025-04-24

效率革命！GitHub爆火的开源神器MinerU：PDF、网页、电子书一键转Markdown

2025-04-24

Suna：构建你专属“通用智能体”的开源利器

2025-04-24

开源TTS领域迎来重磅新星！Dia-1.6B：超逼真对话生成，开源2天斩获6.5K Star！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

2025-04-21

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

推荐 3 个 yyds 声音克隆开源项目

01

02

03