我要投稿

一键包：新开源TTS，零样本克隆声音，还能自主创建声音，只需要6G显存，文末一键包

发布日期：2025-03-10 11:46:21 浏览次数： 1851 作者：世界大模型

这两天在搞文生视频的东西，需要语音的辅助，正巧最近开源了一个tts，语音克隆和语音自主创建的项目，测试了一下，效果真的很不错，后期需要配音的可以直接用这个了，哈哈，废话不多说，直接上干货。

项目介绍

概述

Spark-TTS是一种先进的文本对语音系统，它使用大语言模型（LLM）的力量来高度准确且自然的语音综合。它旨在为研究和生产使用而有效，灵活和强大。

关键功能

Spark-TTS完全基于QWEN2.5，完全基于QWEN2.5，消除了对流程匹配等其他生成模型的需求。它没有依靠单独的模型来生成声学特征，而是直接从LLM预测的代码中重建音频。这种方法简化了该过程，提高了效率并降低了复杂性。

高质量的语音克隆：支持零拍的语音克隆，这意味着即使没有该声音的特定训练数据，也可以复制扬声器的声音。这是跨语言和代码转换场景的理想选择，可以在不需要每个语言的语言之间进行无缝过渡，而无需为每个语言进行单独的培训。

双语支持：支持汉语和英语，并且能够以零拍的语音克隆来克隆跨语义和代码转换场景，从而使模型能够以高自然性和准确性的多种语言合成多种语言。

可控的语音生成：通过调整诸如性别，音调和口语率之类的参数来支持创建虚拟扬声器。

安装方式

不想安装的直接使用文本一键包即可

克隆并安装

克隆仓库

git clone https://github.com/SparkAudio/Spark-TTS.gitcd  Spark-TTS

创建conda env：

conda create -n sparktts -y python=3.12 conda activate sparktts pip install -r requirements.txt#If you are in mainland China, you can set the mirror as follows:pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

模型下载

通过Python下载：

from huggingface_hub import snapshot_downloadsnapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

通过git克隆下载：

mkdir -p pretrained_models#Make sure you have git-lfs installed (https://git-lfs.com)git lfs install git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

Web UI用法

您可以通过运行启动UI接口python webui.py --device 0，这使您可以执行语音克隆和语音创建。语音克隆支持上传参考音频或直接录制音频。

克隆页面

声音创作

效果测试

1、步老师的声音

克隆的声音

2、声音创造-模拟男声

最近看到那种奥特曼送小朋友生日快乐的视频，决定搞一个

哈哈，这个声音是我构造的，参数如下

效果真是不错吧，赶快试试吧

欢迎大家关注公众号、进群交流技术，一件包私信回复【sptts】

想进群交流的公众号私信回复【进群】不是留言，不是留言，不是留言

历史回顾：

技术前沿 | 智谱开源年首发力作：CogView4开启汉字生成新纪元

开源文生视频第一梯队，阿里深夜开源万相2.1，文生视频领域的deepseek

基于deepseek的视频生成，本地ollama部署，视频制作更加轻松：文末提供一键包

保姆教程：deepseek辅助小白开发微信小程序，有了deepseek你也可以是全栈工程师
别只关注deepseek了，阿里发布qwen2.5-max，比deepseek更好更稳定，排名超越deepseek

多模态AI【奥特曼】开源，可以定制你的贾维斯，联网控制你的电脑和家电

用不了cursor，qwen2.5-coder完全可以平替了，写代码刚刚滴

端到端语音大模型，大模型、语音转文本、tts三合一

2s样本、4s生成，仅需5G显存，克隆你想要的声音，本地-在线同步支持

AI搜索，一个开源可本地部署的Ai搜索引擎，不需要gpu，免费用qwen2.5接口，也可以基于ollama

大模型微调经验和认知

Multi Agent 多agent协同，不仅好玩还很实用，给你一个完整的demo

只需一句代码将chatgpt、rag知识库嵌入你的网站，拥有一个网站智能助手

大模型微调的一些技术理解（一）

AI搜索，一个开源可本地部署的Ai搜索引擎，不需要gpu，免费用qwen2.5接口，也可以基于ollama

llama3.1结合agent，实现大模型对工具的调用，【奥特曼】智能助手的核心调用组件就是他

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-19

DeepSeek+Dify 构建本地知识库，真香！

2025-04-19

微软开源实时交互模型：提升Agent动态复杂处理能力

2025-04-19

微软最新 Playwright MCP 服务器强势来袭？

2025-04-18

OpenManus：开源版 Manus，无需邀请码，5 分钟极速体验！

2025-04-18

OpenAI开源34页Agents最佳实践白皮书~

2025-04-18

OpenAI推出终端编码智能体Codex CLI了

2025-04-18

“开源版coze”爆火，融资超 4.6 亿！如今 Docker 拉取量超 1 亿，斩获 77.5k star

2025-04-18

【开源看AI】GitDiagram：AI帮你理解任意代码库的架构

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

为什么大模型本地部署后“没了下文”？

2025-04-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部