支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


最新开源tts,支持时时对话,延迟低于25ms,多规则适配多场景

发布日期:2025-03-29 20:17:02 浏览次数: 1693 作者:世界大模型
推荐语

最新开源TTS技术,低延迟实时对话,多场景适配,性能卓越。

核心内容:
1. Orpheus TTS系统简介与性能特点
2. 零样本语音克隆与情感控制功能
3. 示例代码与安装指南

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
    前段时间分享了一个sparktts效果很不错,硬件依赖也低,还没看过的可以去看一下一键包:新开源TTS,零样本克隆声音,还能自主创建声音,只需要6G显存,文末一键包,最近又发现一款不错的tts,相比sparktts克隆声音更快,适合有时时对话需求的场景,话不多说,直接上干货,哈哈,项目支持本地和在线测试,文中有链接,可以直接测试。

概述

Orpheus TTS是建立在Llama-3B主链上的开源文本到语音系统。 Orpheus展示了使用LLM进行语音合成的新兴功能。它以其接近人类的自然情感表达、超低延迟的实时输出以及强大的零样本语音克隆能力,还将延迟压缩到令人惊叹的 25-50 毫秒,完美适配实时对话场景。并且提供了从 150M 到 3B 参数的四种型号,满足不同场景的需求。支持零样本语音克隆和灵活的情感控制,可让每个人都能轻松定制专属音色。

能力

  • 类似人类的语音:自然语调,情感和节奏,优于SOTA封闭源模型

  • 零拍的语音克隆:克隆声音而无需以前的微调

  • 引导的情感和语调:带有简单标签的控制语音和情感特征

  • 低延迟:〜200ms的实时应用程序流延迟,可降低至〜100ms,并使用输入流。

流推理示例

克隆这个仓库

git clone https://github.com/canopyai/Orpheus-TTS.git

导航和安装软件包

cd Orpheus-TTS && pip install orpheus-speech # uses vllm under the hood for fast inference
pip install vllm==0.7.3

VLLM在3月18日推出了一个版本,因此通过恢复到后来 解决了一些错误

pip install orpheus-speech

在下面运行以下示例:

from orpheus_tts import OrpheusModelimport waveimport time
model = OrpheusModel(model_name ="canopylabs/orpheus-tts-0.1-finetune-prod")prompt = '''Man, the way social media has, um, completely changed how we interact is just wild, right? Like, we're all connected 24/7 but somehow people feel more alone than ever. And don't even get me started on how it's messing with kids' self-esteem and mental health and whatnot.'''
start_time = time.monotonic()syn_tokens = model.generate_speech(   prompt=prompt,   voice="tara",   )
with wave.open("output.wav""wb"as wf:   wf.setnchannels(1)   wf.setsampwidth(2)   wf.setframerate(24000)
   total_frames = 0   chunk_counter = 0   for audio_chunk in syn_tokens: # output streaming      chunk_counter += 1      frame_count = len(audio_chunk) // (wf.getsampwidth() * wf.getnchannels())      total_frames += frame_count      wf.writeframes(audio_chunk)   duration = total_frames / wf.getframerate()
   end_time = time.monotonic()   print(f"It took {end_time - start_time} seconds to generate {duration:.2f} seconds of audio")
测试效果
1、在线Demo:

https://huggingface.co/spaces/MohamedRashad/Orpheus-TTS

想构造时时语音助手、有声读物,配音的可以搞起来了,哈哈



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询