支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


这可能是目前最强的TTS,10秒复刻你的声音

发布日期:2025-04-08 12:32:06 浏览次数: 1656 作者:沃垠AI
推荐语

探索最新的TTS技术,体验10秒复刻声音的神奇。

核心内容:
1. MiniMax Audio的TTS技术与声音克隆功能介绍
2. Speech-02-hd与Speech-02-turbo模型的特点与应用
3. 声音克隆的实操流程及效果体验

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

怪怪的TTS


前段时间,我把公众号的作者音色朗读给关了。


虽然听起来是我的声音,但总感觉怪怪的,比如蹩脚的英文发音,莫名其妙的停顿,以及偶尔给你来个突兀的语调变化。


有时候我自己开车听文章,都会被吓得一激灵。我不禁在思考:这是我吗?


索性,干脆就关了。


直到最近,我体验到另一个TTS(Text-To-Speech,文本转语音)模型,这才改变我对AI配音的看法。


这是我随手生成的片段,现在已经这么强了吗?


停顿、语调变化、情感表达都非常自然,完全就像是一个真人在说话一样。


体验地址(需要魔法):

https://www.minimax.io/audio


如果用上声音克隆功能,则会更NB。


卧槽,强!


又是Ta


我仔细了解了下,这个TTS模型居然又是他们家:


MiniMax


对,就是之前给大家介绍过,在视频领域大杀四方的海螺AI的母公司。


最近,他们又发布了全新的音频模型Speech-02。


如果是在网页端打开MiniMax Audio,会看到有2个模型:Speech-02-hd、Speech-02-turbo。


hd擅长音色复刻,也就是声音克隆。turbo擅长小语种,支持全球24种语言。2个模型都拥有出色的韵律和稳定性。


这里,给大家放3段音频(中文、粤语和日语),大家可以听下。


我感觉,已经完全分不出AI味了,就像是真人配音一样。


这是MiniMax Audio的界面,非常之简洁。


选择模型,选择音色(官方音色库/自己音色),然后点击Generate生成。


优先推荐大家使用海外版,国内版Speech-02模型还没有上线,也不支持声音克隆。

左边国内,右边海外

国内版:https://hailuoai.com/audio

海外版:https://www.minimax.io/audio


总结了下,MiniMax Audio跟其他TTS相比,有着这些亮点:


  • 1)顶尖TTS技术。基于自研模型,精通30+语种,预设300+音色库,可快速将文字转为流畅自然的语⾳。尤其是中、粤、英、日、韩和阿拉伯语语种,效果非常出色,⼈机难辨。


  • 2)高精度声音克隆。最低10秒就能快速克隆人声,语音逼真,音色细腻,情感表达丰富。


  • 3)音色效果丰富。提供回声、电音、低沉或清亮等音色场景,还能指定输出语⾔、情绪、音量、音调和速度,满足用户多样化需求。


  • 4)功能全面。最长支持20万字输入,支持文档/网页链接生成音频,可轻松创作有声书和播客。


  • 5)高性价比。每天登录免费领4000积分(可制作5分钟音频),也支持API调用,便利企业和开发者。


一手体验


下面,我带大家来一手体验下MiniMax Audio的声音克隆功能。


这里,我们以周董为例。先去网上找了一些周董的采访片段,然后用剪辑软件把音频部分(音质一定要好,发音清晰,情绪丰富)单独导出来。


然后打开MiniMax Audio网站,在左侧导航栏选择Voices(音色库),然后点击Create your Voice Clone(创建你的克隆声音)


点进来之后,按步骤上传音频、音色命名、选择语言以及同意服务协议。


音频素材可以上传语音,也可以直接录音。时长支持10~300秒,建议最好在30秒左右,人声情感越丰富越好


然后,点击Convert(克隆),模型就开始克隆声音了。大概10秒左右,完成克隆。


最后,我们前往Text to-speech界面,输入文本,选择刚克隆的Jay音色,点击“Generate”一键生成。


NB,周董叮嘱各位的三连视频这就生成好了。


我们再复刻一下星爷的粤语音色,非常的地道,非常的流畅。

台词:喂!这个世界真的很搞笑啊,你当它是真的时候它就假,你当它是假的时候呢——啪!被雷劈中!我妈说过,人生就像一盒巧克力,但我打开晚了,全都化掉了!其实呢,我是个演员,虽然每天跑龙套也要吃饭啊。咦?你的发型很有个性哦,哪儿剪的?火星发廊还是木星烫发?


再看下志玲姐姐的效果。


这……可以说是神似了。


我觉得,这就是目前最强的中文TTS,没有之一。


过去,很多同类产品水土不服,中文错字离谱,口音奇怪,甚至还有股“大佐”味。


而MiniMax Audio,有着顶尖的准确度+地道的中文口音,完美地填补了中文TTS的空白,推动中文的表达话语权在世界崛起。


这让我想到了周董说的那句话:



写在最后


不仅如此。


这款TTS工具,同样也在海外大火,很多外网博主自发推荐。


比如,@Uc Gwen 就用MiniMax制作了一个多语言数字人视频,目前已经有3w播放量、1.8k点赞。


完整版视频在此。


就连MiniMax自己的推文,都有400w的浏览量。


不得不说,作为国产AI,MiniMax在海外是真的NB。


体验地址:https://www.minimax.io/audio

API入口:https://minimax.io/platform


进入2025年,MiniMax保持着强劲的姿态。先是1月,发布并开源了MiniMax-01语言模型;随后,带着全新的视频模型(T2V、I2V)而来;最近,又上新了自己的TTS音频模型。


从文本、视频到音频的全面更新,MiniMax一直在给我们惊喜。


这背后,既是他们对技术的长期投入,也是对AGI的锲而不舍。




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询