微信扫码
添加专属顾问
我要投稿
探索最新的TTS技术,体验10秒复刻声音的神奇。 核心内容: 1. MiniMax Audio的TTS技术与声音克隆功能介绍 2. Speech-02-hd与Speech-02-turbo模型的特点与应用 3. 声音克隆的实操流程及效果体验
怪怪的TTS
前段时间,我把公众号的作者音色朗读给关了。
虽然听起来是我的声音,但总感觉怪怪的,比如蹩脚的英文发音,莫名其妙的停顿,以及偶尔给你来个突兀的语调变化。
有时候我自己开车听文章,都会被吓得一激灵。我不禁在思考:这是我吗?
索性,干脆就关了。
直到最近,我体验到另一个TTS(Text-To-Speech,文本转语音)模型,这才改变我对AI配音的看法。
这是我随手生成的片段,现在已经这么强了吗?
停顿、语调变化、情感表达都非常自然,完全就像是一个真人在说话一样。
体验地址(需要魔法):
https://www.minimax.io/audio
如果用上声音克隆功能,则会更NB。
卧槽,强!
又是Ta
我仔细了解了下,这个TTS模型居然又是他们家:
MiniMax。
对,就是之前给大家介绍过,在视频领域大杀四方的海螺AI的母公司。
最近,他们又发布了全新的音频模型Speech-02。
如果是在网页端打开MiniMax Audio,会看到有2个模型:Speech-02-hd、Speech-02-turbo。
hd擅长音色复刻,也就是声音克隆。turbo擅长小语种,支持全球24种语言。2个模型都拥有出色的韵律和稳定性。
这里,给大家放3段音频(中文、粤语和日语),大家可以听下。
我感觉,已经完全分不出AI味了,就像是真人配音一样。
这是MiniMax Audio的界面,非常之简洁。
选择模型,选择音色(官方音色库/自己音色),然后点击Generate生成。
优先推荐大家使用海外版,国内版Speech-02模型还没有上线,也不支持声音克隆。
左边国内,右边海外
国内版:https://hailuoai.com/audio
海外版:https://www.minimax.io/audio
总结了下,MiniMax Audio跟其他TTS相比,有着这些亮点:
1)顶尖TTS技术。基于自研模型,精通30+语种,预设300+音色库,可快速将文字转为流畅自然的语⾳。尤其是中、粤、英、日、韩和阿拉伯语语种,效果非常出色,⼈机难辨。
2)高精度声音克隆。最低10秒就能快速克隆人声,语音逼真,音色细腻,情感表达丰富。
3)音色效果丰富。提供回声、电音、低沉或清亮等音色场景,还能指定输出语⾔、情绪、音量、音调和速度,满足用户多样化需求。
4)功能全面。最长支持20万字输入,支持文档/网页链接生成音频,可轻松创作有声书和播客。
5)高性价比。每天登录免费领4000积分(可制作5分钟音频),也支持API调用,便利企业和开发者。
一手体验
下面,我带大家来一手体验下MiniMax Audio的声音克隆功能。
这里,我们以周董为例。先去网上找了一些周董的采访片段,然后用剪辑软件把音频部分(音质一定要好,发音清晰,情绪丰富)单独导出来。
然后打开MiniMax Audio网站,在左侧导航栏选择Voices(音色库),然后点击Create your Voice Clone(创建你的克隆声音)。
点进来之后,按步骤上传音频、音色命名、选择语言以及同意服务协议。
音频素材可以上传语音,也可以直接录音。时长支持10~300秒,建议最好在30秒左右,人声情感越丰富越好。
然后,点击Convert(克隆),模型就开始克隆声音了。大概10秒左右,完成克隆。
最后,我们前往Text to-speech界面,输入文本,选择刚克隆的Jay音色,点击“Generate”一键生成。
NB,周董叮嘱各位的三连视频这就生成好了。
我们再复刻一下星爷的粤语音色,非常的地道,非常的流畅。
台词:喂!这个世界真的很搞笑啊,你当它是真的时候它就假,你当它是假的时候呢——啪!被雷劈中!我妈说过,人生就像一盒巧克力,但我打开晚了,全都化掉了!其实呢,我是个演员,虽然每天跑龙套也要吃饭啊。咦?你的发型很有个性哦,哪儿剪的?火星发廊还是木星烫发?
再看下志玲姐姐的效果。
这……可以说是神似了。
我觉得,这就是目前最强的中文TTS,没有之一。
过去,很多同类产品水土不服,中文错字离谱,口音奇怪,甚至还有股“大佐”味。
而MiniMax Audio,有着顶尖的准确度+地道的中文口音,完美地填补了中文TTS的空白,推动中文的表达话语权在世界崛起。
这让我想到了周董说的那句话:
写在最后
不仅如此。
这款TTS工具,同样也在海外大火,很多外网博主自发推荐。
比如,@Uc Gwen 就用MiniMax制作了一个多语言数字人视频,目前已经有3w播放量、1.8k点赞。
完整版视频在此。
就连MiniMax自己的推文,都有400w的浏览量。
不得不说,作为国产AI,MiniMax在海外是真的NB。
体验地址:https://www.minimax.io/audio
API入口:https://minimax.io/platform
进入2025年,MiniMax保持着强劲的姿态。先是1月,发布并开源了MiniMax-01语言模型;随后,带着全新的视频模型(T2V、I2V)而来;最近,又上新了自己的TTS音频模型。
从文本、视频到音频的全面更新,MiniMax一直在给我们惊喜。
这背后,既是他们对技术的长期投入,也是对AGI的锲而不舍。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-11
成功率提高7倍!新方法一句话就能让AI秒出分子设计+合成步骤
2025-04-11
多模态视觉理解大模型推理优化
2025-04-09
99%的人不知道Claude的一句话生成SVG图片功能
2025-04-08
AI数字人领域重大突破:告别拼凑式合成,阿里OmniTalker能否开启音视频一体化新时代?
2025-04-08
阿里OmniTalker震撼发布!0.8B参数实现25FPS实时音视频生成,跨语言情感表达精准同步
2025-04-08
字节超快超强声音克隆 MegaTTS3, 声音克隆几乎一模一样, 可跨语言克隆.
2025-04-07
简单粗暴,4O终极魔法,这才是主体库的最终形态
2025-04-07
环境有限?没条件用一步到位的高端AI?AI内容深加工/平民AI高端玩法:AI生成各种图、视频、音频、文档、可视化图表、程序等等等
2024-09-12
2024-06-14
2024-08-06
2024-06-17
2024-08-30
2024-05-30
2024-11-28
2024-10-07
2024-10-16
2024-04-21
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05
2025-03-02
2025-01-08
2024-12-13