我要投稿

这可能是目前最强的TTS，10秒复刻你的声音

发布日期：2025-04-08 12:32:06 浏览次数： 1656 作者：沃垠AI

怪怪的TTS

前段时间，我把公众号的作者音色朗读给关了。

虽然听起来是我的声音，但总感觉怪怪的，比如蹩脚的英文发音，莫名其妙的停顿，以及偶尔给你来个突兀的语调变化。

有时候我自己开车听文章，都会被吓得一激灵。我不禁在思考：这是我吗？

索性，干脆就关了。

直到最近，我体验到另一个TTS（Text-To-Speech，文本转语音）模型，这才改变我对AI配音的看法。

这是我随手生成的片段，现在已经这么强了吗？

停顿、语调变化、情感表达都非常自然，完全就像是一个真人在说话一样。

体验地址（需要魔法）：

https://www.minimax.io/audio

如果用上声音克隆功能，则会更NB。

卧槽，强！

又是Ta

我仔细了解了下，这个TTS模型居然又是他们家：

MiniMax。

对，就是之前给大家介绍过，在视频领域大杀四方的海螺AI的母公司。

最近，他们又发布了全新的音频模型Speech-02。

如果是在网页端打开MiniMax Audio，会看到有2个模型：Speech-02-hd、Speech-02-turbo。

hd擅长音色复刻，也就是声音克隆。turbo擅长小语种，支持全球24种语言。2个模型都拥有出色的韵律和稳定性。

这里，给大家放3段音频（中文、粤语和日语），大家可以听下。

我感觉，已经完全分不出AI味了，就像是真人配音一样。

这是MiniMax Audio的界面，非常之简洁。

选择模型，选择音色（官方音色库/自己音色），然后点击Generate生成。

优先推荐大家使用海外版，国内版Speech-02模型还没有上线，也不支持声音克隆。

左边国内，右边海外

国内版：https://hailuoai.com/audio

海外版：https://www.minimax.io/audio

总结了下，MiniMax Audio跟其他TTS相比，有着这些亮点：

1）顶尖TTS技术。基于自研模型，精通30+语种，预设300+音色库，可快速将文字转为流畅自然的语⾳。尤其是中、粤、英、日、韩和阿拉伯语语种，效果非常出色，⼈机难辨。
2）高精度声音克隆。最低10秒就能快速克隆人声，语音逼真，音色细腻，情感表达丰富。
3）音色效果丰富。提供回声、电音、低沉或清亮等音色场景，还能指定输出语⾔、情绪、音量、音调和速度，满足用户多样化需求。
4）功能全面。最长支持20万字输入，支持文档/网页链接生成音频，可轻松创作有声书和播客。
5）高性价比。每天登录免费领4000积分（可制作5分钟音频），也支持API调用，便利企业和开发者。

一手体验

下面，我带大家来一手体验下MiniMax Audio的声音克隆功能。

这里，我们以周董为例。先去网上找了一些周董的采访片段，然后用剪辑软件把音频部分（音质一定要好，发音清晰，情绪丰富）单独导出来。

然后打开MiniMax Audio网站，在左侧导航栏选择Voices（音色库），然后点击Create your Voice Clone（创建你的克隆声音）。

点进来之后，按步骤上传音频、音色命名、选择语言以及同意服务协议。

音频素材可以上传语音，也可以直接录音。时长支持10~300秒，建议最好在30秒左右，人声情感越丰富越好。

然后，点击Convert（克隆），模型就开始克隆声音了。大概10秒左右，完成克隆。

最后，我们前往Text to-speech界面，输入文本，选择刚克隆的Jay音色，点击“Generate”一键生成。

NB，周董叮嘱各位的三连视频这就生成好了。

我们再复刻一下星爷的粤语音色，非常的地道，非常的流畅。

台词：喂！这个世界真的很搞笑啊，你当它是真的时候它就假，你当它是假的时候呢——啪！被雷劈中！我妈说过，人生就像一盒巧克力，但我打开晚了，全都化掉了！其实呢，我是个演员，虽然每天跑龙套也要吃饭啊。咦？你的发型很有个性哦，哪儿剪的？火星发廊还是木星烫发？

再看下志玲姐姐的效果。

这……可以说是神似了。

我觉得，这就是目前最强的中文TTS，没有之一。

过去，很多同类产品水土不服，中文错字离谱，口音奇怪，甚至还有股“大佐”味。

而MiniMax Audio，有着顶尖的准确度+地道的中文口音，完美地填补了中文TTS的空白，推动中文的表达话语权在世界崛起。

这让我想到了周董说的那句话：

写在最后

不仅如此。

这款TTS工具，同样也在海外大火，很多外网博主自发推荐。

比如，@Uc Gwen 就用MiniMax制作了一个多语言数字人视频，目前已经有3w播放量、1.8k点赞。

完整版视频在此。

就连MiniMax自己的推文，都有400w的浏览量。

不得不说，作为国产AI，MiniMax在海外是真的NB。

体验地址：https://www.minimax.io/audio

API入口：https://minimax.io/platform

进入2025年，MiniMax保持着强劲的姿态。先是1月，发布并开源了MiniMax-01语言模型；随后，带着全新的视频模型（T2V、I2V）而来；最近，又上新了自己的TTS音频模型。

从文本、视频到音频的全面更新，MiniMax一直在给我们惊喜。

这背后，既是他们对技术的长期投入，也是对AGI的锲而不舍。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-11

成功率提高7倍！新方法一句话就能让AI秒出分子设计+合成步骤

2025-04-11

多模态视觉理解大模型推理优化

2025-04-09

99%的人不知道Claude的一句话生成SVG图片功能

2025-04-08

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

阿里OmniTalker震撼发布！0.8B参数实现25FPS实时音视频生成，跨语言情感表达精准同步

2025-04-08

字节超快超强声音克隆 MegaTTS3, 声音克隆几乎一模一样, 可跨语言克隆.

2025-04-07

简单粗暴，4O终极魔法，这才是主体库的最终形态

2025-04-07

环境有限？没条件用一步到位的高端AI？AI内容深加工/平民AI高端玩法：AI生成各种图、视频、音频、文档、可视化图表、程序等等等

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT-4 和 GPT-4o的主要区别

2024-09-12

ChatGPT记忆功能全解析：实用场景与操作指南

2024-06-14

面壁小钢炮 MiniCPM-V 2.6 部署指南

2024-08-06

Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库

2024-06-17

Qwen2-VL 全链路模型体验、下载、推理、微调实战！

2024-08-30

智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

2024-05-30

周鸿祎发布纳米搜索，做世界第一的AI搜索

2024-11-28

一文了解：最新版本 Llama 3.2

2024-10-07

深度解析Swarm Agent ：OpenAI 开源的多智能体协作框架

2024-10-16

深入解析Llama 3：开发者如何充分利用这一开源大模型

2024-04-21

大家都在问

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

我为什么要卸载DeepSeek ？

2025-03-02

千问又放大招！720亿参数的视觉语言模型什么样？

2025-01-08

为什么生成式AI不擅长同时做两件事？

2024-12-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部