微信扫码
与创始人交个朋友
我要投稿
语音合成(Text-to-Speech, TTS) 是指将输入文字合成为对应语音信号的功能,输出音频文件,最终由相关设备朗读出来。
SamBERT是达摩院语音实验室设计的一种基于Parallel结构的改良版TTS模型,它具有以下优点:
其架构图如下:对于SamBERT更详细的技术介绍,可参考:文档[1]。本篇主要讲解模型实际的试用,对于技术原理给出的魔塔文档链接已经比较详细的介绍了。
在魔塔社区[2]上,提供了SamBERT的创空间和模型库:这些创空间与模型库的文档非常详细,按照文档直接试用即可,每个魔塔新用户都有免费GPU服务器试用名额,可以玩转一下这些模型。
我选择的场景是个人声音定制,选择创空间,然后录制声音,开始训练:开始体验:合成后,播放录音,效果不错,还是可以的。当然对于长上下文、方言等场景支持有一定的限制。
模型库:SambertHifigan个性化语音合成-中文-预训练-24k[3] 支持私有化部署,对于一些简单业务场景或是个人试玩,可以在服务器上搭建。该模型库介绍很详细,直接按流程就可以部署与微调。
对于一些业务场景,如果要求不是很高,不是很复杂;我个人是强烈建议在ModelScope上找找开源模型,然后私有化部署。之前我个人还遇到一些场景也是在ModelScope找模型部署搭建使用。现在机器学习/深度学习/神经网络等人工智能算法应用将会越来越普及,我们也可以考虑将其纳入业务场景应用中,而不是只考虑业务场景的CRUD;闲余时间还可以阅读分析下原理。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19