微信扫码
与创始人交个朋友
我要投稿
从一小段音频中复制声音并生成多种语言的语音。它不仅支持精准的音色克隆,还可以灵活控制语音风格,如情感和口音,确保声音输出自然流畅。
体验地址:
https://app.myshell.ai/zh/web3/chat
OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。
OpenVoice 可以对语音风格(例如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。在这里,我们演示了对生成声音的情感和口音的控制。
参考语音和生成的语音可以是海量说话人多语言数据集之外的任何语言。在下面的例子中,我们使用“U”来表示未见过的语言。
以下涉及到的链接无法跳转,请参考如下原教程文档链接
https://github.com/myshell-ai/OpenVoice/blob/main/docs/USAGE.md
本节仅供熟悉Linux、Python和PyTorch的开发人员和研究人员使用。克隆此存储库,并运行
conda create -n openvoice python=3.9
conda activate openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .
无论您使用V1还是V2,上述安装过程都是相同的。
从这里下载检查点,并将其解压缩到checkpoints
文件夹中。
1. 灵活的语音风格控制。 请参阅demo_part1.ipynb
以了解OpenVoice如何实现对克隆声音的灵活风格控制的示例用法。
2. 跨语言语音克隆。 请参阅demo_part2.ipynb
以了解在MSML训练集中看到或未看到的语言的示例。
3. Gradio演示。 我们在这里提供了一个简约的本地gradio演示。如果用户在使用gradio演示时遇到问题,我们强烈建议用户查看demo_part1.ipynb
、demo_part2.ipynb
和QnA。使用python -m openvoice_app --share
启动本地gradio演示。
从这里下载检查点,并将其解压缩到checkpoints_v2
文件夹中。
安装MeloTTS:
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic download
演示用法。 请参阅demo_part3.ipynb
以了解OpenVoice V2的示例用法。现在它原生支持英语、西班牙语、法语、中文、日语和韩语。
下面两个灰色的,一个是微软最新的神经网络配音网页资源,一个是实时配音:唯有入梦rvc。
获取:
链接:https://pan.baidu.com/s/16aG3_cZPVjvkkd-QWuKmOw?pwd=1234 提取码:1234
除此以外这个视频介绍了使用 GPT4语音api的教程:
https://www.bilibili.com/video/BV1P64y1E72W/
— 完 —
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-15
西湖大学&腾讯:一个多模态Web Agent的开源框架
2024-11-13
最复杂多智能体发布!百度推出“秒哒”和文心iRAG
2024-11-12
【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
2024-11-11
开摆!谷歌AI视频上线!脚本、素材、剪片全稿定!
2024-11-11
文档OCR版式识别,兼顾速度与精度,YOLO当首选
2024-11-10
硬核升级!在Ollama中使用Llama3.2视觉模型
2024-11-08
dify案例分享-基于多模态模型的发票识别2-多种发票识别
2024-11-07
星辰 AI 大模型:中国电信的 AI 大模型集合平台,支持多模态任务和多语种处理
2024-05-30
2024-09-12
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-06-14
2024-07-21
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02
2024-06-29