我要投稿

23.5k Star！OpenVoice：这款AI工具能够精准模仿你的声音并说出任何语言！

发布日期：2024-06-23 06:07:07 浏览次数： 2781 作者：AI进修生

从一小段音频中复制声音并生成多种语言的语音。它不仅支持精准的音色克隆，还可以灵活控制语音风格，如情感和口音，确保声音输出自然流畅。

体验地址：

https://app.myshell.ai/zh/web3/chat

准确的音色克隆

OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。

灵活的语音风格控制

OpenVoice 可以对语音风格（例如情感和口音）以及其他风格参数（包括节奏、停顿和语调）进行精细控制。在这里，我们演示了对生成声音的情感和口音的控制。

零样本跨语言语音克隆

参考语音和生成的语音可以是海量说话人多语言数据集之外的任何语言。在下面的例子中，我们使用“U”来表示未见过的语言。

如何使用

以下涉及到的链接无法跳转，请参考如下原教程文档链接

https://github.com/myshell-ai/OpenVoice/blob/main/docs/USAGE.md

Linux安装

本节仅供熟悉Linux、Python和PyTorch的开发人员和研究人员使用。克隆此存储库，并运行

conda create -n openvoice python=3.9
conda activate openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .

无论您使用V1还是V2，上述安装过程都是相同的。

OpenVoice V1

从这里下载检查点，并将其解压缩到checkpoints文件夹中。

1. 灵活的语音风格控制。 请参阅demo_part1.ipynb以了解OpenVoice如何实现对克隆声音的灵活风格控制的示例用法。

2. 跨语言语音克隆。 请参阅demo_part2.ipynb以了解在MSML训练集中看到或未看到的语言的示例。

3. Gradio演示。 我们在这里提供了一个简约的本地gradio演示。如果用户在使用gradio演示时遇到问题，我们强烈建议用户查看demo_part1.ipynb、demo_part2.ipynb和QnA。使用python -m openvoice_app --share启动本地gradio演示。

OpenVoice V2

从这里下载检查点，并将其解压缩到checkpoints_v2文件夹中。

安装MeloTTS：

pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic download

演示用法。 请参阅demo_part3.ipynb以了解OpenVoice V2的示例用法。现在它原生支持英语、西班牙语、法语、中文、日语和韩语。

更多配音相关

下面两个灰色的，一个是微软最新的神经网络配音网页资源，一个是实时配音：唯有入梦rvc。

获取：

链接：https://pan.baidu.com/s/16aG3_cZPVjvkkd-QWuKmOw?pwd=1234 提取码：1234

除此以外这个视频介绍了使用 GPT4语音api的教程：

https://www.bilibili.com/video/BV1P64y1E72W/

— 完 —

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-05-16

万字长文：OCR/多模态大模型评测体系全景

2025-05-16

ollama 大版本0.7 发布，新引擎支持多模态模型

2025-05-15

退订即梦、可灵、Vidu、Mj，只因我有了Lovart

2025-05-15

全球首款设计Agent，Lovart在海外大火，马斯克亲自点赞

2025-05-14

破解RL训练崩溃难题，快手联合中科院、清华、南大提出多模态奖励模型R1-Reward！

2025-05-14

深度体验 Lovart：这才是AI Design Agent！设计领域终于迎来了它们的「神」

2025-05-13

看见设计的未来：Lovart 全球首个设计 Agent 体验

2025-05-13

什么是基于知识图谱的多模态推理？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT-4 和 GPT-4o的主要区别

2024-09-12

ChatGPT记忆功能全解析：实用场景与操作指南

2024-06-14

Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库

2024-06-17

面壁小钢炮 MiniCPM-V 2.6 部署指南

2024-08-06

Qwen2-VL 全链路模型体验、下载、推理、微调实战！

2024-08-30

智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

2024-05-30

周鸿祎发布纳米搜索，做世界第一的AI搜索

2024-11-28

一文了解：最新版本 Llama 3.2

2024-10-07

深度解析Swarm Agent ：OpenAI 开源的多智能体协作框架

2024-10-16

深入解析Llama 3：开发者如何充分利用这一开源大模型

2024-04-21

大家都在问

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

我为什么要卸载DeepSeek ？

2025-03-02

千问又放大招！720亿参数的视觉语言模型什么样？

2025-01-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB