我要投稿

微软AI语音技术：因功能太强，不敢公开！

发布日期：2024-08-08 21:17:16 浏览次数： 2120 作者：SDI数字创新

微软的一个研究团队推出了 VALL-E 2，这是一款显著改进的语音合成人工智能系统。然而，他们认为世界尚未准备好迎接它的发布。

研究团队表示，这是首个能够达到人类水平的语音生成系统，即使是对只有一小段语音样本的陌生人，该系统也能生成语音。该系统能够可靠地生成复杂的句子或重复次数较多的句子。

市面上有售的软件，比如ElevenLabs，可以克隆声音，但需要更冗长的参考资料。VALL-E 2 只需几秒钟就能完成。

VALL-E 2以 2023 年初推出的前身 VALL-E 为基础，使用神经编解码器语言模型来生成语音。这些模型学习将语音表示为一系列代码，类似于数字音频压缩。两项关键改进使这一突破成为可能。

VALL-E 2 提供两项核心创新

首先，VALL-E 2 在解码过程中采用了一种新颖的“重复感知采样”方法，将学习到的代码转换为可听见的语音。代码的选择会动态地适应它们在先前输出序列中的重复性。

第一代 VALL-E 的处理管道就是这样的......| 图片：微软

第二代 VALL-E 的处理管道 | 图片：微软

VALL-E 2 不会像 VALL-E 那样从可能的代码中随机选择，而是智能地在两种采样方法之间切换：“核采样”仅考虑最可能的代码，而随机采样则平等对待所有可能性。这种自适应切换大大提高了解码过程的稳定性，并避免了无限循环等问题。

第二个核心创新是按组而不是单独对编解码器代码进行建模。VALL-E 2 将多个连续代码组合在一起，并将它们作为一种“框架”一起处理。这种代码分组缩短了语言模型的输入序列，从而加快了处理速度。同时，这种方法还通过简化非常长的上下文的处理来提高生成语音的质量。

在 LibriSpeech 和 VCTK 数据集上的实验中，VALL-E 2 在生成语音的稳健性、自然性和相似性方面明显优于人类。只需 3 秒的目标说话者录音就足够了。使用更长的 10 秒语音样本，系统获得了更好的听觉效果。微软已在官网上发布了所有示例。

研究人员强调，训练VALL-E 2只需要成对的语音记录及其转录本，而不需要时间码。

由于滥用风险高，不予发布

据研究人员称，VALL-E 2 可用于教育、娱乐、无障碍或翻译等许多领域。然而，他们也指出了明显的滥用风险，例如在未经说话者同意的情况下模仿声音。因此，它目前仍是一个纯粹的研究项目，微软没有计划将 VALL-E 2 集成到产品中或扩大对公众的访问。

他们认为，首先应该制定一个协议，以确保被听取的人同意合成，以及一种对此类内容进行数字标记的方法。这项提议大概是受到人工智能图像模型行业发展的启发，该行业正在引入C2PA 等水印。然而，它们并没有解决可靠地识别人工智能生成内容的现有问题。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-22

谷歌 Gemini 2.5 Pro 成首款能理解 PDF 布局的 AI 模型了

2025-04-22

Ray 在微信 AI 计算中的大规模实践

2025-04-22

字节扣子空间首秀：AI Agent 真正落地，不再只是一个“聊天机器人”

2025-04-22

阿里、蚂蚁、腾讯纷纷推出 AI 组件库，React / Vue 全覆盖，AI 组件库超全汇总来啦！

2025-04-22

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

我对2025年AI发展的几点预测

2025-04-21

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

从“大模型热”到“Agent 潮”，“真风口”还是“伪命题”？

2025-04-21

OpenAI 官方定义：到底什么是 AI Agent？

2025-04-20

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

LLM中的Token和Embedding到底是啥？

2025-04-16

探秘 LLM Agents：ReAct 框架藏着哪些惊喜？

2025-04-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB