微信扫码
添加专属顾问
我要投稿
阿里发布超强语音处理模型FunAudioLLM,语音方向卷起来了,成熟度非常高,FunAudioLLM是一个旨在增强人与大语言模型 (LLMs) 之间自然语音交互的框架。其核心包括两个创新模型:SenseVoice和CosyVoice
SenseVoice专注于高精度的多语言语音识别、情感识别和音频事件检测,具备极低的延迟,支持超过50种语言
SenseVoice 是一种语音基础模型,具有多种语音理解功能,包括 ASR、LID、SER 和 AED。SenseVoice-Small 是一种仅编码器的语音基础模型,用于快速语音理解;SenseVoice-Large 是一种编码器-解码器语音基础模型,用于更准确的语音理解,支持更多的语言
CosyVoice则擅长自然语音生成,具备多语言、音色和情感控制能力,能够实现多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟随功能
CosyVoice 包含一个自回归变换器,用于为输入文本生成相应的语音标记;一个基于 ODE 的扩散模型(流匹配),用于从生成的语音标记重建梅尔频谱;以及一个基于 HiFTNet 的声码器,用于合成波形。 虚线内的模块在特定的模型使用中是可选的,如跨语言、SFT 推断等
相关的SenseVoice和CosyVoice模型已在Modelscope和Huggingface上开源,其训练、推理和微调代码也已在GitHub上发布。通过将这些模型与LLMs结合,FunAudioLLM推动了语音交互技术的前沿,应用场景包括语音翻译、情感语音聊天、互动播客和富有表现力的有声读物叙述
实际表现
S2ST:语音到语音翻译
通过整合 SenseVoice、LLMs 和 CosyVoice,可以毫不费力地实现语音到语音的翻译 (Speech-to-Speech Translation),下面的例子是中文到英文,日语,韩语
情感语音聊天
通过整合 SenseVoice、LLMs 和 CosyVoice,开发一款情感语音聊天应用。在下面的例子中,用户和助理的内容都是由 CosyVoice 合成的
交互式播客
通过整合 SenseVoice(一个基于 LLM 的多代理系统,具有实时世界知识)和 CosyVoice,可以创建一个实时交互式播客
富有表现力的有声读物
通过 LLM 的分析能力来构建和识别书籍中的情感,并将其与 CosyVoice 相结合,可以实现具有更强表现力的有声读物
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-10
1次搭建完胜1亿次编码,MCP硅谷疯传!Anthropic协议解锁智能体「万能手」
2025-03-10
AI代理技术发展趋势与挑战
2025-03-10
有关智能体/Agent,和上下文协议/MCP的一些概念,以及为什么它重要
2025-03-10
通俗讲解DeepSeek中的GRPO:强化学习里的神奇算法
2025-03-10
AI智能体新秀 Manus失手泄底牌:Claude Sonnet沙盒代码大曝光!
2025-03-10
告别Agentic工作流?推理模型+行动链学习=Agent模型
2025-03-10
MCP (Model Context Protocol),一篇就够了。
2025-03-10
大模型时代,为什么模型都是多少B?
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-10
2025-03-10
2025-03-08
2025-03-08
2025-03-07
2025-03-07
2025-03-05
2025-03-05