AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


开源的语音识别模型总结
发布日期:2024-08-26 18:17:23 浏览次数: 3389 来源:技术视野


开源的语音识别模型总结:

  1. Whisper

  • 特点:Whisper 是由 OpenAI 开发的通用语音识别模型(ASR),具有高达 95% 的准确率,能够执行多语言语音识别、语音翻译和语言识别。它在大量多样化的音频数据集上进行训练,具有惊人的准确性 。

  • 使用:Whisper 已经被 OpenAI 开源,可以在 Google Colab 中运行,也可以在本地使用 x86 架构的计算机运行。对于 Windows 用户,可以下载编译好的 WhisperDesktop.zip 图形界面版使用 。

  • 开源链接https://github.com/openai/whisper.git

  • SenseVoice

    • 特点:SenseVoice 是阿里云通义千问开源的语音基座模型,专注于高精度多语言语音识别、情感辨识和音频事件检测。它支持超过 50 种语言,识别效果优于 Whisper 模型,推理延迟极低 。

    • 使用:SenseVoice 提供了便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。支持多并发请求,支持的客户端语言有 Python、C++、HTML、Java 与 C# 等 。

    • 阿里巴巴通义实验室开源FunAudioLLM,革新人机语音交互


    • 开源链接https://github.com/FunAudioLLM/SenseVoice

  • Vosk

    • 特点:Vosk 是最紧凑、最轻量级的语音转文本引擎之一,可以在多种设备上离线运行,包括 Android、iOS 和 Raspberry Pi。它支持 20 多种语言或方言,包括英语、中文、葡萄牙语、波兰语、德语等 。

    • 使用:Vosk 提供了小型语言模型,不占用太多空间,响应速度快,可以连续将语音转换为文本 。

    • 开源链接https://alphacephei.com/vosk/index.zh

  • Athena

    • 特点:Athena 是一个基于序列到序列的语音转文本开源引擎,适合研究人员和开发人员的端到端语音处理需求。模型可以处理自动语音识别(ASR)、语音合成、语音检测和关键字定位等任务 。

    • 使用:Athena 所有语言模型都基于 TensorFlow 实现,不依赖于 Kaldi,有自己的 Python 特征提取器 。

    • 开源链接https://github.com/athena-team/athena

  • ESPnet

    • 特点:ESPnet 是一个基于 Apache 2.0 许可证发布的开源语音转文本软件,提供端到端语音处理功能,涵盖 ASR、翻译、语音合成、增强和日志化等任务。它采用 Pytorch 作为其深度学习框架,并遵循 Kaldi 数据处理风格 。

    • 使用:ESPnet 支持多语言,可以将其与现成的预训练模型一起使用,或根据需求创建自己的模型 。

    • 开源链接https://gitee.com/nanbowang/masr

  • Tensorflow ASR

    • 特点:Tensorflow ASR 是一个使用 TensorFlow 2.0 作为深度学习框架来实现各种语音处理的语音转文本开源引擎。它支持使用特定的模型,如 Conformer、ContextNet、DeepSpeech2 和 Jasper 。

    • 使用:Tensorflow ASR 在处理语音转文本时,语言模型具备较高准确性和效率。可以将模型转换为 TFlite 格式,使其轻量且易于部署 。

    • 开源链接https://github.com/TensorSpeech/TensorFlowASR

  • MASR

    • 特点:MASR 是一个中文语音识别项目,使用门控卷积神经网络(Gated Convolutional Network),网络结构类似于 Facebook 在 2016 年提出的 Wav2letter。MASR 提供的预训练模型的识别效果是个人开源项目中最好的 。

    • 使用:MASR 使用起来相对容易,适合个人项目和研究使用 。

    • 开源链接https://github.com/espnet/espnet

  • 除此之外,例如paddlepaddle,paraformer以及modelscope平台上的一些直接可用的语音识别模型都可以使用。

  • 综合使用体验来看,各有优缺点,具体要根据每个人的需求来判断,我自己最常使用的是senseVoice 和Whisper的结合。SenseVoce有时无法识别,就利用Whisper 做修正。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询