微信扫码
与创始人交个朋友
我要投稿
开源的语音识别模型总结:
Whisper:
特点:Whisper 是由 OpenAI 开发的通用语音识别模型(ASR),具有高达 95% 的准确率,能够执行多语言语音识别、语音翻译和语言识别。它在大量多样化的音频数据集上进行训练,具有惊人的准确性 。
使用:Whisper 已经被 OpenAI 开源,可以在 Google Colab 中运行,也可以在本地使用 x86 架构的计算机运行。对于 Windows 用户,可以下载编译好的 WhisperDesktop.zip 图形界面版使用 。
开源链接:https://github.com/openai/whisper.git
SenseVoice:
特点:SenseVoice 是阿里云通义千问开源的语音基座模型,专注于高精度多语言语音识别、情感辨识和音频事件检测。它支持超过 50 种语言,识别效果优于 Whisper 模型,推理延迟极低 。
使用:SenseVoice 提供了便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。支持多并发请求,支持的客户端语言有 Python、C++、HTML、Java 与 C# 等 。
开源链接:https://github.com/FunAudioLLM/SenseVoice
Vosk:
特点:Vosk 是最紧凑、最轻量级的语音转文本引擎之一,可以在多种设备上离线运行,包括 Android、iOS 和 Raspberry Pi。它支持 20 多种语言或方言,包括英语、中文、葡萄牙语、波兰语、德语等 。
使用:Vosk 提供了小型语言模型,不占用太多空间,响应速度快,可以连续将语音转换为文本 。
开源链接:https://alphacephei.com/vosk/index.zh
Athena:
特点:Athena 是一个基于序列到序列的语音转文本开源引擎,适合研究人员和开发人员的端到端语音处理需求。模型可以处理自动语音识别(ASR)、语音合成、语音检测和关键字定位等任务 。
使用:Athena 所有语言模型都基于 TensorFlow 实现,不依赖于 Kaldi,有自己的 Python 特征提取器 。
开源链接:https://github.com/athena-team/athena
ESPnet:
特点:ESPnet 是一个基于 Apache 2.0 许可证发布的开源语音转文本软件,提供端到端语音处理功能,涵盖 ASR、翻译、语音合成、增强和日志化等任务。它采用 Pytorch 作为其深度学习框架,并遵循 Kaldi 数据处理风格 。
使用:ESPnet 支持多语言,可以将其与现成的预训练模型一起使用,或根据需求创建自己的模型 。
开源链接:https://gitee.com/nanbowang/masr
Tensorflow ASR:
特点:Tensorflow ASR 是一个使用 TensorFlow 2.0 作为深度学习框架来实现各种语音处理的语音转文本开源引擎。它支持使用特定的模型,如 Conformer、ContextNet、DeepSpeech2 和 Jasper 。
使用:Tensorflow ASR 在处理语音转文本时,语言模型具备较高准确性和效率。可以将模型转换为 TFlite 格式,使其轻量且易于部署 。
开源链接:https://github.com/TensorSpeech/TensorFlowASR
MASR:
特点:MASR 是一个中文语音识别项目,使用门控卷积神经网络(Gated Convolutional Network),网络结构类似于 Facebook 在 2016 年提出的 Wav2letter。MASR 提供的预训练模型的识别效果是个人开源项目中最好的 。
使用:MASR 使用起来相对容易,适合个人项目和研究使用 。
开源链接:https://github.com/espnet/espnet
除此之外,例如paddlepaddle,paraformer以及modelscope平台上的一些直接可用的语音识别模型都可以使用。
综合使用体验来看,各有优缺点,具体要根据每个人的需求来判断,我自己最常使用的是senseVoice 和Whisper的结合。SenseVoce有时无法识别,就利用Whisper 做修正。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-22
花60元,DIY了一个AI机器人,能聊天,会认人……
2024-12-21
基于AI智能助理的软件开源组件安全检查
2024-12-21
Llama2024年度要点总结
2024-12-21
重磅! Github Copilot 免费了
2024-12-20
万字长文帮你搞定AI Agent选型
2024-12-20
微软开源的 Markitdown 可将任意文件转换为 Markdown 格式,PDF 解析咋样?
2024-12-20
Claude的MCP(模型上下文协议)简介
2024-12-20
历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物
2024-05-06
2024-07-25
2024-08-13
2024-06-12
2024-07-11
2024-06-16
2024-07-20
2024-09-20
2024-06-15
2024-07-25
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13
2024-11-13
2024-10-07
2024-09-22