微信扫码
与创始人交个朋友
我要投稿
1. 实时语音到语音能力
2. 文本和音频同时生成
Mini - Omni 支持流式音频输出,这对于那些对实时性要求较高的交互应用场景来说是至关重要的。例如在实时语音通话、在线客服等场景中,模型能够实时地将生成的音频片段输出,减少用户等待时间,提供更加流畅和自然的交互体验。
它还具备高效的批量推理能力。通过“音频到文本”和“音频到音频”的批量推理方法,Mini - Omni 能够在短时间内处理大量的音频数据,进一步提升了模型的性能和响应速度。这种批量推理能力在处理大规模语音数据时具有明显的优势,可以有效地提高系统的整体效率。
Mini - Omni 模型基于 Qwen 2 - 0.5b 架构构建,Qwen 2 - 0.5b 是一种具有 24 个模块、内部维度为 896 的 Transformer 架构。在此基础上,模型结合了 Whisper - small 编码器来有效地处理语音输入。在输出侧,音频采用离散编码的方式,通过音频解码头和文本解码头同时进行文本和语音的解码。然后,将两者的表征进行特征融合作为下一步的输入。这种独特的架构设计使得模型能够高效地处理语音和文本信息,实现了多模态信息的无缝融合和交互。
1. “Any Model Can Talk”训练框架
其次是适应训练阶段,主要训练模型在给定音频输入时的文本推理能力。通过大量的音频数据和对应的文本数据进行训练,让模型能够快速准确地从音频中提取关键信息,并进行合理的文本推理。
最后是多模态微调阶段,在这个阶段使用全面的数据对整个模型进行微调。通过对模型的各个参数进行精细调整,使模型具备更加出色的语音交互能力,同时尽可能地保留原始模型的推理能力,确保模型在多模态交互场景下的性能和稳定性。
在训练过程中,模型使用了多个语音识别数据集来建立基础的语音能力。这些数据集涵盖了不同类型的语音样本和场景,为模型提供了丰富的训练素材。同时,还使用了其他相关数据集来保留文本准确性和进行多模态交互训练,确保模型在处理文本和多模态信息时的准确性和高效性。
作为首个开源的端到端实时语音多模态模型,Mini - Omni 为语音交互领域的研究和应用提供了新的可能性。
conda create -n omni python=3.10conda activate omnigit clone https://github.com/gpt-omni/mini-omni.gitcd mini-omnipip install -r requirements.txt
2. 启动服务器
sudo apt-get install ffmpegconda activate omnicd mini-omnipython3 server.py --ip '0.0.0.0' --port 60808
pip install PyAudio==0.2.14API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py
六、结语
综上所述,Mini - Omni 模型在语音多模态交互领域展现出了强大的实力和巨大的应用潜力。它的实时语音到语音能力、文本和音频同时生成能力、流式音频输出能力以及高效的批量推理能力等特点,使其在智能语音助手、智能客服、语音交互游戏等多个领域都有着广泛的应用前景。
同时,其独特的模型架构和训练方法也为语音多模态模型的研究和发展提供了新的思路和方法。随着技术的不断发展和完善,我们有理由相信 Mini - Omni 模型将在未来的语音多模态交互领域发挥更加重要的作用,为人们的生活和工作带来更多的便利和创新。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-09
Github揽获1.6K星!南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互
2025-01-08
千问又放大招!720亿参数的视觉语言模型什么样?
2025-01-07
2025 年10大AI 方向:高效推理、多模态等
2025-01-06
利用多模态RAG实现图文并茂的内容生成
2025-01-02
2025年开篇|AI Agent与多模态大模型:智能革命的新纪元
2024-12-31
多模态RAG技术:从语义抽取到VLM应用与规模化挑战
2024-12-26
戴上眼镜的Kimi能力超强,领先 o1 和 Gemini
2024-12-21
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
2024-09-12
2024-06-14
2024-05-30
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-21
2024-07-07