微信扫码
添加专属顾问
我要投稿
当前的大语言模型现在已经能够理解语言并进行推理,近日阿里正式发布 Qwen2-Audio,它能够接受音频和文本输入,并生成文本输出。
Qwen2-Audio 具有以下特点:
语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。
音频分析:该模型能够根据文本指令分析音频信息,包括语音、声音、音乐等。
多语言支持:该模型支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。
项目主页:https://qwenlm.github.io/blog/qwen2-audio/
论文地址:https://arxiv.org/pdf/2407.10759
Github地址:https://github.com/QwenLM/Qwen2-Audio
摘要
Qwen2-Audio是一个大规模音频语言模型,能够接受各种音频信号输入并进行语音指令的分析或直接文本回复。模型通过自然语言提示简化了预训练过程,并扩大了数据量。它具有两种不同的音频交互模式:语音聊天和音频分析。在评估中,Qwen2-Audio在音频中心指令遵循能力方面表现优于之前的SOTAs。
简介
大型音频语言模型(LALM)在实现人工通用智能(AGI)方面具有关键的作用。Qwen2-Audio旨在提高其指令遵循能力。该模型通过直接使用自然语言提示来简化预训练过程,并进行指令调整和直接偏好优化以与人类偏好对齐。该模型在训练数据集方面有显著的扩展。
Qwen2-Audio有两种模式:音频分析和语音聊天。在音频分析模式下,用户可以使用Qwen2-Audio分析各种类型的音频,包括语音、声音、音乐或混合音频。在语音聊天模式下,用户可以像与对话代理一样与Qwen2-Audio交互。Qwen2-Audio在多个任务上表现出色,包括Aishell2、FLUERS-zh、VocalSound和AIR-Bench聊天基准测试。
方法
预训练。在预训练阶段,我们用自然语言提示替换分层标签。我们发现使用语言提示可以提高泛化能力和跟随指令能力。
有监督微调。Qwen2-Audio的预训练使模型对音频内容有了全面的理解。在此基础上,我们采用基于指令的微调技术来提高模型与人类意图保持一致的能力,从而产生交互式聊天模型。我们收集了一套精心整理的高质量SFT数据,并实施了严格的质量控制程序。
实验
以AIR-Bench为主要评估标准,因为之前的测试数据集有限,不能反映真实场景下的表现。对Qwen2-Audio进行全面评估,包括ASR、S2TT、SER、VSC等多个任务,共涉及13个数据集。评估数据集与训练数据集严格分离,避免数据泄漏。比较的模型包括开源模型和可调用API,如Gemini。
结果
本文评估了Qwen2-Audio模型在多个任务上的表现,包括英语自动语音识别、语音翻译、声音情感识别和语音聊天。在英语ASR任务中,Qwen2-Audio表现优异,比以前的多任务学习模型表现更好。在语音翻译任务中,Qwen2-Audio在所有七个翻译方向上都优于基线。在声音情感识别和语音聊天任务中,Qwen2-Audio始终表现出显著的优势。在语音聊天任务中,Qwen2-Audio表现出最先进的指令跟随能力。
案例
总结
Qwen2-Audio在Qwen-Audio的基础上增加了语音交互能力,并通过自然语言提示和增加数据量来进行预训练。在SFT阶段,通过增加SFT数据的数量、质量和复杂性,提高了与人类交互的能力。在DPO阶段,进一步提高了响应质量。经过多个基准测试,Qwen2-Audio在音频理解和对话能力方面表现出色。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-21
独家|百度上线“心响”App,平替版Mauns来了?
2025-04-21
Deep Research 类产品深度测评:下一个大模型产品跃迁点到来了吗?
2025-04-21
Anthropic 官方发布Claude Code 最佳实践
2025-04-21
从“大模型热”到“Agent 潮”,“真风口”还是“伪命题”?
2025-04-21
复盘字节扣子空间开发历程:瞄准工作场景,做一个 Agent 系统
2025-04-21
OpenAI 发布企业 AI 集成技术手册:从评估到自动化
2025-04-21
我所理解的大模型:语言的幻术
2025-04-21
字节 Trae 支持 MCP 了
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-21
2025-04-21
2025-04-21
2025-04-20
2025-04-18
2025-04-16
2025-04-13
2025-04-13