微信扫码
添加专属顾问
我要投稿
Kimi-Audio,AI语音理解的革命性突破,让机器真正听懂人类语言。 核心内容: 1. Kimi-Audio模型的核心突破:全流程端到端实时语音对话系统 2. 音频理解、多模态交互、语音合成三大核心功能 3. 架构创新:基于LLM的新型音频处理架构
继Kimi智能助手爆红后,又在语音交互领域投下重磅炸弹Kimi-Audio模型。
这篇论文不仅刷新了行业对 AI 语音理解的认知,更可能彻底改变我们与机器对话的方式。
当外界还在热议月之暗面的仲裁风波时,杨植麟和团队已用技术突破证明:真正的 AI 革命,正在无声处惊雷。
让机器不仅 “听到” 声音,更能 “听懂” 语言背后的情感、意图和语境。
Kimi-Audio 的核心突破,在于构建了一个全流程端到端的实时语音对话系统。
用户说话时,音频数据通过 WebRTC 协议实时传输至服务器,经语音活动检测模块判断结束后,Kimi-Audio 会同步完成三大动作:
音频理解:将连续语音转化为离散语义tokens,同时提取声学特征向量;
多模态交互:结合系统提示、对话历史和文本指令,生成连贯的回复tokens;
语音合成:通过反分词器将tokens转换为自然流畅的语音波形。
这一流程将传统语音交互的延迟压缩至毫秒级,实现了 “你刚说完,AI 已回应” 的丝滑体验。
【论文链接】https://arxiv.org/pdf/2504.18425v1
源码见文末
摘要
背景
贡献
架构创新:设计了由音频分词器、音频 LLM 和音频反分词器组成的架构。使用离散语义音频tokens作为音频 LLM 输入和输出的基本表示,同时在输入中结合连续声学向量增强感知能力,在输出中结合离散文本tokens增强生成能力,并将音频的每秒tokens数降低至 12.5Hz,缩小了文本和音频序列之间的差距。
数据处理:收集和处理大规模音频预训练数据,开发了包含语音增强、说话人分割、转录、过滤等步骤的数据处理管道以提高数据质量。同时,整理了大量特定任务数据用于监督微调,且展示了一种利用开放数据源和工具构建高质量微调数据的经济方法。
训练优化:从预训练的LLM初始化音频LLM,并设计一系列预训练任务,包括单模态预训练、音频-文本映射预训练和音频-文本交织预训练,以学习音频数据并弥合文本和音频之间的差距。在监督微调阶段,开发了提高微调效率和任务泛化能力的训练方法。此外,开源了 Kimi-Audio 的代码、检查点以及评估工具包,推动社区发展。
技术架构
模型架构概述:Kimi-Audio 由三个主要组件构成。
音频分词器将输入音频转换为 12.5Hz 帧率的离散语义tokens,并提取连续声学向量。
音频 LLM 通过共享变压器层处理多模态输入,然后分支为文本头和音频头,分别预测文本tokens和音频语义tokens。
音频反分词器利用流匹配方法将音频LLM预测的离散语义tokens转换回连贯的音频波形。
音频分词器:采用混合音频分词策略,结合离散语义tokens和连续声学向量。
离散语义tokens来自 GLM-4-Voice,通过在Whisper编码器架构中引入向量量化层,将连续语音表示转换为低帧率离散tokens。
连续特征由预训练的 Whisper 模型提取,经适配器下采样后与离散语义tokens嵌入相加作为音频 LLM 的输入。
音频 LLM:核心是音频 LLM,为实现同时生成音频语义tokens和文本响应的功能,对标准 LLM 架构进行调整
部分底层变压器层作为共享层处理输入序列并学习跨模态表示,在此基础上分为文本头和音频头,分别负责预测文本tokens和音频语义tokens。
共享层和文本头参数从预训练文本 LLM 初始化,音频头随机初始化。
音频反分词器:采用与 MoonCast 相同的反分词器架构,包含将12.5Hz语义tokens转换为 50Hz 梅尔频谱图的流匹配模块和从梅尔频谱图生成波形的声码器。
为降低语音生成延迟,设计了分块流式反分词器,采用分块自回归流式框架和前瞻机制,解决分块边界处的音频生成问题。
训练
5.1预训练
任务构建:设计多类预训练任务,帮助模型学习音频和文本知识并对齐,为复杂任务奠基。
包括单模态预训练,分别用MoonLight文本数据和音频离散语义tokens序列训练文本和音频模型。
音频文本映射预训练,通过ASR和TTS任务学习模态间映射。
音频文本交织预训练,设计三个任务缩小模态差距,对部分任务中预测困难的语义tokens,添加6个特殊空白tokens解决问题。
训练策略:用预训练的Qwen2.57B模型初始化音频LLM并扩展词汇表,按1:7:1:1:1:1:2的权重训练各任务1轮,使用585B音频和文本tokens。
采用AdamW优化器,1%的tokens用于热身。
音频分词器中连续声学特征提取模块由Whisperlargev3初始化,前期冻结,后期联合微调。
5.2监督微调
指令设计:考虑下游任务多样,以自然语言作指令,构建音频和文本版本指令,训练时随机选。
通过LLM为ASR任务生成200条指令,为其他任务生成30条,增强模型遵循指令的鲁棒性,基于约300K小时数据微调。
微调策略:综合消融实验确定在各数据源上微调24轮,使用AdamW优化器,10%的tokens用于热身。
5.3音频反分词器训练
分三步训练音频反分词器。先用约100万小时预训练音频数据预训练流匹配模型和声码器,学习音频特征。
接着在相同数据上采用动态分块(0.53秒)微调。
最后用KimiAudio说话人的高质量单说话人录音数据进行微调。
实验结果
实时语音对话流程:以实时语音到语音对话为例,用户在客户端(如KimiAPP或网页浏览器)说话,音频数据被收集并流式传输到服务器。
服务器上的语音活动检测模块判断用户是否结束说话,一旦用户停止说话,服务器发送提交信号并启动Kimi-Audio模型的推理过程。
在推理过程中,客户端实时接收生成的音频块并播放给用户。
服务器端的推理步骤为:首先,输入音频通过音频分词器转换为离散语义tokens和连续声学向量。
然后,将系统提示tokens、音频tokens和对话历史tokens连接起来作为音频LLM的输入。
接着,音频LLM生成输出tokens;最后,输出tokens通过反分词器转换回音频波形。
生产部署:为应对Kimi-Audio核心组件计算密集的问题,设计了如下生产部署架构:
Kimi-Audio RTC Service:该服务负责与客户端交互,接收用户音频并转发给推理调度器,同时将生成的音频块返回给客户端,使用WebRTC协议确保连接稳定且低延迟。
推理调度器:管理对话流程,将对话历史以tokens形式存储在存储后端。在每轮交互中,它调用分词器服务将用户音频转换为tokens,构建模型输入并发送给LLM服务生成响应tokens,再调用反分词器服务将响应tokens转换为音频输出,同时存储输出tokens以保证对话连续性。
Tokenizer/Detokenizer/LLMServices:这些服务负责模型推理,配备负载均衡器和多个推理实例,以并行处理请求,确保系统的可扩展性。
实验结果
结论
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-28
Spring-ai-Alibaba整合QwQ_32b
2025-04-28
程序员狂喜!DevDocs:开源AI文档神器,自动抓取+整理+喂给AI (MCP加持)
2025-04-28
DeepWiki深度探索:驾驭代码复杂性的AI百科全书
2025-04-28
Agent S2:像人一样操作 GUI,开源 AI 智能体新突破
2025-04-27
一文了解Text Embedding模型:从text2vec、openai-text embedding到m3e、bge(下)
2025-04-27
精选MCP服务器列表
2025-04-27
Google ADK框架:打造多智能体系统的开源利器
2025-04-27
DeepWiki 比较适合用来生成开发者手册,而不是用户手册
2024-07-25
2025-01-01
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-07-11
2024-06-12
2024-08-13
2024-12-26
2025-04-28
2025-04-21
2025-04-19
2025-04-17
2025-04-15
2025-04-13
2025-04-10
2025-04-07