大型音频语言模型(LALM)在实现人工通用智能(AGI)方面具有关键的作用。Qwen2-Audio旨在提高其指令遵循能力。该模型通过直接使用自然语言提示来简化预训练过程,并进行指令调整和直接偏好优化以与人类偏好对齐。该模型在训练数据集方面有显著的扩展。
Qwen2-Audio有两种模式:音频分析和语音聊天。在音频分析模式下,用户可以使用Qwen2-Audio分析各种类型的音频,包括语音、声音、音乐或混合音频。在语音聊天模式下,用户可以像与对话代理一样与Qwen2-Audio交互。Qwen2-Audio在多个任务上表现出色,包括Aishell2、FLUERS-zh、VocalSound和AIR-Bench聊天基准测试。
模型架构。Qwen2-Audio包含一个音频编码器和一个大型语言模型。给定配对数据(a,x),其中a和x表示音频序列和文本序列,训练目标是最大化下一个文本标记的概率
Qwen2-Audio的音频编码器初始化基于Whisperlarge-v3模型。为了预处理音频数据,我们将其重新采样到16kHz的频率,并使用25ms的窗口大小和10ms的跳长将原始波形转换为128通道梅尔谱图。此外,合并了一个步幅为2的池化层,以减少音频表示的长度。因此,编码器输出的每一帧大约对应于原始音频信号的40ms段。Qwen2-Audio仍然将大型语言模型Qwen-7B作为其基础组件。Qwen2-Audio的总参数为8.2亿个参数。预训练。在预训练阶段,我们用自然语言提示替换分层标签。我们发现使用语言提示可以提高泛化能力和跟随指令能力。

有监督微调。Qwen2-Audio的预训练使模型对音频内容有了全面的理解。在此基础上,我们采用基于指令的微调技术来提高模型与人类意图保持一致的能力,从而产生交互式聊天模型。我们收集了一套精心整理的高质量SFT数据,并实施了严格的质量控制程序。
为了一致性和模型的统一性,两种交互模式是联合训练的,用户在使用过程中不会出现模式差异,也不需要使用单独的系统提示在不同模式之间切换。两种模式在实际使用中无缝结合。直接偏好优化。我们使用DPO (Direct Preference Optimization)进一步优化模型以遵循人类偏好。
以AIR-Bench为主要评估标准,因为之前的测试数据集有限,不能反映真实场景下的表现。对Qwen2-Audio进行全面评估,包括ASR、S2TT、SER、VSC等多个任务,共涉及13个数据集。评估数据集与训练数据集严格分离,避免数据泄漏。比较的模型包括开源模型和可调用API,如Gemini。

结果
本文评估了Qwen2-Audio模型在多个任务上的表现,包括英语自动语音识别、语音翻译、声音情感识别和语音聊天。在英语ASR任务中,Qwen2-Audio表现优异,比以前的多任务学习模型表现更好。在语音翻译任务中,Qwen2-Audio在所有七个翻译方向上都优于基线。在声音情感识别和语音聊天任务中,Qwen2-Audio始终表现出显著的优势。在语音聊天任务中,Qwen2-Audio表现出最先进的指令跟随能力。

Qwen2-Audio展示了其基于音频的交互能力,更多示例请参考GitHub链接:https://github.com/QwenLM/Qwen2-Audio。

总结
Qwen2-Audio在Qwen-Audio的基础上增加了语音交互能力,并通过自然语言提示和增加数据量来进行预训练。在SFT阶段,通过增加SFT数据的数量、质量和复杂性,提高了与人类交互的能力。在DPO阶段,进一步提高了响应质量。经过多个基准测试,Qwen2-Audio在音频理解和对话能力方面表现出色。