杨植麟再掀 AI 风暴！Kimi-Audio 如何让机器听懂人类 “弦外之音”？

显示全部楼层

继Kimi智能助手爆红后，又在语音交互领域投下重磅炸弹Kimi-Audio模型。

这篇论文不仅刷新了行业对 AI 语音理解的认知，更可能彻底改变我们与机器对话的方式。

当外界还在热议月之暗面的仲裁风波时，杨植麟和团队已用技术突破证明：真正的 AI 革命，正在无声处惊雷。

让机器不仅 “听到” 声音，更能 “听懂” 语言背后的情感、意图和语境。

Kimi-Audio 的核心突破，在于构建了一个全流程端到端的实时语音对话系统。

用户说话时，音频数据通过 WebRTC 协议实时传输至服务器，经语音活动检测模块判断结束后，Kimi-Audio 会同步完成三大动作：

音频理解：将连续语音转化为离散语义tokens，同时提取声学特征向量；

多模态交互：结合系统提示、对话历史和文本指令，生成连贯的回复tokens；

语音合成：通过反分词器将tokens转换为自然流畅的语音波形。

这一流程将传统语音交互的延迟压缩至毫秒级，实现了 “你刚说完，AI 已回应” 的丝滑体验。

【论文链接】https://arxiv.org/pdf/2504.18425v1

源码见文末

1

摘要

本文提出Kimi-Audio，这是一个在音频理解、生成和对话方面表现出色的开源音频基础模型。

详细阐述了构建Kimi-Audio的实践过程，包括模型架构、数据整理、训练方法、推理部署和评估。

具体而言，利用12.5Hz的音频分词器，设计了一种基于LLM的新型架构，该架构以连续特征为输入，离散tokens为输出，并开发了一种基于流匹配的分块流式反分词器。

本文整理了一个预训练数据集，其中包含超过1300万小时的音频数据，涵盖了语音、声音和音乐等多种模态，并构建了一个管道来构建高质量、多样化的训练后数据。

Kimi-Audio 从预训练的LLM初始化，在音频和文本数据上通过几个精心设计的任务进行持续预训练，然后进行微调以支持各种音频相关任务。

广泛的评估表明，Kimi-Audio在一系列音频基准测试中取得了最先进的性能，包括语音识别、音频理解、音频问答和语音对话。

2

背景

音频在人类日常生活中起着不可或缺的作用，是人工智能领域的重要研究课题。

传统音频建模受人工智能发展的限制，通常分别处理每个音频任务。

然而，音频具有序列性，且语音与文本存在严格对应关系，使得利用大语言模型在音频建模中取得进展成为可能。

虽然已有先驱性工作将语言模型应用于音频处理的多个任务，但此前的研究在构建通用音频基础模型方面存在不足，例如专注于特定类型任务、对音频预训练重视不足、不提供源代码和检查点等。

因此，本文旨在构建一个开源的、能够处理多种音频处理任务的通用音频基础模型 Kimi-Audio。

3

贡献

架构创新：设计了由音频分词器、音频 LLM 和音频反分词器组成的架构。使用离散语义音频tokens作为音频 LLM 输入和输出的基本表示，同时在输入中结合连续声学向量增强感知能力，在输出中结合离散文本tokens增强生成能力，并将音频的每秒tokens数降低至 12.5Hz，缩小了文本和音频序列之间的差距。

数据处理：收集和处理大规模音频预训练数据，开发了包含语音增强、说话人分割、转录、过滤等步骤的数据处理管道以提高数据质量。同时，整理了大量特定任务数据用于监督微调，且展示了一种利用开放数据源和工具构建高质量微调数据的经济方法。

训练优化：从预训练的LLM初始化音频LLM，并设计一系列预训练任务，包括单模态预训练、音频-文本映射预训练和音频-文本交织预训练，以学习音频数据并弥合文本和音频之间的差距。在监督微调阶段，开发了提高微调效率和任务泛化能力的训练方法。此外，开源了 Kimi-Audio 的代码、检查点以及评估工具包，推动社区发展。

4

技术架构

模型架构概述：Kimi-Audio 由三个主要组件构成。

音频分词器将输入音频转换为 12.5Hz 帧率的离散语义tokens，并提取连续声学向量。

音频 LLM 通过共享变压器层处理多模态输入，然后分支为文本头和音频头，分别预测文本tokens和音频语义tokens。

音频反分词器利用流匹配方法将音频LLM预测的离散语义tokens转换回连贯的音频波形。

音频分词器：采用混合音频分词策略，结合离散语义tokens和连续声学向量。

离散语义tokens来自 GLM-4-Voice，通过在Whisper编码器架构中引入向量量化层，将连续语音表示转换为低帧率离散tokens。

连续特征由预训练的 Whisper 模型提取，经适配器下采样后与离散语义tokens嵌入相加作为音频 LLM 的输入。

音频 LLM：核心是音频 LLM，为实现同时生成音频语义tokens和文本响应的功能，对标准 LLM 架构进行调整

部分底层变压器层作为共享层处理输入序列并学习跨模态表示，在此基础上分为文本头和音频头，分别负责预测文本tokens和音频语义tokens。

共享层和文本头参数从预训练文本 LLM 初始化，音频头随机初始化。

音频反分词器：采用与 MoonCast 相同的反分词器架构，包含将12.5Hz语义tokens转换为 50Hz 梅尔频谱图的流匹配模块和从梅尔频谱图生成波形的声码器。

为降低语音生成延迟，设计了分块流式反分词器，采用分块自回归流式框架和前瞻机制，解决分块边界处的音频生成问题。

5

训练

5.1预训练

任务构建：设计多类预训练任务，帮助模型学习音频和文本知识并对齐，为复杂任务奠基。

包括单模态预训练，分别用MoonLight文本数据和音频离散语义tokens序列训练文本和音频模型。

音频文本映射预训练，通过ASR和TTS任务学习模态间映射。

音频文本交织预训练，设计三个任务缩小模态差距，对部分任务中预测困难的语义tokens，添加6个特殊空白tokens解决问题。

训练策略：用预训练的Qwen2.57B模型初始化音频LLM并扩展词汇表，按1:7:1:1:1:1:2的权重训练各任务1轮，使用585B音频和文本tokens。

采用AdamW优化器，1%的tokens用于热身。

音频分词器中连续声学特征提取模块由Whisperlargev3初始化，前期冻结，后期联合微调。

5.2监督微调

指令设计：考虑下游任务多样，以自然语言作指令，构建音频和文本版本指令，训练时随机选。

通过LLM为ASR任务生成200条指令，为其他任务生成30条，增强模型遵循指令的鲁棒性，基于约300K小时数据微调。

微调策略：综合消融实验确定在各数据源上微调24轮，使用AdamW优化器，10%的tokens用于热身。

5.3音频反分词器训练

分三步训练音频反分词器。先用约100万小时预训练音频数据预训练流匹配模型和声码器，学习音频特征。

接着在相同数据上采用动态分块（0.53秒）微调。

最后用KimiAudio说话人的高质量单说话人录音数据进行微调。

6

实验结果

实时语音对话流程：以实时语音到语音对话为例，用户在客户端（如KimiAPP或网页浏览器）说话，音频数据被收集并流式传输到服务器。

服务器上的语音活动检测模块判断用户是否结束说话，一旦用户停止说话，服务器发送提交信号并启动Kimi-Audio模型的推理过程。

在推理过程中，客户端实时接收生成的音频块并播放给用户。

服务器端的推理步骤为：首先，输入音频通过音频分词器转换为离散语义tokens和连续声学向量。

然后，将系统提示tokens、音频tokens和对话历史tokens连接起来作为音频LLM的输入。

接着，音频LLM生成输出tokens；最后，输出tokens通过反分词器转换回音频波形。

生产部署：为应对Kimi-Audio核心组件计算密集的问题，设计了如下生产部署架构：

Kimi-Audio RTC Service：该服务负责与客户端交互，接收用户音频并转发给推理调度器，同时将生成的音频块返回给客户端，使用WebRTC协议确保连接稳定且低延迟。

推理调度器：管理对话流程，将对话历史以tokens形式存储在存储后端。在每轮交互中，它调用分词器服务将用户音频转换为tokens，构建模型输入并发送给LLM服务生成响应tokens，再调用反分词器服务将响应tokens转换为音频输出，同时存储输出tokens以保证对话连续性。

Tokenizer/Detokenizer/LLMServices：这些服务负责模型推理，配备负载均衡器和多个推理实例，以并行处理请求，确保系统的可扩展性。

7

实验结果

评估结果（见表 4-7）：在自动语音识别（ASR）任务中，Kimi-Audio 在多个数据集上表现优异，如在 LibriSpeech 基准测试中取得最低错误率。

在音频理解任务中，在多个基准测试中表现出色，能更好地理解复杂声学信息

在音频 - 文本聊天任务中，在多个基准测试的子任务上达到最先进水平，展现出强大的对话和推理能力。

在语音对话任务中，基于主观评估，Kimi-Audio 在情感控制、同理心和速度控制方面得分较高，整体表现良好。

8

结论

尽管 Kimi-Audio 在构建通用音频基础模型方面取得了显著进展，但仍面临挑战并存在未来发展方向。

在从音频转录到音频描述方面，当前音频基础模型的预训练范式多依赖音频-文本预训练，文本转录忽略了音频中的重要信息，引入描述性文本有助于模型更好地理解和生成复杂声学环境相关内容。

在音频表示方面，现有语义tokens和声学tokens表示各有局限，开发融合转录导向语义信息和描述导向声学特征的表示方法，对更复杂的音频理解和生成至关重要。

此外，当前音频基础模型在训练中过度依赖 ASR 和 TTS 生成的数据，限制了模型性能提升，未来应尝试不依赖此类数据，利用原生音频数据训练模型，以提高性能上限。