模型名称 Xiaomi-MiMo-Audio,是小米新开源的第一个原生端到端语音大模型。 训练数据规模与预训练架构 用“上亿小时训练数据”进行预训练。 基于“创新预训练架构”。
少样本泛化 (Few-Shot / ICL) 与“涌现”行为 在语音领域首次实现了基于 ICL(in-context learning)的少样本泛化能力。 在预训练过程中观察到明显的“涌现”(emergent)行为。 后训练阶段还提升了智商、情商、表现力与安全性等跨模态对齐能力,以及语音对话的自然度、情感表达、交互适配性。
性能比较 / 基准测评 在多个标准评测中,MiMo-Audio 的表现如下: | | |
|---|
| | MiMo-Audio 大幅超越,取得 (约) 7B 参数模型的最佳性能。 | | Google 闭源语音模型Gemini-2.5-Flash | | | 音频复杂推理任务 “Big Bench Audio S2T” | OpenAI 闭源语音模型GPT-4o-Audio-Preview | |
开源情况与构成 7B 参数量
|