链载Ai

标题: 小米开源首个原生端到端语音大模型 MiMo-Audio [打印本页]

作者: 链载Ai 时间: 2025-12-1 22:21
标题: 小米开源首个原生端到端语音大模型 MiMo-Audio

模型名称
Xiaomi-MiMo-Audio，是小米新开源的第一个原生端到端语音大模型。
训练数据规模与预训练架构

用“上亿小时训练数据”进行预训练。
基于“创新预训练架构”。

少样本泛化 (Few-Shot / ICL) 与“涌现”行为

在语音领域首次实现了基于 ICL（in-context learning）的少样本泛化能力。
在预训练过程中观察到明显的“涌现”（emergent）行为。
后训练阶段还提升了智商、情商、表现力与安全性等跨模态对齐能力，以及语音对话的自然度、情感表达、交互适配性。

性能比较 / 基准测评

在多个标准评测中，MiMo-Audio 的表现如下：

基准 / 测试集	比较对象	结果
通用语音理解及对话多个任务 / 开源模型	同参数量开源模型	MiMo-Audio 大幅超越，取得 (约) 7B 参数模型的最佳性能。
音频理解基准 “MMAU” 标准测试集	Google 闭源语音模型Gemini-2.5-Flash	MiMo-Audio 超过该模型。
音频复杂推理任务 “Big Bench Audio S2T”	OpenAI 闭源语音模型GPT-4o-Audio-Preview	MiMo-Audio 也超越。

开源情况与构成

MiMo-Audio 是开源模型。
开源内容包括：无损压缩的 Tokenizer，全新模型结构，训练方法和评测体系。
支持混合思考（“Thinking”）方式同时应用于语音理解和语音生成过程。

7B 参数量

在同参数量级（7B）中，MiMo-Audio 是最优表现者。

欢迎光临链载Ai (https://www.lianzai.com/)

Powered by Discuz! X3.5