热搜: 活动交友 discuz

扫码关注官方微信

扫码下载APP

返回顶部

链载Ai › 核心板块 › 前沿技术 › 小米开源首个原生端到端语音大模型 MiMo-Audio ...

链载Ai 关注Ta

发帖数41882
粉丝0

此人很懒，什么也没有留下

阅读作者更多精彩帖子

热门问答更多热门问答

技术文章更多技术文章

小米开源首个原生端到端语音大模型 MiMo-Audio

[复制链接]

链载Ai 显示全部楼层 发表于 2025-12-1 22:21:27 |阅读模式

上一主题

下一主题

模型名称
Xiaomi-MiMo-Audio，是小米新开源的第一个原生端到端语音大模型。
训练数据规模与预训练架构

用“上亿小时训练数据”进行预训练。
基于“创新预训练架构”。

少样本泛化 (Few-Shot / ICL) 与“涌现”行为

在语音领域首次实现了基于 ICL（in-context learning）的少样本泛化能力。
在预训练过程中观察到明显的“涌现”（emergent）行为。
后训练阶段还提升了智商、情商、表现力与安全性等跨模态对齐能力，以及语音对话的自然度、情感表达、交互适配性。

性能比较 / 基准测评

在多个标准评测中，MiMo-Audio 的表现如下：

基准 / 测试集	比较对象	结果
通用语音理解及对话多个任务 / 开源模型	同参数量开源模型	MiMo-Audio 大幅超越，取得 (约) 7B 参数模型的最佳性能。
音频理解基准 “MMAU” 标准测试集	Google 闭源语音模型Gemini-2.5-Flash	MiMo-Audio 超过该模型。
音频复杂推理任务 “Big Bench Audio S2T”	OpenAI 闭源语音模型GPT-4o-Audio-Preview	MiMo-Audio 也超越。

开源情况与构成

MiMo-Audio 是开源模型。
开源内容包括：无损压缩的 Tokenizer，全新模型结构，训练方法和评测体系。
支持混合思考（“Thinking”）方式同时应用于语音理解和语音生成过程。

7B 参数量

在同参数量级（7B）中，MiMo-Audio 是最优表现者。

回复

使用道具举报

发布主题

返回列表

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程，Suno AI音乐生成指南，以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整，手把手助您从入门到精通。

官方手机版
微信公众号
商务合作

Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司||