返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

小米开源首个原生端到端语音大模型 MiMo-Audio

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
  • 模型名称
    Xiaomi-MiMo-Audio,是小米新开源的第一个原生端到端语音大模型。

  • 训练数据规模与预训练架构

    • 用“上亿小时训练数据”进行预训练。

    • 基于“创新预训练架构”。

  • 少样本泛化 (Few-Shot / ICL) 与“涌现”行为

    • 在语音领域首次实现了基于 ICL(in-context learning)的少样本泛化能力。

    • 在预训练过程中观察到明显的“涌现”(emergent)行为。

    • 后训练阶段还提升了智商、情商、表现力与安全性等跨模态对齐能力,以及语音对话的自然度、情感表达、交互适配性。

  • 性能比较 / 基准测评

    在多个标准评测中,MiMo-Audio 的表现如下:

    基准 / 测试集
    比较对象
    结果
    通用语音理解及对话多个任务 / 开源模型
    同参数量开源模型
    MiMo-Audio 大幅超越,取得 (约) 7B 参数模型的最佳性能。
    音频理解基准 “MMAU” 标准测试集
    Google 闭源语音模型Gemini-2.5-Flash
    MiMo-Audio 超过该模型。
    音频复杂推理任务 “Big Bench Audio S2T”
    OpenAI 闭源语音模型GPT-4o-Audio-Preview
    MiMo-Audio 也超越。
  • 开源情况与构成

    • MiMo-Audio 是开源模型。

    • 开源内容包括:无损压缩的 Tokenizer,全新模型结构,训练方法和评测体系。

    • 支持混合思考(“Thinking”)方式同时应用于语音理解和语音生成过程。

  • 7B 参数量

    • 在同参数量级(7B)中,MiMo-Audio 是最优表现者。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ