返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Qwen3-Omni新升级:声形意合,令出智随!

[复制链接]
链载Ai 显示全部楼层 发表于 前天 14:04 |阅读模式 打印 上一主题 下一主题


Qwen3-Omni是新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。我们引入了多种升级来提升模型表现和效率。

Qwen3-Omni-Flash-2025-12-01是在Qwen3-Omni基础上进行全面升级的版本。

此次升级版本主要特点为:

  • 音视频交互体验全面升级:大幅增强对音视频指令的理解与执行能力,有效解决口语化场景中常见的“降智”问题;多轮音视频对话的稳定性与连贯性显著提升,交互更自然流畅。

  • 系统提示(System Prompt)控制能力飞跃:全面开放 System Prompt 自定义,实现对模型行为的精细调控——无论是人设风格(如甜妹、御姐、日系等)、口语化表达偏好,还是回复长度等要求,均可精准实现,控制力大幅提升。

  • 多语言遵循能力更可靠:支持119 种文本语言交互、19 种语音识别语言10 种语音合成语言,彻底优化上一版本中语言遵循不稳定的问题,确保跨语言场景下响应准确、一致。

  • 语音生成更拟人、更流畅: 彻底解决语速拖沓、机械呆板的问题,显著提升模型根据文本内容自适应调节语速、停顿与韵律的能力,语音表现自然生动,拟人化程度逼近真人。



模型性能


在客观性能指标上,Qwen3-Omni-Flash-2025-12-01全模态能力全面跃升,各项能力均显著超越Qwen3-Omni-Flash:

  • 🧠 文本理解与生成更强大:在逻辑推理(ZebraLogic +5.6)、代码生成(LiveCodeBench-v6 +9.3、MultiPL-E +2.7)和综合写作(WritingBench +2.2)等任务上大幅提升,复杂指令遵循能力再上新台阶。

  • 👂 语音理解更精准:在语音识别(Fleurs-zh)的字错率显著降低,语音对话评估(VoiceBench)得分提升 3.2 分,语音理解能力提升。

  • 🎙️ 语音生成更自然:多语言语音合成质量全面提升,尤其在中文、多语种上,韵律、语速与停顿更贴近真人对话。

  • 👁️ 图像理解更深入:在多学科视觉问答(MMMU +4.7、MMMU_pro +4.8)和数学视觉推理(Mathvision_full +2.2)任务上取得飞跃,能更准确地“看懂”图像内容并进行深度分析。

  • 🎬 视频理解更连贯:视频语义理解能力(MLVU +1.6)持续优化,结合增强的音视频同步能力,为实时视频对话提供坚实基础。

此次升级,让 Qwen3-Omni-Flash-20251201 在全模态场景下真正做到“声形意合,令出智随”,为用户带来前所未有的自然、精准、生动的 AI 交互体验。


下一步

我们期待听到您的反馈,并看到您使用Qwen3-Omni开发的创新应用。在不久的将来,我们将沿多个技术方向持续推进模型升级,包括多说话人ASR、视频OCR、音视频主动学习等核心能力建设,并强化基于智能体的工作流与函数调用支持。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ