Qwen3-Omni新升级:声形意合，令出智随！

显示全部楼层

Qwen3-Omni是新一代原生全模态大模型，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音输出。我们引入了多种升级来提升模型表现和效率。

Qwen3-Omni-Flash-2025-12-01是在Qwen3-Omni基础上进行全面升级的版本。

此次升级版本主要特点为：

音视频交互体验全面升级：大幅增强对音视频指令的理解与执行能力，有效解决口语化场景中常见的“降智”问题；多轮音视频对话的稳定性与连贯性显著提升，交互更自然流畅。
系统提示（System Prompt）控制能力飞跃：全面开放 System Prompt 自定义，实现对模型行为的精细调控——无论是人设风格（如甜妹、御姐、日系等）、口语化表达偏好，还是回复长度等要求，均可精准实现，控制力大幅提升。
多语言遵循能力更可靠：支持119 种文本语言交互、19 种语音识别语言与10 种语音合成语言，彻底优化上一版本中语言遵循不稳定的问题，确保跨语言场景下响应准确、一致。
语音生成更拟人、更流畅：彻底解决语速拖沓、机械呆板的问题，显著提升模型根据文本内容自适应调节语速、停顿与韵律的能力，语音表现自然生动，拟人化程度逼近真人。

模型性能

在客观性能指标上，Qwen3-Omni-Flash-2025-12-01全模态能力全面跃升，各项能力均显著超越Qwen3-Omni-Flash:

🧠 文本理解与生成更强大：在逻辑推理（ZebraLogic +5.6）、代码生成（LiveCodeBench-v6 +9.3、MultiPL-E +2.7）和综合写作（WritingBench +2.2）等任务上大幅提升，复杂指令遵循能力再上新台阶。
👂 语音理解更精准：在语音识别（Fleurs-zh）的字错率显著降低，语音对话评估（VoiceBench）得分提升 3.2 分，语音理解能力提升。
🎙️ 语音生成更自然：多语言语音合成质量全面提升，尤其在中文、多语种上，韵律、语速与停顿更贴近真人对话。
👁️ 图像理解更深入：在多学科视觉问答（MMMU +4.7、MMMU_pro +4.8）和数学视觉推理（Mathvision_full +2.2）任务上取得飞跃，能更准确地“看懂”图像内容并进行深度分析。
🎬 视频理解更连贯：视频语义理解能力（MLVU +1.6）持续优化，结合增强的音视频同步能力，为实时视频对话提供坚实基础。

此次升级，让 Qwen3-Omni-Flash-20251201 在全模态场景下真正做到“声形意合，令出智随”，为用户带来前所未有的自然、精准、生动的 AI 交互体验。

下一步

我们期待听到您的反馈，并看到您使用Qwen3-Omni开发的创新应用。在不久的将来，我们将沿多个技术方向持续推进模型升级，包括多说话人ASR、视频OCR、音视频主动学习等核心能力建设，并强化基于智能体的工作流与函数调用支持。