Qwen3-Omni：一个模型，全能不偏科 - 链载Ai

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

Thinker-Talker 架构

分工协同，兼顾效率与能力

为实现“全模态不降智”的目标，Qwen3-Omni 采用了创新的Thinker-Talker 架构。将模型能力明确分工，在保障语义理解深度的同时，实现超低延迟的流式语音输出，一举解决“能力不降智”与“响应速度慢”两大难题。

Thinker（思考者）：基于混合专家（MoE）架构，负责文本语义的理解与生成，是模型处理逻辑、知识和推理的“大脑”。它确保了在处理音视频任务时，核心的文本与图像能力不受干扰，真正实现“全模态不降智”。

Talker（表达者）：同样基于 MoE 架构，专注于流式语音 Token 的生成。它直接接收来自 Thinker 的高层语义表征，确保语音输出与文本意图高度一致，避免了传统端到端模型在语音生成过程中对语义理解的损耗。

此外，模型的音频编码器采用基于2000 万小时数据训练的 AuT 模型，为音视频理解提供了强大的通用表征基础。

为实现毫秒级实时交互，Talker 采用了创新的多码本自回归方案，在每一步解码中，MTP（Multi-Token Prediction）模块会预测当前音频帧的残差码本。随后，Code2Wav 模块将这些码本即时合成为波形，实现逐帧流式音频生成。

Qwen3-Omni 完整架构图

如上图所示，Qwen3-Omni 通过Vision Encoder和AuT音频编码器将图文音视频输入编码为隐藏状态，由 MoE Thinker 负责文本生成与语义理解，再由 MoE Talker 结合 MTP 模块，实现超低延迟的流式语音生成。得益于这一协同设计，Qwen3-Omni 纯模型端到端的音频对话延迟可低至211ms，视频对话延迟可低至507ms，交互体验如真人对话般自然流畅。

此外，模型支持长达30 分钟的音频内容理解，适用于会议记录、课程转录等长语音场景。

性能验证

全能表现，数据说话

在多项权威评测中，Qwen3-Omni 的“全能且不偏科”得到了充分验证：

音视频能力强劲：在 36 项音视频基准测试中，32 项取得开源模型最佳效果，22项达到SOTA水平。性能表现超越 Seed-ASR、GPT-4o-Transcribe 等闭源模型。

文本能力稳定：在 MMLU-Redux、AIME25 等文本评测中，Qwen3-Omni-30B-A3B 得分分别为85.9和64.0，与参数量更大的单模态模型 Qwen3-235B-A22B（89.2, 24.7）表现接近。

图像能力扎实：在 MMMU 和 CountBench 图像理解评测中得分69.1和90.0，与专用视觉模型 Qwen2.5-VL-72B 表现相当。

Omni-30B-A3B 性能图

在文本、音频、语音生成、图像和视频上表现出色

119种语言、50+种音色，开箱即用

这些能力，最终都要服务于真实世界的复杂场景。为此，Qwen3-Omni 在语言覆盖、内容长度与声音表现上做了深度优化：支持119 种文本语言输入、19 种语音输入语言和10 种语音输出语言，满足全球化应用需求；支持长达30 分钟的音频内容理解，完整处理会议、课程等长语音场景；语音合成提供17 种自然音色（Flash版）或 3 种基础音色（开源版），让交互更具个性与温度。

语种和方言（19种）

阿拉伯语、粤语、中文、荷兰语、英语、法语、德语、印尼语、意大利语、日语、韩语、马来语、葡萄牙语、俄语、西班牙语、泰语、土耳其语、乌尔都语、越南语。

语音生成（10种）

支持的语种：中文、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语
支持的方言：闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话

语音翻译

xx2En (任意语言 → 英文)
xx2Zh (任意语言 → 中文)
En2xx (英文 → 任意语言)
Zh2xx (中文 → 任意语言)

其中，xx（任意语言）包含的语言有：中文、英语、韩语、日语、德语、法语、意大利语、西班牙语、葡萄牙语、印尼语、泰语、阿拉伯语、粤语、越南语等。

灵活易用

一行提示词，定制你的专属AI

Qwen3-Omni 不仅能力全面，更注重实际场景中的快速适配能力。

个性化行为定制：通过系统提示词（system prompt），用户可轻松调整模型的回复风格、语气或人设。无论是设定为“严谨专业的法律顾问”，还是“亲切活泼的健身教练”，只需一行指令，即可快速匹配不同业务需求。
工具调用（Function Call）：支持与外部工具或 API 高效集成。开发者可让模型自动调用数据库、发送邮件、查询天气、操作软件等，构建自动化智能工作流，大幅提升效率。
轻量版模型支持：提供Qwen3-Omni-Flash版本，在保持核心能力的同时，显著降低推理资源消耗，适合对成本和延迟敏感的应用场景。

Qwen3-Omni-Flash 性能图

为推动技术开放与社区共建，我们同步开源了Qwen3-Omni-30B-A3B-Captioner模型。

这是一个专注于生成详细、低幻觉音频描述的通用模型，能够为任意音频内容生成高质量的文本摘要或场景描述。该模型填补了开源社区在高质量音频 Caption 领域的空白，为音视频内容分析、无障碍服务、智能剪辑等场景提供了强大基础工具。

你可通过 Hugging Face 或 ModelScope 直接下载使用，并基于此构建更丰富的上层应用。未来，我们也将会持续推进多说话人语音识别（Multi-speaker ASR）、视频 OCR 与结构化信息提取、音视频主动学习机制、强化智能体与函数调用能力。我们期待和你一起探索 Qwen3-Omni 更多创新应用场景。