链载Ai

标题: Qwen3-Omni:一个模型,全能不偏科 [打印本页]

作者: 链载Ai    时间: 昨天 22:22
标题: Qwen3-Omni:一个模型,全能不偏科

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">一个模型能够同时处理文字、图片、语音和视频了!

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">
新一代原生全模态大模型 Qwen3-Omni 正式发布。在 36 项音视频基准测试中,取得了 32 项开源模型最佳效果,22 项达到SOTA水平。

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">在音视频能力强劲的同时,文本与图像的单模态性能保持稳定,真正实现“全模态不降智”。

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">现阶段,Qwen3-Omni 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开放,你也可以通过 Qwen Chat Qwen3-Omni-Flash模型直接体验(点击对话框右下角“使用语音和视频聊天”)。

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);line-height: 1.6em;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">它是如何做到“全能”且“不偏科”的?关键在于其架构设计。


Thinker-Talker 架构

分工协同,兼顾效率与能力



为实现“全模态不降智”的目标,Qwen3-Omni 采用了创新的Thinker-Talker 架构。将模型能力明确分工,在保障语义理解深度的同时,实现超低延迟的流式语音输出,一举解决“能力不降智”与“响应速度慢”两大难题。




此外,模型的音频编码器采用基于2000 万小时数据训练的 AuT 模型,为音视频理解提供了强大的通用表征基础。


为实现毫秒级实时交互,Talker 采用了创新的多码本自回归方案,在每一步解码中,MTP(Multi-Token Prediction)模块会预测当前音频帧的残差码本。随后,Code2Wav 模块将这些码本即时合成为波形,实现逐帧流式音频生成。

Qwen3-Omni 完整架构图


如上图所示,Qwen3-Omni 通过Vision Encoder和AuT音频编码器将图文音视频输入编码为隐藏状态,由 MoE Thinker 负责文本生成与语义理解,再由 MoE Talker 结合 MTP 模块,实现超低延迟的流式语音生成。得益于这一协同设计,Qwen3-Omni 纯模型端到端的音频对话延迟可低至211ms,视频对话延迟可低至507ms,交互体验如真人对话般自然流畅。


此外,模型支持长达30 分钟的音频内容理解,适用于会议记录、课程转录等长语音场景。


性能验证

全能表现,数据说话


在多项权威评测中,Qwen3-Omni 的“全能且不偏科”得到了充分验证:





Omni-30B-A3B 性能图

在文本、音频、语音生成、图像和视频上表现出色


119种语言、50+种音色,开箱即用


这些能力,最终都要服务于真实世界的复杂场景。为此,Qwen3-Omni 在语言覆盖、内容长度与声音表现上做了深度优化:支持119 种文本语言输入、19 种语音输入语言和10 种语音输出语言,满足全球化应用需求;支持长达30 分钟的音频内容理解,完整处理会议、课程等长语音场景;语音合成提供17 种自然音色(Flash版)或 3 种基础音色(开源版),让交互更具个性与温度。


语种和方言(19种)


语音生成(10种)


语音翻译

其中,xx(任意语言)包含的语言有:中文、英语、韩语、日语、德语、法语、意大利语、西班牙语、葡萄牙语、印尼语、泰语、阿拉伯语、粤语、越南语等。


灵活易用

一行提示词,定制你的专属AI


Qwen3-Omni 不仅能力全面,更注重实际场景中的快速适配能力。



Qwen3-Omni-Flash 性能图


为推动技术开放与社区共建,我们同步开源了Qwen3-Omni-30B-A3B-Captioner模型。


这是一个专注于生成详细、低幻觉音频描述的通用模型,能够为任意音频内容生成高质量的文本摘要或场景描述。该模型填补了开源社区在高质量音频 Caption 领域的空白,为音视频内容分析、无障碍服务、智能剪辑等场景提供了强大基础工具。


你可通过 Hugging Face 或 ModelScope 直接下载使用,并基于此构建更丰富的上层应用。未来,我们也将会持续推进多说话人语音识别(Multi-speaker ASR)、视频 OCR 与结构化信息提取、音视频主动学习机制、强化智能体与函数调用能力。我们期待和你一起探索 Qwen3-Omni 更多创新应用场景。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5