阿里一口气发了N款新模型，让我们向源神致敬。 - 链载Ai

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space-collapse: preserve;color: rgb(0, 0, 0);">阿里的早上这个发布会，给我看麻了。

模型总参数超过了1万亿，用了36万亿的tokens进行预训练，突出一个量大管饱。

这次发布的Qwen3-Max，也跟别家一样，分了两个版本，一个Instruct版，一个更猛的Thinking版。

在AIME 25和HMMT这两个地狱难度的数学推理竞赛题集上，Qwen3-Max-Thinking，拿了100分。

这段时间，开源的Wan2.2已经爆了。
你在X上，随处可以那种做人物动画迁移拿到百万观看的帖子。
阿里直接趁热打铁，把Wan2.5掏了出来。
一些升级到1080P、能跑10s时长这种基础参数啥的我就不说了。
有一个很好玩的东西，是我觉得可以一提的，就是他们的新能力。
音画同出。
听到这个词是不是很陌生？但是如果我说是是Veo3的那个原生的输出带角色音频的视频，你们应该就会有印象了。
而这次，Wan2.5，也是第一次支持这个能力，不仅可以跟Veo3一样，用Prompt控制，而且，还可以上传图片+音频直出。
你可以在通义万相上玩：
https://tongyi.aliyun.com/
我直接给大家放一个例子。
直接一张图+1段音频，就可以跑出表演还不错的视频。
很酷。
还有更好玩的。
真的，能玩起来的花活实在太多了。
得益于音画同步直出的能力，在数字人和人物表演上，能力大幅加强。
而且解决了Veo3一直以来一个很尴尬的问题，就是没法保持音色一致性。
但是现在，Wan2.5可以支持上传音频驱动了。
那保持一致性，就太简单了。
这可能给AI短剧，又带来一波很酷的飞跃。
三. Qwen3-VL
Qwen3-VL今天凌晨提前开源了。
目前是Qwen 系列中最强大的视觉语言模型，原生支持256K token上下文，还能扩展到100万上下文，大概支持长达2小时的视频。
这次开源的是VL系列的旗舰模型Qwen3-VL-235B-A22B，有Instruct与Thinking两个版本，带推理和不带推理的。
在跑分上是有点东西的，在一些能力上，甚至优于Gemini2.5 Pro了。
这里也放一下他们的片子，我觉得这种视觉模型，一定得配视觉化的看起来才爽。
而且有几个特点我觉得是有点牛逼的。
一个是有视觉Agent能力，能理解按钮、调用工具等等，在PC或者手机上完成一些Agent任务。
这个还是挺强的。
各种识别+推理能力也是非常的牛逼，我的好基友@刘聪NLP测了不少这块的Case。
比如有一个很坑的题：
找到2024年GDP值最大的省份，并且计算占全国GDP的百分之多少？
而Qwen3-VL-235B-A22B，都没开推理，也是一次就对了。
四. Qwen3-Omni
Qwen3-Omni是一个开源的全模态模型，阿里的盘子真的铺的太大了，模型也真的太全了。
这个是昨天凌晨提前发了，但是在今天的云栖大会上，正式发布了。
这是一个纯粹的端到端模型，Qwen3-Omni在训练的时候学习了很多跨模态的数据，原生支持文本、图像、音频和视频的输入，支持119种文本语言交互、19种语音理解语言与10种语音生成语言。
对，你可以直接进行端到端语音对话，延迟只有211毫秒。
还支持function call和MCP，能非常方便的和现有工具结合。
我直接用它，来识别歌曲。
还是挺好玩的。
五. 其他
还没完，嗯。。
还有Qwen3-Coder-Plus，推理速度更快，使用更少的token可达到更优的效果，代码安全性增强。
还有Qwen3-Next，总参数80B仅激活3B，性能就可媲美千问3旗舰版235B模型，训练成本较密集模型Qwen3-32B大降超90%，长文本推理吞吐量提升10倍以上，就离谱。
还有全新的语音模型家族通义百聆，涵盖语音识别大模型Fun-ASR、语音合成大模型Fun-CosyVoice。
Fun-ASR基于数千万小时真实语音数据训练而成，具备强大的上下文理解能力与行业适应性，能实时处理10多种语言。
Fun-CosyVoice可提供上百种预制音色，完全可以拿去做各种客服、有声书、AI玩具啥的。
还有Qwen3-LiveTranslate-Flas，实时多模态翻译，只有3秒多的延迟。。
还有Qwen3Guard，专为全球实时AI安全构建的Qwen3基础安全审核模型，非常适合做RL奖励建模。
还有图片编辑模型Qwen-Image-Edit-2509。。。
阿里，真的，就离谱。。。
开源给我人开傻了。
写在最后
总而言之，阿里这次发布会给我的感觉就是四个字。
倾其所有。
为了这个繁荣昌盛的AI生态。
几乎是构建了一个从底层模型到上层应用，覆盖文本、视觉、音频、视频的全模态、全场景的超级生态。
而且我看了下数据，现在，开源届，现在真的就是Qwen一统江湖了。
这个肌肉，秀的是真的6。
不得不夸一句。
今天的光，属于阿里。