链载Ai
标题: 阿里一口气发了N款新模型,让我们向源神致敬。 [打印本页]
作者: 链载Ai 时间: 昨天 22:22
标题: 阿里一口气发了N款新模型,让我们向源神致敬。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space-collapse: preserve;color: rgb(0, 0, 0);">阿里的早上这个发布会,给我看麻了。一场阿里的云栖大会,我真的感觉,他们把家底全都掏出来了。。。我虽然这次有事很可惜没去成现场,但是还是破天荒的8点多起床一下蹲了直播。过程中,我都看懵了,就一股脑子发啊,各种各样的模型,挨个掏。我大概数了下, 纯今天新发布的新模型有两个,一个是整个Qwen系列最强的Qwen3-Max,另一个是爆火的Wan2.2的后续模型Wan2.5,这玩意支持跟Veo3一样的音画同出的特性,是有点东西的。然后也正式发布了前几天为了预热提前发布的模型,比如目前Qwen里面最强的Qwen3-VL模型,还有一个全模态模型Qwen3-Omni,还有全新的模型架构带来的Qwen3-Next等等。我最快速度整理+体验了一波,给大家直接一文总结一下,来自阿里的全发布。最牛逼最新的,肯定就当属Qwen3-Max正式版了,直接对标GPT-5、Claude Opus 4这些世界顶尖模型。上一次发Max还是今年1月29日除夕发布的,半年后,他们终于把Qwen3-Max掏出来了。在LMArena上,之前的Qwen3-Max-Instruct的预览版,在这个全球最权威的匿名模型对战平台上,并列前三,直接把GPT-5-Chat都甩在了身后。这次的Max,是真的把参数堆满了。
模型总参数超过了1万亿,用了36万亿的tokens进行预训练,突出一个量大管饱。
他们自己的Blog的标题也非常的苹果味。
大就是好。
MoE模型,1万亿的大小,支持100万Token的上下文。
这次发布的Qwen3-Max,也跟别家一样,分了两个版本,一个Instruct版,一个更猛的Thinking版。
Qwen3-Max-Instruct这个版本,就是我们现在能直接用到的,不带深度思考的。AIME2025基本一骑绝尘,在LiveCodeBench v6这个强调复杂工程题、未公开题上的泛化能力的测试集上,也得到了不错的效果。τ²-Bench这个新的强调AI在动态环境中的推理、工具使用、用户引导与协调能力的Agent评测集,Qwen3-Max也是最强的,74.8分,直接干翻了Claude Opus 4和DeepSeek-V3.1。SWE-Bench这个专门解决真实世界编程难题的测试集上,它拿了69.6分,也是稳稳的世界第一梯队。不过感觉后面可以更多的看看SWE-Bench Pro了。Thinking版目前发了能力图,但是还没放出来。在AIME 25和HMMT这两个地狱难度的数学推理竞赛题集上,Qwen3-Max-Thinking,拿了100分。
满分。
直接跟GPT-5 Pro打平了。
这玩意还是有点酷的,可惜,现在还体验不到。
目前Qwen3-Max-Instruct已经在官网上线了:
https://chat.qwen.ai/
你在X上,随处可以那种做人物动画迁移拿到百万观看的帖子。一些升级到1080P、能跑10s时长这种基础参数啥的我就不说了。有一个很好玩的东西,是我觉得可以一提的,就是他们的新能力。听到这个词是不是很陌生?但是如果我说是是Veo3的那个原生的输出带角色音频的视频,你们应该就会有印象了。而这次,Wan2.5,也是第一次支持这个能力,不仅可以跟Veo3一样,用Prompt控制,而且,还可以上传图片+音频直出。https://tongyi.aliyun.com/
直接一张图+1段音频,就可以跑出表演还不错的视频。得益于音画同步直出的能力,在数字人和人物表演上,能力大幅加强。而且解决了Veo3一直以来一个很尴尬的问题,就是没法保持音色一致性。Qwen3-VL今天凌晨提前开源了。
目前是Qwen 系列中最强大的视觉语言模型,原生支持256K token上下文,还能扩展到100万上下文,大概支持长达2小时的视频。
这次开源的是VL系列的旗舰模型Qwen3-VL-235B-A22B,有Instruct与Thinking两个版本,带推理和不带推理的。在跑分上是有点东西的,在一些能力上,甚至优于Gemini2.5 Pro了。这里也放一下他们的片子,我觉得这种视觉模型,一定得配视觉化的看起来才爽。一个是有视觉Agent能力,能理解按钮、调用工具等等,在PC或者手机上完成一些Agent任务。各种识别+推理能力也是非常的牛逼,我的好基友@刘聪NLP测了不少这块的Case。找到2024年GDP值最大的省份,并且计算占全国GDP的百分之多少?
而Qwen3-VL-235B-A22B,都没开推理,也是一次就对了。Qwen3-Omni是一个开源的全模态模型,阿里的盘子真的铺的太大了,模型也真的太全了。这个是昨天凌晨提前发了,但是在今天的云栖大会上,正式发布了。这是一个纯粹的端到端模型,Qwen3-Omni在训练的时候学习了很多跨模态的数据,原生支持文本、图像、音频和视频的输入,支持119种文本语言交互、19种语音理解语言与10种语音生成语言。对,你可以直接进行端到端语音对话,延迟只有211毫秒。还支持function call和MCP,能非常方便的和现有工具结合。
我直接用它,来识别歌曲。
还是挺好玩的。
还有Qwen3-Coder-Plus,推理速度更快,使用更少的token可达到更优的效果,代码安全性增强。还有Qwen3-Next,总参数80B仅激活3B,性能就可媲美千问3旗舰版235B模型,训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,就离谱。还有全新的语音模型家族通义百聆,涵盖语音识别大模型Fun-ASR、语音合成大模型Fun-CosyVoice。Fun-ASR基于数千万小时真实语音数据训练而成,具备强大的上下文理解能力与行业适应性,能实时处理10多种语言。
Fun-CosyVoice可提供上百种预制音色,完全可以拿去做各种客服、有声书、AI玩具啥的。
还有Qwen3-LiveTranslate-Flas,实时多模态翻译,只有3秒多的延迟。。还有Qwen3Guard,专为全球实时AI安全构建的Qwen3基础安全审核模型,非常适合做RL奖励建模。还有图片编辑模型Qwen-Image-Edit-2509。。。总而言之,阿里这次发布会给我的感觉就是四个字。
倾其所有。
为了这个繁荣昌盛的AI生态。
几乎是构建了一个从底层模型到上层应用,覆盖文本、视觉、音频、视频的全模态、全场景的超级生态。
而且我看了下数据,现在,开源届,现在真的就是Qwen一统江湖了。
这个肌肉,秀的是真的6。
不得不夸一句。
今天的光,属于阿里。
| 欢迎光临 链载Ai (https://www.lianzai.com/) |
Powered by Discuz! X3.5 |