返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Qwen3中性能最强MOE模型部署抛砖引玉 实测

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 18:09 |阅读模式 打印 上一主题 下一主题

深夜发布的Qwen3系列模型,很强!

一共开源了:

  • 两个 MoE 模型的权重:Qwen3-235B-A22B 和 Qwen3-30B-A3B
  • 六个 Dense 模型,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B

其中性能部分,这次主要关注MOE,MOE因为激活参数少,虽然占的显存大,但是实际对算力的要求不高,所以性价比更高,同时MOE模型的性能也普遍大于同尺寸Dense模型:

  • 旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比表现极具竞争力
  • Dense模型Qwen3-32B更强了,我很喜欢,这个尺寸的稠密模型实用性很高
Qwen3-235B-A22B
  • 小型MoE模型Qwen3-30B-A3B仅使用10%的激活参数就能超越QwQ-32B的性能,而Qwen3-4B这样的小模型甚至能匹敌Qwen2.5-72B-Instruct
Qwen3-30B-A3B

这回Qwen3系列模型的主要技术优势包括:

  • 支持思考模式和非思考模式的切换,可以根据任务需求选择深度思考或快速响应
  • 在36万亿token上进行预训练,是Qwen2.5训练数据量的两倍,支持119种语言和方言
  • 通过改进模型架构和训练方法,Qwen3系列的基础模型性能可与参数量更大的Qwen2.5模型相当,特别在STEM、编码和推理等领域表现更为出色

部署方面

依然是两个MOE的模型比较香,Qwen3-235B-A22B 和 Qwen3-30B-A3B。另一个Qwen3-32B稳步提升,32B也是个人比较喜欢的一个尺寸。

不过这里还是先讨论MOE,为什么MOE模型相比Dense模型香呢:

  • 激活参数数量少,这样计算部分不多,需要的算力也就不大,所以推理速度更快
  • 内存需求低 + 更高的计算资源利用率,MoE模型的稀疏激活机制使得计算资源集中用于处理最相关的专家网络,避免了对所有参数的全面计算,这样内存也不需要全放到计算的显存中

先看第一个,Qwen3-30B-A3B需要什么配置可以跑起来?

Qwen3-30B-A3B

  • RX 6550M(4GB显存) + 32GB DDR5 4800内存 + 量化方式:q4_k_m-> 推理速度:约 20 tokens/s
  • RTX 3090显卡(24GB显存) -> 约 75 tokens/s
  • 2080Ti显卡(22GB显存)+ 量化方式:IQ4_XS -> 推理速度:约 50 tokens/s
  • 12GB VRAM(如3060)可达 12 tokens/s 的推理速度(Q6 量化),远超 QwQ 相同硬件下的体验
  • 16GB VRAM (3080Ti-laptop) -> 13 tokens/s
  • 5090 显卡 上 Q4 版本 -> 140-155 tokens/s

相比之前的QwQ-32B,Qwen3-30B-A3B更节省“思考”Token,实际推理中除了实际算力需要的少,模型思考长度也少了不少,实际好用率大大提高

  • 在低至Q3量化时,甚至手机/平板(16GB RAM)理论上也能跑得动,极大拓展了推理设备的范围。
  • 对比 QwQ,Qwen3-30B-A3B 在同等量化等级下的推理速度快数倍,且代码生成质量、世界知识理解等能力都有提升。

Qwen3-235B-A22B

Qwen3-235B-A22B尺寸类似于Deepseek-v2,略大一丢丢,实际性能参考后者就行:

Deepseek-v2

当然有人实际跑起来了:Qwen3-235B-A22B-4bit量化版本在 Apple Mac Studio M2 Ultra 能跑到 28 toks/sec,大概占用 132GB 内存。如果使用8x4090或者2xH20会跑的更快,不过也就失去折腾的意义了。

另外AMD的AI MAX 395 128G版本也有人跑起来DeepSeek-V2 236B,不过目前没有开源相关推理代码,门槛相比nvidia和mac高一些,不过也不是不能试试。

128G共享显存运行236B模型

我个人有一台AI MAX 390 + 128G的配置,在配环境中,AMD的rocm + HIP相比nVidia的CUDA来说还是有点难用,如果能配起来,可能也是跑Qwen3-235B-A22B性价比高的一款机器了。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ