阿里 Qwen3 正式发布，一口气开源8款模型！这个五一注定不太平！

显示全部楼层

大模型圈又要热闹了！

就在刚刚，阿里云正式发布了 Qwen（通义千问）系列大模型的最新成员 —— Qwen3。这次发布包含了 8 个不同规模的模型，其中最大的模型有 235B 参数。

重磅升级，对标顶级模型

Qwen3 的旗舰模型是 Qwen3-235B-A22B。这个模型在代码、数学和通用能力等方面的测试中，已经可以和 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型一较高下。

Qwen3 系列包括：

Qwen3 最大的创新是支持两种思考模式：

用户可以根据需要切换这两种模式。测试数据显示，在思考模式下，模型在 AIME（美国数学邀请赛）和 GPQA（通用问答）等任务上的表现会随着思考时间的增加而提升。

Qwen3 的训练数据比上一代翻了一倍多：

训练数据来源广泛：

训练过程分三步：

Qwen3 采用了四阶段后训练流程：

对于轻量级模型（如 Qwen3-4B/8B/14B），还使用了知识蒸馏技术，把大模型的能力传授给小模型。

小模型也有大能力！Qwen3 的小型 MoE 模型 Qwen3-30B-A3B 只用了 QwQ-32B 十分之一的参数量，就取得了更好的效果。

就连最小的 Qwen3-4B 模型，也能达到 Qwen2.5-72B-Instruct 的水平。

Qwen3 现在已经登陆各大平台：

开发者可以用多种方式部署 Qwen3：

访问 https://chat.qwen.ai/ 在线体验。也可以在 App 上进行体验。

Qwen3 支持 119 种语言，这让它可以服务全球用户。不管是中文、英文，还是小语种，Qwen3 都能应对自如。

就在 Qwen3 发布前，业内有爆料传出 DeepSeek R2 即将发布的消息。据说这个模型有这些特点：