 大模型圈又要热闹了! 就在刚刚,阿里云正式发布了 Qwen(通义千问)系列大模型的最新成员 —— Qwen3。这次发布包含了 8 个不同规模的模型,其中最大的模型有 235B 参数。  重磅升级,对标顶级模型Qwen3 的旗舰模型是 Qwen3-235B-A22B。这个模型在代码、数学和通用能力等方面的测试中,已经可以和 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型一较高下。 Qwen3 系列包括: 2 个 MoE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B 6 个标准模型:从 0.6B 到 32B 不等
亮点一:双模式思考能力Qwen3 最大的创新是支持两种思考模式: 思考模式:模型会一步步推理,适合复杂问题。比如做数学题时,模型会像人类一样先分析问题,再逐步解答。 快速模式:模型直接给出答案,适合简单问题。比如问候、闲聊这类问题,模型会立即回应。
 用户可以根据需要切换这两种模式。测试数据显示,在思考模式下,模型在 AIME(美国数学邀请赛)和 GPQA(通用问答)等任务上的表现会随着思考时间的增加而提升。 亮点二:超大规模预训练Qwen3 的训练数据比上一代翻了一倍多: 训练数据来源广泛:  训练过程分三步: - 基础训练:用 30 万亿 token 训练基础语言能力
- 专业训练:加入 5 万亿专业领域数据(STEM、编程等)
- 长文本训练:把上下文长度扩展到 32K token
亮点三:创新的后训练方法Qwen3 采用了四阶段后训练流程:
 对于轻量级模型(如 Qwen3-4B/8B/14B),还使用了知识蒸馏技术,把大模型的能力传授给小模型。 亮点四:性能大幅提升小模型也有大能力!Qwen3 的小型 MoE 模型 Qwen3-30B-A3B 只用了 QwQ-32B 十分之一的参数量,就取得了更好的效果。  就连最小的 Qwen3-4B 模型,也能达到 Qwen2.5-72B-Instruct 的水平。  亮点五:开箱即用Qwen3 现在已经登陆各大平台: 开发者可以用多种方式部署 Qwen3: - 本地部署:用 Ollama、LMStudio、MLX、llama.cpp 等工具
访问 https://chat.qwen.ai/ 在线体验。也可以在 App 上进行体验。  亮点六:多语言支持Qwen3 支持 119 种语言,这让它可以服务全球用户。不管是中文、英文,还是小语种,Qwen3 都能应对自如。  大模型竞争加剧就在 Qwen3 发布前,业内有爆料传出 DeepSeek R2 即将发布的消息。据说这个模型有这些特点: - 在华为 Ascend 910B 上利用率达到 82%
|