|
2025年4月29日,阿里发布了Qwen3大模型,引起了国内外社交媒体广泛关注。这里,我们不妨从技术和应用两个角度讨论下Qwen3。 根据官方公布的Qwen3改进主要集中在以下几个方面: - 模型架构:采用了混合专家模型(MOE),并且在模型架构上支持“思考”和“非思考”两种模式。推测其技术基础可能源于 DeepSeek,优化思路类似于 Gemini 2.5 Flash 的两种模式统一,即通过强化学习对这两种模式进行对齐,从而实现更好的性能平衡。
- 数据集:大幅扩充至 36 万亿 tokens,是 Qwen2.5 的两倍。数据的来源包括从大型模型中提取的非结构化文档,以及专门构建的特定领域数据,例如数学、编程等。得益于数据集的扩充,QW3 模型现在支持 119 种语言。
- 预训练:采用了针对测评集任务的分阶段处理策略。首先训练语言技能和通用知识,然后是知识密集型数据(如 STEM、编程和推理),最后是高质量的长文本数据。这种分阶段训练的方式可能有助于模型更好地掌握不同类型的知识和技能。
- 模型产品:发布了两种类型的模型,分别是 Dense 模型和 MoE 模型。Dense 模型需要较大的内存(显存),但优点是延迟较低;而 MoE 模型则可以用更小的内存运行,但推理计算会更耗时。考虑近期智能体的火热,Qwen3也支持Agent MCP 能力。
小虾米评论: 从技术角度来看,QW3 并没有什么突破,更多的是在“炼丹”流程上的优化。然而,在应用层面,特别是开源的 MoE 模型在资源占用方面的优势,使得在个人电脑或边缘设备上离线使用接近当前主流模型能力成为可能。这对于企业级数据敏感场景以及端上离线应用具有巨大的潜力。 例如,Qwen3-30B-A3B 模型最低可以部署在 16GB 内存或 8GB 显存的机器上,主流个人电脑即装即用。而 Qwen3-235B-A22B 模型最低可以部署在 256GB 内存 + 24GB 显存的机器上。普通个人或企业只需花费数万元即可购买到符合该配置的设备。 另一方面,一些专业领域,如数学、推理、编程等,选择一些定制模型效果可能会更好。DeepSeek 在五一前发布的 DeepSeek-Prover-V2-671B即是一款数学定理证明的定制大模型。 对于大多数普通用户而言,当然选择满血版 Qwen3-235B-A22B 模型服务,又多了一个极低成本使用大模型的选择总是好的。 |