|
阿里发布了 Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507。 这2款模型比3月前发布的Qwen3-4B 更智能、更敏锐、且支持 256K上下文! 🔹指令:提高一般技能、多语言覆盖和长程上下文指令的遵循。 🔹思考:逻辑、数学、科学和代码的高级推理,专为专家级任务而构建。 两种模型都更加一致、功能更强大、并且更能感知环境。 hf模型: https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507 https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507 魔搭社区下载: https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507 https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507 Qwen3-4B具有以下特点: 训练阶段:预训练、后训练 参数量:4B 非嵌入层参数量:3.6B 层数:36层 注意力头数量(GQA):Q 32 个,K 8 个 上下文长度:原生支持262,144 token,即 256k 从下图比较可得出,思考模式的 Qwen3-4B 性能接近于思考模式的 Qwen3-30B-A3B 模型。而非思考模式的 Qwen3-4B 性能接近于GPT-4.1-nano-2025-04-14。以下例子使用了非思考模式的 Qwen3-4B 模型。 1. Prompt:Space Invaders Game Implementation效果如下(生成的游戏画面不完整,但能射击也可以左右移动):2. Prompt:生成一只鹈鹕骑自行车的SVG图形Qwen3-4B,在小模型队伍里比较亮眼,256K的上下文,适合做翻译任务、tool call 和 RAG等。 |