Qwen3-4B：256K上下文，性能相当GPT-4.1-nano

显示全部楼层

阿里发布了 Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507。

这2款模型比3月前发布的Qwen3-4B 更智能、更敏锐、且支持 256K上下文！

🔹指令：提高一般技能、多语言覆盖和长程上下文指令的遵循。

🔹思考：逻辑、数学、科学和代码的高级推理，专为专家级任务而构建。

两种模型都更加一致、功能更强大、并且更能感知环境。

hf模型：

https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507

https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社区下载：

https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507

https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

模型概览

Qwen3-4B具有以下特点：

训练阶段：预训练、后训练

参数量：4B

非嵌入层参数量：3.6B

层数：36层

注意力头数量（GQA）：Q 32 个，K 8 个

上下文长度：原生支持262,144 token，即 256k

基准评估

从下图比较可得出，思考模式的 Qwen3-4B 性能接近于思考模式的 Qwen3-30B-A3B 模型。

而非思考模式的 Qwen3-4B 性能接近于GPT-4.1-nano-2025-04-14。

例子

以下例子使用了非思考模式的 Qwen3-4B 模型。

1. Prompt：Space Invaders Game Implementation

效果如下（生成的游戏画面不完整，但能射击也可以左右移动）：

2. Prompt：生成一只鹈鹕骑自行车的SVG图形

效果如下：

结语

Qwen3-4B，在小模型队伍里比较亮眼，256K的上下文，适合做翻译任务、tool call 和 RAG等。