链载Ai

标题: Qwen3-4B:256K上下文,性能相当GPT-4.1-nano [打印本页]

作者: 链载Ai    时间: 昨天 22:03
标题: Qwen3-4B:256K上下文,性能相当GPT-4.1-nano

阿里发布了 Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507。

这2款模型比3月前发布的Qwen3-4B 更智能、更敏锐、且支持 256K上下文!

🔹指令:提高一般技能、多语言覆盖和长程上下文指令的遵循。

🔹思考:逻辑、数学、科学和代码的高级推理,专为专家级任务而构建。

两种模型都更加一致、功能更强大、并且更能感知环境。

hf模型:

https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507

https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社区下载:

https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507

https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

模型概览

Qwen3-4B具有以下特点:

训练阶段:预训练、后训练

参数量:4B

非嵌入层参数量:3.6B

层数:36层

注意力头数量(GQA):Q 32 个,K 8 个

上下文长度:原生支持262,144 token,即 256k

基准评估
从下图比较可得出,思考模式的 Qwen3-4B 性能接近于思考模式的 Qwen3-30B-A3B 模型。
而非思考模式的 Qwen3-4B 性能接近于GPT-4.1-nano-2025-04-14。
图像
image/jpeg
例子

以下例子使用了非思考模式的 Qwen3-4B 模型。

1. Prompt:Space Invaders Game Implementation
效果如下(生成的游戏画面不完整,但能射击也可以左右移动):
2. Prompt:生成一只鹈鹕骑自行车的SVG图形
效果如下:
结语

Qwen3-4B,在小模型队伍里比较亮眼,256K的上下文,适合做翻译任务、tool call 和 RAG等。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5