返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Qwen3-4B:256K上下文,性能相当GPT-4.1-nano

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

阿里发布了 Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507。

这2款模型比3月前发布的Qwen3-4B 更智能、更敏锐、且支持 256K上下文!

🔹指令:提高一般技能、多语言覆盖和长程上下文指令的遵循。

🔹思考:逻辑、数学、科学和代码的高级推理,专为专家级任务而构建。

两种模型都更加一致、功能更强大、并且更能感知环境。

hf模型:

https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507

https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社区下载:

https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507

https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

模型概览

Qwen3-4B具有以下特点:

训练阶段:预训练、后训练

参数量:4B

非嵌入层参数量:3.6B

层数:36层

注意力头数量(GQA):Q 32 个,K 8 个

上下文长度:原生支持262,144 token,即 256k

基准评估
从下图比较可得出,思考模式的 Qwen3-4B 性能接近于思考模式的 Qwen3-30B-A3B 模型。
而非思考模式的 Qwen3-4B 性能接近于GPT-4.1-nano-2025-04-14。
图像
image/jpeg
例子

以下例子使用了非思考模式的 Qwen3-4B 模型。

1. Prompt:Space Invaders Game Implementation
效果如下(生成的游戏画面不完整,但能射击也可以左右移动):
2. Prompt:生成一只鹈鹕骑自行车的SVG图形
效果如下:
结语

Qwen3-4B,在小模型队伍里比较亮眼,256K的上下文,适合做翻译任务、tool call 和 RAG等。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ