返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

qwen3 系列模型发布,深度思考,快速响应

[复制链接]
链载Ai 显示全部楼层 发表于 9 小时前 |阅读模式 打印 上一主题 下一主题


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(250, 81, 81);">qwen3

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">概览

    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;color: rgb(63, 63, 63);" class="list-paddingleft-1">
  1. ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
    1. 分为密集模型架构 (0.6B/1.7B/4B/8B/14B/32B) 和混合专家架构 (30B-A3B/235B-A22B)
  2. ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
    2. 混合思维模式:支持开启/关闭推理能力即ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;text-align: left;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">思考模式ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;text-align: left;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">非思考模式,使用户能够根据具体任务控制模型进行ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;text-align: left;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">思考的程度
  3. ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
    3. 多语言能力:119 种语言和方言
  4. ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
    4. 增强 Agent 能力:优化 Qwen3 模型的 Agent 和 代码能力,同时加强对 MCP 的支持

架构

密集模型

Models
Layers
Heads (Q / KV)
Tie Embedding
Context Length
Qwen3-0.6B
28
16 / 8
Yes
32K
Qwen3-1.7B
28
16 / 8
Yes
32K
Qwen3-4B
36
32 / 8
Yes
32K
Qwen3-8B
36
32 / 8
No
128K
Qwen3-14B
40
40 / 8
No
128K
Qwen3-32B
64
64 / 8
No
128K

MoE 模型

Models
Layers
Heads (Q / KV)
# Experts (Total / Activated)
Context Length
Qwen3-30B-A3B
48
32 / 4
128 / 8
128K
Qwen3-235B-A22B
94
64 / 4
128 / 8
128K

基准测试

从官方公布的基准测试看,

旗舰模型Qwen3-235B-A22B代码数学通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。此外,小型 MoE 模型Qwen3-30B-A3B的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

训练

Qwen3 使用约 36 万亿 Token,在预训练阶段分为 3 步:

  1. 1. 模型在超过 30 万亿个 token 上进行了预训练,上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识
  2. 2. 增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的 5 万亿个 token 上进行了预训练
  3. 3. 使用高质量的长上下文数据将上下文长度扩展到 32K token

在后训练分为 4 步

  1. 1. 长思维链冷启动:使用多样的的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域。这一过程旨在为模型配备基本的推理能力
  2. 2. 长思维链强化学习:重点在大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力
  3. 3. 思维模式融合:将非思考模式整合到思考模型中
  4. 4. 通用强化学习:在 20 多个通用领域的任务上应用了强化学习,以进一步增强模型的通用能力并纠正不良行为

使用 qwen3

升级 Ollama

qwen3 模型需要 ollama v0.6.6 或更高版本,先把 Linux 上的 ollama 升级到 v0.6.6:

wget https://github.com/ollama/ollama/releases/download/v0.6.6/ollama-linux-amd64.tgz
sudo systemctl stop ollama
sudo rm -rf /usr/lib/ollama
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
sudo systemctl start ollama

升级完后,下载qwen3:8b模型,大小在 5.2G

$ollama pull qwen3:8b
pulling manifest
pulling a3de86cd1c13: 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 5.2 GB
pulling eb4402837c78: 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 1.5 KB
pulling d18a5cc71b84: 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 11 KB
pulling cff3f395ef37: 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 120 B
pulling 05a61d37b084: 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 487 B
verifying sha256 digest
writing manifest
success

配置好模型后,在 LobeChat 中使用qwen3:8b看下实际效果:

在内容分类方面,DeepSeek-R1:14B 和 qwen3:8b 旗鼓相当。

在内容分类方面,DeepSeek-R1:14B 吊打 qwen3:8b。

总的来说各有千秋,要根据实际效果选择模型。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ