Qwen3-Max：阿里巴巴的万亿参数模型，真正意义上的“思考模式”来了

显示全部楼层

在过去两年，大模型的迭代节奏越来越快，从 GPT-4 到 Claude、Gemini，再到国内的百花齐放，大家早已见怪不怪。但就在 2025 年 9 月，阿里巴巴正式发布了Qwen3-Max——一个超过万亿参数（1T+）的Mixture-of-Experts（MoE）大模型。

与以往的“预览版”不同，这一次，阿里直接把它推向了生产级落地。不仅在Qwen Chat面向普通用户开放，还通过阿里云 Model Studio API提供开发者调用。这意味着，它已经不只是实验室里的新鲜玩具，而是真正能跑在业务里的“大模型引擎”。

今天，我们就来拆解一下：Qwen3-Max 到底带来了哪些突破？它和前一代相比，有什么质的变化？又为什么特别强调“思考模式（Thinking Mode）”？

一、规模与架构：从 360 亿 Token 到万亿参数的跨越

阿里官方明确表示，Qwen3-Max 是迄今为止最强大的 Qwen 模型，不仅在规模上跨过了 1T 参数大关，还采用了稀疏激活的 MoE 架构。

这里我们简单解释一下：

MoE（Mixture-of-Experts）就像一个大型团队，每个专家只在需要时被调用，避免所有人都同时上场，从而既保证模型容量，又控制计算成本。
Qwen3-Max 在训练时使用了36 万亿（36T）Token，大约是 Qwen2.5 的两倍。数据分布覆盖多语言、代码、STEM 学科与推理任务，明显针对企业级场景做了优化。

训练后，它还遵循了四阶段配方：

长链路推理冷启动（CoT cold-start）；
以推理为核心的强化学习（Reasoning RL）；
“思考模式”与“非思考模式”的融合训练；
通用领域的再强化（General RL）。

这套流程不仅是规模的堆砌，更是针对推理、编程和复杂任务定制的优化方案。

二、两种模式：Instruct 与 Thinking 的分工

Qwen3-Max 最大的亮点之一，就是明确区分了两条产品线：

Qwen3-Max-Instruct

对标传统 ChatGPT 类体验
主打聊天、代码生成、常规推理
追求低延迟、快速响应
Qwen3-Max-Thinking

面向复杂的“Agent” 类场景
支持多步推理、工具调用、长链路思考
适用于代码执行、搜索检索、任务规划

一个关键细节是：思考模式必须启用incremental_output=true的流式输出。如果开发者忘记设置这个参数，模型就不会进入真正的“深度思考”状态。这是阿里在 API 层面给出的明确契约，也避免了调用时的混乱。

换句话说：

Instruct模式像一个聪明的助手，反应快但不“深度纠结”；
Thinking模式则像一个团队智囊，需要多花点时间思考，但能把问题考虑得更透彻，甚至会主动调用工具解决难题。

三、性能实测：代码、Agent、数学全面升级

那么，这个“万亿参数 + 思考模式”的组合，实际表现如何？

1. 编程（SWE-Bench Verified）

Qwen3-Max-Instruct 在SWE-Bench Verified上拿到了69.6 分。

这一成绩超过了 DeepSeek V3.1（非思考模式）的基线；
略低于 Claude Opus 4（非思考模式）。

要知道，SWE-Bench 不只是写几行代码，而是要在真实的代码库环境里完成修复和提交。能在这里站稳脚跟，说明 Qwen3-Max 的代码推理和上下文理解能力，已经不输国际一线大模型。

2. 智能 Agent（Tau2-Bench）

在Tau2-Bench——一个专门评测工具调用与任务规划的基准上，Qwen3-Max 取得了74.8 分，领先于同类对手。

这背后的意义在于：

企业在搭建 AI Agent 时，不再需要写一堆“手工策略”；
模型本身已经学会了“什么时候该调用工具、调用哪个工具”。

对于想要部署 AI 客服、自动化运维、企业知识库的团队来说，这是一大好消息。

3. 数学与推理（AIME25 等）

Qwen3-Max-Thinking 模式在AIME25等数学基准上，几乎达到了“接近满分”的表现。

虽然这些结果目前大多是厂商披露或社区复现，还没有完整的技术报告支撑，但至少表明：通过延长推理链路 + 工具辅助，复杂任务的可解性显著提升。

四、如何看待这些提升？

从企业应用的角度，我们可以把 Qwen3-Max 的进步总结为三点：

代码层面： SWE-Bench 的提升，意味着它不仅能写“Demo 代码”，还能真正改动大型仓库，支持生产级代码辅助。
Agent 层面： Tau2-Bench 的成绩，意味着它能更好地替代“人工脚本”，让 AI 自己学会判断和选择。
推理层面：数学任务的突破说明，长链路推理 + 工具调用的结合，是未来大模型的必经之路。

换句话说，Qwen3-Max 的价值不在于简单对话，而在于它能直接作为“企业 AI 中台”的核心引擎。

五、实用示例：如何调用 Qwen3-Max？

阿里云开放的 API 已经支持开发者调用，我们来看一个 Python 示例：

fromopenaiimportOpenAI
importos

client = OpenAI(
  api_key=os.getenv("API_KEY"),
  base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
  model="qwen3-max",
  messages=[
   {'role':'user','content':'Give me a short introduction to large language model.'}
  ]
)

print(completion.choices[0].message)

如果你要开启“思考模式”，只需要在调用时添加：

completion = client.chat.completions.create(
  model="qwen3-max-thinking",
  messages=[ ... ],
  incremental_output=True
)

注意：

qwen3-max-instruct与qwen3-max-thinking是不同的模型名；
思考模式必须启用流式输出，否则无法进入长链路推理。

六、未来展望：阿里的大模型战役

Qwen3-Max 的发布，至少释放了三个信号：

国内厂商已经能量产万亿参数模型，并不再停留在“实验室阶段”；
思考模式将成为大模型的必备特性，未来更多 Agent 应用都会依赖这种长链路推理；
开放生态正在形成：从 Qwen Chat 到 Model Studio API，阿里在积极吸引开发者加入。

对于企业来说，现在正是尝试的最佳时机。无论是代码自动化、Agent 智能体，还是数学推理、知识库问答，Qwen3-Max 都提供了一个高性能的起点。

结语

过去我们说大模型像“万能的聪明助手”，而 Qwen3-Max 的思考模式，更像是一个会反复推敲、会自己动手找工具的“超级智囊”。

它的价值，不仅仅在于分数和参数，而在于能否成为企业真实场景中的可靠底座。

阿里已经迈出了第一步，接下来，就看开发者和企业如何把这台“万亿级引擎”跑起来。