DeepSeek-V3.2-Exp开源，附论文细节解读！

显示全部楼层

卷起来，DeepSeek又开源了，这次是V3.2-Exp，提出了DSA（DeepSeek Sparse Attention），DeepSeek稀疏注意力。

DSA核心由一个快速索引器和一个细粒度的Token选择器组成，

快速索引器，是计算query token与前置 token之间的索引分数，来决定选择query token中的重要token：

其中：

出于吞吐量的考虑，选择 ReLU 作为激活函数，同时快速索引器的head数量少，同时可以用 FP8 实现，计算效率非常高。

细粒度的Token选择器，就是对每个query token的索引分数集合，选择 top-k 索引分数的，再用这些稀疏选择的与query token之间计算注意力输出：

说白了，就是不是让每个词关注所有词，而是只挑选最重要的那几个。计算复杂度栋变成了，其中k<<L。

然后DeepSeek-V3.2-Exp是基于 DeepSeek-V3.1-Terminus增量预训练的，分为4个步骤，

Dense热身增量预训练，初始化索引器参数，采用Dense注意力，然后冻结除索引器外的所有模型参数，用2.1B Tokens数据，训练1000步，每步Batch 16，上下文长度 128K
Sparse增量预训练，引入细粒度 token 选择器，训练所有参数，用943.7B Tokens，训练15000步，每步Batch 480，上下文长度128K
专家蒸馏训练，先对DeepSeek-V3.2在不同专业领域上训练不同的专家（数学、竞赛编程、通用推理、Agentic coding、agentic search、写作、通用问答）模型，专家模型训练用RL，得到专家模型后，进行数据蒸馏，得到不同任务上的数据，再用这些数据SFT模型
RL训练，依旧采用GRPO算法，从多阶段 RL 的做法，改成单一阶段RL，将推理、Agent、人类偏好一起训练，避免灾难性遗忘。

在各领域的公开评测集上，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。

但成本猛降，输出价格直接降了75%，太nb了。

Paper：https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

HF：https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

最后想说，算子优化是基于TileLang进行开发的，当然也支持了CUDA。

PS：TileLang是由Tile-AI社区发起，核心目标是提升 AI kernel 编程的效率。它通过将调度空间与数据流解耦，并封装成一套可自定义的注解和原语，使得开发者能够专注于 kernel 的数据流逻辑，而将大部分优化任务交给编译器自动完成。

最后，想说，国货之光，十一都卷起来吧~