链载Ai

标题: DeepSeek-V3.2-Exp开源,附论文细节解读! [打印本页]

作者: 链载Ai    时间: 昨天 22:23
标题: DeepSeek-V3.2-Exp开源,附论文细节解读!


卷起来,DeepSeek又开源了,这次是V3.2-Exp,提出了DSA(DeepSeek Sparse Attention),DeepSeek稀疏注意力。

DSA核心由一个快速索引器和 一个细粒度的Token选择器组成,

快速索引器,是计算query token与前置 token之间的索引分数,来决定选择query token中的重要token:

其中:

出于吞吐量的考虑,选择 ReLU 作为激活函数,同时快速索引器的head数量少,同时可以用 FP8 实现,计算效率非常高。

细粒度的Token选择器,就是对每个query token的索引分数集合,选择 top-k 索引分数的,再用这些稀疏选择的与query token之间计算注意力输出:

说白了,就是不是让每个词关注所有词,而是只挑选最重要的那几个。计算复杂度栋变成了,其中k<<L。

然后DeepSeek-V3.2-Exp是基于 DeepSeek-V3.1-Terminus增量预训练的,分为4个步骤,

在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。

但成本猛降,输出价格直接降了75%,太nb了。

Paper:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

HF:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

最后想说,算子优化是基于TileLang进行开发的,当然也支持了CUDA。

PS:TileLang是由Tile-AI社区发起,核心目标是提升 AI kernel 编程的效率。它通过将 调度空间 与 数据流 解耦,并封装成一套可自定义的注解和原语,使得开发者能够专注于 kernel 的数据流逻辑,而将大部分优化任务交给编译器自动完成。

最后,想说,国货之光,十一都卷起来吧~






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5