返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

DeepSeek-V3.2-Exp开源,附论文细节解读!

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 22:23 |阅读模式 打印 上一主题 下一主题


卷起来,DeepSeek又开源了,这次是V3.2-Exp,提出了DSA(DeepSeek Sparse Attention),DeepSeek稀疏注意力。

DSA核心由一个快速索引器和 一个细粒度的Token选择器组成,

快速索引器,是计算query token与前置 token之间的索引分数,来决定选择query token中的重要token:

其中:

  • 表示索引器的 head 数量;
  • 和来自query token;
  • 来自前置 token

出于吞吐量的考虑,选择 ReLU 作为激活函数,同时快速索引器的head数量少,同时可以用 FP8 实现,计算效率非常高。

细粒度的Token选择器,就是对每个query token的索引分数集合,选择 top-k 索引分数的,再用这些稀疏选择的与query token之间计算注意力输出:

说白了,就是不是让每个词关注所有词,而是只挑选最重要的那几个。计算复杂度栋变成了,其中k<<L。

然后DeepSeek-V3.2-Exp是基于 DeepSeek-V3.1-Terminus增量预训练的,分为4个步骤,

  • Dense热身增量预训练,初始化索引器参数,采用Dense注意力,然后冻结除索引器外的所有模型参数,用2.1B Tokens数据,训练1000步,每步Batch 16,上下文长度 128K

  • Sparse增量预训练,引入细粒度 token 选择器,训练所有参数,用943.7B Tokens,训练15000步,每步Batch 480,上下文长度128K

  • 专家蒸馏训练,先对DeepSeek-V3.2在不同专业领域上训练不同的专家(数学、竞赛编程、通用推理、Agentic coding、agentic search、写作、通用问答)模型,专家模型训练用RL,得到专家模型后,进行数据蒸馏,得到不同任务上的数据,再用这些数据SFT模型

  • RL训练,依旧采用GRPO算法,从多阶段 RL 的做法,改成单一阶段RL,将推理、Agent、人类偏好一起训练,避免灾难性遗忘。

在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。

但成本猛降,输出价格直接降了75%,太nb了。

Paper:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

HF:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

最后想说,算子优化是基于TileLang进行开发的,当然也支持了CUDA。

PS:TileLang是由Tile-AI社区发起,核心目标是提升 AI kernel 编程的效率。它通过将 调度空间 与 数据流 解耦,并封装成一套可自定义的注解和原语,使得开发者能够专注于 kernel 的数据流逻辑,而将大部分优化任务交给编译器自动完成。

最后,想说,国货之光,十一都卷起来吧~

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ