硬核，DeepSeek拿下ACL 2025最佳论文，长文推理飙升11.6倍！

显示全部楼层

ACL 2025奖项揭晓，DeepSeek 和北大联合完成，梁文锋署名的NSA论文斩获了「最佳论文奖」：《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》

还有三篇论文也获得最佳论文，分别是：

Paper1：《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》

Paper2：《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

Paper3：《Language Models Resist Alignment: Evidence From Data Compression》

NSA 的架构包括三个部分：

刚刚，DeepSeek全新注意力机制NSA发布，超快速长文训练与推理~

在 64k 上下文长度下，全注意力模型需要访问 65536 个标记，而 NSA 只需要访问 5632 个标记，内存访问量减少了 11.6×（由于解码阶段的低算术强度和内存受限特性，预期的速度提升与内存访问量大致呈线性关系）。
随着上下文长度的增加，NSA 的内存访问量减少比逐渐增大，表明其在处理长序列时的效率优势更加明显。

最后，看一下第一作者来自哪里？冲~

https://arxiv.org/abs/2502.11089Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention