链载Ai

标题: 硬核，DeepSeek拿下ACL 2025最佳论文，长文推理飙升11.6倍！ [打印本页]

作者: 链载Ai 时间: 昨天 21:52
标题: 硬核，DeepSeek拿下ACL 2025最佳论文，长文推理飙升11.6倍！

ACL 2025奖项揭晓，DeepSeek 和北大联合完成，梁文锋署名的NSA论文斩获了「最佳论文奖」：《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》

还有三篇论文也获得最佳论文，分别是：

Paper1：《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》

Paper2：《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

Paper3：《Language Models Resist Alignment: Evidence From Data Compression》

NSA 的架构包括三个部分：

刚刚，DeepSeek全新注意力机制NSA发布，超快速长文训练与推理~

压缩粗粒度token：通过将键和值聚合成块级表示，捕捉整个块的信息，减少注意力计算的负担。
选择性保留细粒度token：通过块选择机制，保留最相关的键和值，确保细粒度信息的保留。
滑动窗口：专门处理局部上下文信息，防止模型过度依赖局部模式，确保其他分支能够专注于学习全局信息。

在 64k 上下文长度下，NSA 的前向传播速度比 FlashAttention-2 快 9.0×，反向传播速度快 6.0×。
随着上下文长度的增加，NSA 的速度提升比逐渐增大，表明其在处理长序列时的效率优势更加明显。

在 64k 上下文长度下，全注意力模型需要访问 65536 个标记，而 NSA 只需要访问 5632 个标记，内存访问量减少了 11.6×（由于解码阶段的低算术强度和内存受限特性，预期的速度提升与内存访问量大致呈线性关系）。
随着上下文长度的增加，NSA 的内存访问量减少比逐渐增大，表明其在处理长序列时的效率优势更加明显。

最后，看一下第一作者来自哪里？冲~

https://arxiv.org/abs/2502.11089Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

推荐阅读

• Agents：Coze版‍" data-itemshowtype="0" linktype="text" data-linktype="2">动手设计AI Agents：（编排、记忆、插件、workflow、协作）

• 挑战Transformer，谷歌全新架构Mixture-of-Recursions推理速度飙升2倍
• OpenAI、谷歌、Anthropic等罕见联合发论文：Agentic AI系统安全的新技术！

• AI+OCR落地实战：9大行业案例+全景解决方案（附下载）

欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。

欢迎光临链载Ai (https://www.lianzai.com/)

Powered by Discuz! X3.5