|
ACL 2025奖项揭晓,DeepSeek 和北大联合完成,梁文锋署名的NSA论文斩获了「最佳论文奖」:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》Paper1: 《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》Paper2: 《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》Paper3: 《Language Models Resist Alignment: Evidence From Data Compression》 NSA 的架构包括三个部分:
刚刚,DeepSeek全新注意力机制NSA发布,超快速长文训练与推理~
压缩粗粒度token:通过将键和值聚合成块级表示,捕捉整个块的信息,减少注意力计算的负担。
选择性保留细粒度token:通过块选择机制,保留最相关的键和值,确保细粒度信息的保留。
滑动窗口:专门处理局部上下文信息,防止模型过度依赖局部模式,确保其他分支能够专注于学习全局信息。
https://arxiv.org/abs/2502.11089Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
推荐阅读
• 挑战Transformer,谷歌全新架构Mixture-of-Recursions推理速度飙升2倍
-
• OpenAI、谷歌、Anthropic等罕见联合发论文:Agentic AI系统安全的新技术!
• AI+OCR落地实战:9大行业案例+全景解决方案(附下载)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
|