返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

硬核,DeepSeek拿下ACL 2025最佳论文,长文推理飙升11.6倍!

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 21:52 |阅读模式 打印 上一主题 下一主题
ACL 2025奖项揭晓,DeepSeek 和北大联合完成,梁文锋署名的NSA论文斩获了「最佳论文奖」:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》
还有三篇论文也获得最佳论文,分别是:
Paper1: 《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》

Paper2: 《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》
Paper3: 《Language Models Resist Alignment: Evidence From Data Compression》

NSA 的架构包括三个部分:

刚刚,DeepSeek全新注意力机制NSA发布,超快速长文训练与推理~

  • 压缩粗粒度token:通过将键和值聚合成块级表示,捕捉整个块的信息,减少注意力计算的负担。

  • 选择性保留细粒度token:通过块选择机制,保留最相关的键和值,确保细粒度信息的保留。

  • 滑动窗口:专门处理局部上下文信息,防止模型过度依赖局部模式,确保其他分支能够专注于学习全局信息。

图片

  • 在 64k 上下文长度下,NSA 的前向传播速度比 FlashAttention-2 快 9.0×,反向传播速度快 6.0×

  • 随着上下文长度的增加,NSA 的速度提升比逐渐增大,表明其在处理长序列时的效率优势更加明显。


图片
  • 在 64k 上下文长度下,全注意力模型需要访问 65536 个标记,而 NSA 只需要访问 5632 个标记,内存访问量减少了 11.6×(由于解码阶段的低算术强度和内存受限特性,预期的速度提升与内存访问量大致呈线性关系)

  • 随着上下文长度的增加,NSA 的内存访问量减少比逐渐增大,表明其在处理长序列时的效率优势更加明显。


图片

最后,看一下第一作者来自哪里?冲~
图片
https://arxiv.org/abs/2502.11089Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

推荐阅读

    •    •  Agents:Coze版‍" data-itemshowtype="0" linktype="text" data-linktype="2">动手设计AI Agents:(编排、记忆、插件、workflow、协作)

      • • 挑战Transformer,谷歌全新架构Mixture-of-Recursions推理速度飙升2倍

      • • OpenAI、谷歌、Anthropic等罕见联合发论文:Agentic AI系统安全的新技术!

        • AI+OCR落地实战:9大行业案例+全景解决方案(附下载)


    欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
    • 官方手机版

    • 微信公众号

    • 商务合作

    • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
    • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ