返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

从DSA到Engram,一年来DeepSeek层层勾勒V4架构创新

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 17:13 |阅读模式 打印 上一主题 下一主题


随着开年DeepSeek加快了技术分享的节奏,市场再次期待DeepSeek-V4的横空出世。不少人推测,它可能会在春节前后亮相。但与推出的时间相比,更大的悬念是,它将以何种程度的创新,将中国与美国在前沿模型的差距缩短到什么程度?它是否会基于中国的算力基础设施来实现这一跨越。


全球对前沿模型的探索,仍在寻找下一条行之有效的扩展路径。DeepSeek也是如此。长期以来,它对此的探索主线,一直都是如何在有限的资源下通过架构创新,最大程度上地提升训练与推理的效率。这既是一个数学问题,也是一个工程问题。


过往论文正在揭示它的大致模样。从V3到V3.1再到V3.2,DeepSeek先后尝试了UE8M0 FP8、DSA、上下文光学压缩、mHC与Engram。它们的核心思路之一就是“稀疏化”,让“专家”、“精度”、“注意力”与“记忆”变得更为稀疏。法国AI研究实验室Pleias联合创始人Alexander Doria认为,DeepSeek-V4将是死磕“层效率”的典范,让每一层神经网络在架构中发挥最大的效率。


DeepSeek最新的尝试是Engram。它所要解决的正是“记忆”负担的稀疏化,以推动模型规模继续扩展。标准的Transformer架构缺乏原生的“记忆能力”,它根据概率预测下一个token,根据全局上下文进行复杂推理,消耗了多个早期注意力层和前馈网络,浪费宝贵的资源去计算那些原本只需要简单检索的东西。



如果说MoE是“条件计算”,通过路由器选择稀疏性的激活少数几个专家,在不显著增加计算成本的前提下,大幅增加模型规模;那么,Engram就是“条件记忆”,通过稀疏查表操作,为固定知识检索静态嵌入。DeepSeek的论文将MoE与Engram称为“互补性稀疏维度”。


在Engram的帮助下,那些频繁访问的内容,可以缓存在HBM等更快的存储层级中,而长尾的低频内容则可以存放在SSD等速度较慢但容量更大的介质中。不过,与以往的RAG不同,Engram仍然是模型内部的参数化记忆,它必须参与预训练,并直接集成到模型层中。当将1000亿参数的Engram表,完全卸载到DRAM等内存中,端到端吞吐量下降不到3%。


于是,“内存”与“计算”解耦了。而且这卓有成效。DeepSeek团队发现,当大约20%至25%的参数预算分配给Engram时,模型性能最佳。在相同的激活参数与训练token数量等条件下,Engram-27B的整体性能就要明显优于纯粹的稀疏模型MoE-27B。


而且,研发团队还发现,由于将大量计算资源“让”给了复杂推理,它不仅在知识密集型任务上表现出色,而且在通用推理能力以及代码与数学推理任务上同样表现出色。同时,它释放了注意力机制的容量,也提升了长上下文检索能力。或许,法律、金融与医疗等“记忆密集”的垂直领域,将迎来更少幻觉与更强推理的模型应用。


文本

AI 生成的内容可能不正确。


这对于国产算力基础设施而言,也是一个好消息。Engram有效绕过了GPU的HBM限制,为激进的参数扩展铺平了道路。论文最后写道,“条件记忆将成为下一代稀疏大模型中不可或缺的基础建模范式”。


这已经不是DeepSeek第一次在论文中勾勒下一代模型的设计蓝图。几乎其所有研究工作,都围绕着架构层面的创新展开。许多问题也许早已被其他AI实验室提出,甚至被反复尝试却无疾而终,而DeepSeek选择将这些被搁置的方向重新拾起,在工程与数学层面加以重构与优化,借此持续缩小与美国前沿模型之间的差距。这些探索共同指向的是稳定而有效扩展的模型架构的实现路径。


最近的一次是跨年期间发布的流形约束超连接(mHC)。尽管超级连接(Hyper-Connections)可以为大模型训练带来非常快的收敛速度,某些设置下提升接近80%。但它缺乏扩展的稳定性,模型越大、层数越多,问题越严重。mHC可以确保每一层的计算仍然能稳定地转化为有效表示。DeepSeek在论文中写道,它“为大模型基础架构的演进指明有前景的方向”。


再一次则是去年10月,DeepSeek提出了DeepSeek-OCR模型,概念核心是“上下文光学压缩”(Context Optical Compression),显著提高了信息密度与计算效率,当时团队就思考过通过逐级压缩信息,直至边际遗忘,或内化为更深层的表征。在论文的最后,DeepSeek团队致辞说,这一思路“为构建一种理论上无限上下文长度的模型架构(unlimited context architectures)提供了新的可能”。


早更一点,DeepSeek-V3.2-Exp最核心的实验则是引入了名为DSA的新架构,这是探索细粒度稀疏机制,成本更低的同时几乎不影响模型的输出效果。DeepSeek官方将DSA称为迈向下一代架构的“中间步骤”。这似乎在暗示下一次更新可能直接出现在V4上。


要真正追平乃至超越Gemini-3,DeepSeek仍然需要提升模型的多模态能力。代码与数学,多模态与自然语言本身,三者正是DeepSeek创始人梁文锋押注的三个方向。在上一个跨年之交发布统一多模态理解与生成的自回归框架Janus后,DeepSeek在这领域鲜少动作,它会成为下一代核心模型的一部分吗?

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ