返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

DeepSeek开源DeepEP: 高效的专家并行通信库

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

DeepEP 是一个专为混合专家(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它提供了高吞吐、低延迟的全交换(all-to-all)GPU核心(kernels),即MoE的调度(dispatch)与合并(combine)操作,并支持FP8等低精度运算。

为适配DeepSeek-V3论文中提出的组限门控(group-limited gating)算法,提供了一组针对非对称域带宽转发优化的核心,例如将数据从NVLink域转发至RDMA域。这些核心具有高吞吐特性,适用于训练和推理预填充(prefilling)任务,同时支持流多处理器(Streaming Multiprocessors, SM)数量调控。

针对延迟敏感的推理解码场景,DeepEP包含一组基于纯RDMA的低延迟核心,以最小化通信延迟。此外,该库还引入了基于钩子(hook)的通信-计算重叠方法,此方法无需占用任何SM资源。

DeepEP主要解决MoE模型在分布式训练和推理中的通信瓶颈问题,通过优化数据传输和资源调度,实现“降本增效”。

高效的全对全通信(All-to-All):支持节点内(NVLink)和节点间(RDMA)的高带宽通信,优化数据在不同专家子网络间的快速交换。

动态资源调控:基于群组限制门控算法(group-limited gating),动态分配GPU计算单元(SM)数量,任务多时增加资源,任务少时降低功耗,减少资源浪费。支持低精度运算:原生支持FP8格式,减少内存占用并加速计算,适用于大规模分布式训练


性能
常规内核(支持NVLink与RDMA转发)
我们在H800(NVLink最大带宽约160 GB/s)上测试了常规内核的性能,每台设备均配备CX7 InfiniBand 400 Gb/s RDMA网卡(最大带宽约50 GB/s)。测试遵循DeepSeek-V3/R1的预训练配置(每批次4096个令牌,隐藏层维度7168,前4组选择,前8位专家激活,采用FP8调度与BF16合并)。
低延迟内核(纯RDMA支持)
我们在H800上测试了低延迟内核的性能,每台设备均配备CX7 InfiniBand 400 Gb/s RDMA网卡(最大带宽约50 GB/s)。测试遵循DeepSeek-V3/R1的典型生产环境配置(每批次128个令牌,隐藏层维度7168,前8位专家激活,采用FP8调度与BF16合并)。

normal


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ