DeepSeek开源DeepEP: 高效的专家并行通信库

显示全部楼层

DeepEP 是一个专为混合专家（Mixture-of-Experts, MoE）和专家并行（Expert Parallelism, EP）设计的通信库。它提供了高吞吐、低延迟的全交换（all-to-all）GPU核心（kernels），即MoE的调度（dispatch）与合并（combine）操作，并支持FP8等低精度运算。

为适配DeepSeek-V3论文中提出的组限门控（group-limited gating）算法，提供了一组针对非对称域带宽转发优化的核心，例如将数据从NVLink域转发至RDMA域。这些核心具有高吞吐特性，适用于训练和推理预填充（prefilling）任务，同时支持流多处理器（Streaming Multiprocessors, SM）数量调控。

针对延迟敏感的推理解码场景，DeepEP包含一组基于纯RDMA的低延迟核心，以最小化通信延迟。此外，该库还引入了基于钩子（hook）的通信-计算重叠方法，此方法无需占用任何SM资源。

DeepEP主要解决MoE模型在分布式训练和推理中的通信瓶颈问题，通过优化数据传输和资源调度，实现“降本增效”。

高效的全对全通信（All-to-All）：支持节点内（NVLink）和节点间（RDMA）的高带宽通信，优化数据在不同专家子网络间的快速交换。

动态资源调控：基于群组限制门控算法（group-limited gating），动态分配GPU计算单元（SM）数量，任务多时增加资源，任务少时降低功耗，减少资源浪费。支持低精度运算：原生支持FP8格式，减少内存占用并加速计算，适用于大规模分布式训练

性能

常规内核（支持NVLink与RDMA转发）

我们在H800（NVLink最大带宽约160 GB/s）上测试了常规内核的性能，每台设备均配备CX7 InfiniBand 400 Gb/s RDMA网卡（最大带宽约50 GB/s）。测试遵循DeepSeek-V3/R1的预训练配置（每批次4096个令牌，隐藏层维度7168，前4组选择，前8位专家激活，采用FP8调度与BF16合并）。

低延迟内核（纯RDMA支持）

我们在H800上测试了低延迟内核的性能，每台设备均配备CX7 InfiniBand 400 Gb/s RDMA网卡（最大带宽约50 GB/s）。测试遵循DeepSeek-V3/R1的典型生产环境配置（每批次128个令牌，隐藏层维度7168，前8位专家激活，采用FP8调度与BF16合并）。