链载Ai

标题: DeepSeek开源第四弹放大招:一口气放出并行计算优化三剑客「训练速度,GPU利用,优化经验」 [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: DeepSeek开源第四弹放大招:一口气放出并行计算优化三剑客「训练速度,GPU利用,优化经验」


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">DeepSeek 开源周第四天放大招,推出并行计算优化三剑客,直接放出了DeepSeek-V3和R1模型背后的并行计算优化技术,一口气带来了三个宝藏项目!

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">三个项目,简单来说分别对应:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">✅ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">DualPipe- 双向流水线并行算法,让计算和通信高效协同
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">EPLB- 专家并行负载均衡器,让每个 GPU 都“雨露均沾”
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">profile-data- 性能分析数据,深入剖析 V3/R1 的并行奥秘

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这三个项目个个都是硬核技术,每一个都直击大模型训练和推理的效率痛点!下面带大家逐个解读


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">DualPipe:双向流水线并行算法

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">项目地址:https://github.com/deepseek-ai/DualPipe

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">DualPipe是 DeepSeek-AI 在DeepSeek-V3 技术报告中提出的创新双向流水线并行算法。它厉害在哪呢?

看看官方提供的Schedules图,简直是艺术! ? 清晰展示了 8 个 PP ranks 和 20 个 micro-batches 的调度策略,前向和后向计算对称进行,重叠区域一目了然!

再看看Pipeline Bubbles and Memory Usage Comparison表格,DualPipe 对比 1F1B 和 ZB1P,在减少 bubbles 的同时,内存效率也杠杠的!

如果你想在自己的项目中用上 DualPipe,DeepSeek-AI 也贴心地提供了Quick Start指南和example.py示例代码。 基于 PyTorch 2.0+ 版本就能轻松上手!


EPLB:专家并行负载均衡,让 GPU 各司其职!

项目地址:https://github.com/deepseek-ai/eplb

EPLB(Expert Parallelism Load Balancer) 顾名思义,是为专家并行 (Expert Parallelism, EP)量身打造的负载均衡利器!

在 EP 中,不同的专家模型会被分配到不同的 GPU 上。 但是,专家模型的负载可能会随着输入数据变化而波动,导致 GPU 负载不均,影响整体效率。 EPLB 就是来解决这个问题的!

DeepSeek-V3 采用了冗余专家 (redundant experts)策略,复制重负载专家,并巧妙地将它们分配到不同的 GPU 上,实现负载均衡。 同时,结合group-limited expert routing技术,尽量将同一组的专家放在同一节点上,减少跨节点通信

EPLB 提供了两种负载均衡策略:

项目提供了详细的Interface and Example, 让你轻松理解如何使用eplb.rebalance_experts函数,根据专家权重、副本数、组数、节点数和 GPU 数,计算出最优的专家复制和放置方案。 还有生动的placement plan图示,一目了然!


? profile-data:性能分析数据,揭秘 V3/R1 并行策略!

项目地址:https://github.com/deepseek-ai/profile-data

DeepSeek直接公开了他们的训练 (Training)推理 (Inference)框架的性能分析数据! 简直是手把手教你学优化!

这些数据是用PyTorch Profiler采集的,下载后可以直接在 Chrome 或 Edge 浏览器中通过chrome://tracingedge://tracing打开,可视化分析! DeepSeek-AI 还贴心地模拟了绝对平衡的 MoE 路由策略用于性能分析

项目提供了 Training, Prefilling 和 Decoding 三种场景的性能数据:

通过这些性能数据,你可以清晰地看到 DeepSeek-AI 是如何精细地优化计算和通信的,学习他们是如何在 low-level 实现上提升效率的。 绝对是研究大模型并行计算的宝贵资料! ?


写在最后:

这次 DeepSeek AI 开源的这三个项目,可以说是诚意满满,直接把大模型训练和推理的效率优化秘籍都拿出来了!利好AI研究人员

求赞??






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5