Meta Rail-only，训练大模型的低成本高性能网络

显示全部楼层

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;letter-spacing: 0.5px;text-align: start;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-bottom: 0px;margin-top: 0px;">本次带来meta在hoti2024上关于rail-only低成本高性能网络分享，rail-only网络设计的亮点在于对LLMs训练通信模式的深入理解和优化，去除了传统Clos网络架构中spine交换机，仅保留leaf layer和连接GPU的轨道。该设计在保持训练效率的同时，降低了成本和功耗。同时这种设计也为超大集群中LLMs训练提供一种高效网络解决方案。

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);">

视频地址：

https://www.bilibili.com/video/BV1ompzeXEcx/

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;letter-spacing: 0.5px;text-align: start;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-bottom: 0px;margin-top: 0px;">

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;letter-spacing: 0.5px;text-align: center;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-bottom: 0px;margin-top: 0px;">摘要

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 0px;margin-top: 0px;white-space-collapse: preserve !important;word-break: break-word !important;">

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 0px;margin-top: 0px;white-space-collapse: preserve !important;word-break: break-word !important;">本文研究发现LLM训练通信模具有稀疏性特点，可以不需要全双向的完全网络来高效完成训练。基于此提出了rail-only的网络设计方案，它在保持与全双向带宽的any-to-any Clos网络相同训练性能的同时，将网络成本降低了38%至77%，网络功耗降低了37%至75%。对于需要all2all通信的MoE模型，rail-only互连仅增加了8.2%至11.2%的吞吐量开销。

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 0px;margin-top: 0px;white-space-collapse: preserve !important;word-break: break-word !important;">

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;letter-spacing: 0.5px;text-align: center;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-bottom: 0px;margin-top: 0px;">问题挑战

随着大模型的增长和摩尔定律放缓硬件性能的提升速度减慢，增加了对更高效网络设计和超大规模DC的需求。

当前基于Clos网络的架构（如常用的rail-optimized架构）提供any-to-any全连接，但由于LLM训练网络通信模式的稀疏性，即大部分GPU对之间不需要直接通信，这种通信模式与传统DC网络设计的any-to-any特性不匹配，导致资源利用不充分及大规模部署时的成本和功耗问题。

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;text-align: center;background-color: rgb(255, 255, 255);margin-bottom: 0px;margin-top: 0px;white-space-collapse: preserve !important;word-break: break-word !important;">HB域和NIC域

HB domain通常指的是一个局部的、高带宽的网络环境，其中包含若干GPU。这个域内的GPU通过专用高速网络互连技术（如NVIDIA的NVLink或AMD的Infinity Fabric）连接，以支持高数据传输速率。

通常具有高带宽、低延迟等特点。一般涉及大量的数据传输，如TP中的操作需要在参与同一并行任务的GPU之间快速同步数据。

NIC domain则是指跨越多个HB domains的更广泛的网络环境。在NIC域中不同的HB domains通过NIC接口+标准的网络技术（如以太网、InfiniBand等）连接。

通常具有良好的扩展性、网络负载拓扑灵活性及低成本效益等特点。一般需跨不同HB domain通信，如DP 和 PP操作等。

通信模式分析

采用和MegtronLM论文一致的并行策略及环形集合通信等对大模型训练流量模式做分析，发现并行策略导致的通信模式具有稀疏性的特点。

张量并行（TP）中的allgather和reducescatter通信：在参与张量并行的GPU内部发生，主要在HB域内。
数据并行（DP）中的allreduce通信：涉及所有GPU，但通信量相对较小，主要在NIC域内。
流水线并行（PP）中的p2p通信：通常在NIC域内，但可以通过优化保持在同一个轨道（rail）内。

通信量分布特点

TP产生的通信量占总传输数据的75%以上，且主要局限于HB域内。如图1
超过99%的GPU对不承载通信流量，而少数GPU对承载的通信量也非常小。如图2

NIC域内通信特点

在NIC域内，大多数通信发生在同一个轨道内的GPU对之间，而不是跨越不同的轨道。同时提出分层集体通信算法。

MoE模型的all2all通信

与传统LLMs不同，MoE模型需要每个expert与模型的其他部分进行通信，产生密集的通信模式。需要all2all通信的MoE模型中，通过适当的映射和转发策略，也可以将通信流量限制在HB域内。

Rail-only网络设计详细方案

这里Rail-轨道是指在具有同一个GPU ID的GPU集合。 K个rail也就表示1个HB域中几个GPU。

通过将相同ID的GPU连接到相同leaf交换机，Rail-only网络确保了这些GPU之间的最低延迟。

vs

注：这里rail交换机等同clos网络中的leaf交换机，具体拓扑上的差异参考PPT 5/17。

Rail-only网络设计

去除了传统Clos网络架构中spine交换机，仅保留leaf layer和连接GPU的轨道。结构上区别如上图所示，更多网络拓扑可参考分布式Infra中大模型高效训练综述一文，如下图所示。

路由策略

在Rail-only网络中，通过HB域转发数据来实现不同rail间的通信，这种转发策略虽增加了一定的带宽开销，但由于HB域的高带宽，这种开销对整体性能的影响很小。

故障容错

讨论了GPU平台异常及单GPU异常，在发生故障时，通过重新配置网络或迁移任务到健康的GPU来恢复服务。

性能评估

通过分析不同规模大小GPT模型，在不同GPU集群配置下的训练迭代时间，来评估rai-only网络性能，并使用硬件FLOPs利用率（HFU）指标验证准确性。如下图所示，对于GPT-1T模型rail-only网络的HFU与真实值的误差仅为1.8%。

最优HB域大小

分析了HB域大小对迭代时间的影响，发现随着HB域大小的增加，迭代时间减少。如GPT-1T模型在HB域大小为256时，与理想情况下的迭代时间差距仅为0.9%。

HB域大小和网络带宽影响

无论是增加HB（高带宽）域的带宽还是网络带宽，迭代时间都会减少。

当per-GPU的带宽从2.4 Tbps增加到9.6 Tbps时，对于K=8的配置，迭代时间平均改善了8.0%。对于K=256的配置，可以提高13.3%。
大的HB域对网络带宽的提升更为明显。将带宽从100 Gbps增加到400 Gbps，对于K=8的配置，可以带来35.9%的性能提升，但对于K=256的配置，提升仅为8.0%。

batch size对网络设计的影响

分析了不同batch size对迭代时间性能的影响。当batch size从256增加到4096时，K=256配置的相对性能从95%提高到99%。

成本和功耗分析

对比了Rail-only网络设计与传统Rail-optimized GPU集群在成本和功耗方面的差异。

对于32768个GPU的集群，Rail-only设计相比传统设计在成本上节省了38%至77%，在功耗上节省了37%至75%。
对于65536个GPU的集群，即使在spine交换机的 radix 为64，Rail-only设计也能实现与现有设计相当的性能，同时减少了成本和功耗。

会议分享PPT如下：