链载Ai

标题: Azure 最新AI基础设施 [打印本页]

作者: 链载Ai    时间: 昨天 11:52
标题: Azure 最新AI基础设施

微软在MicrosoftIgnite2024大会上,发布了云和AI基础设施的重大更新,包括从芯片、软件 、服务器和机架液冷,再到新的数据集成,以及更灵活的云端部署等整体技术栈。本文重点介绍Azure Boost DPU、液冷机架、Azure ND GB200 v6虚机、基于CPU的Azure HBv5虚机、Azure Cobalt 100 CPU虚机、Azure Maia 100 AI加速器、Azure 集成HSM(硬件级安全模块)等内容。


文章较长,为方便快捷阅读,整体目录如下。

Azure Boost DPU

Azure ND GB200 v6虚机及机架

针对HPC优化基于CPU的Azure HBv5虚机

云上通用计算AzureCobalt 100 CPU虚机

Azure Maia 100 AI加速器

Azure 集成HSM(硬件级安全模块)



Azure Boost DPU


DPU的设计以满足以数据为中心处理器架构需求,针对性的做了优化,关于DPU和数据中心可参考前文基于BlueField DPU的高性能数据中心存储。



Azure Boost DPU作为Microsoft的第一个内部 DPU,专为Azure基础设施构建,旨在以高效率和低功耗运行Azure上的工作负载。



Azure ND GB200 v6虚机和机架


前文分享过NVL72机架设计及AzureBlackwellGPU服务器,但Azure上具体的细节则在本文给出。


这两年虚机经过了从去年的NC H100 V5到今年10月的ND H200 V5,再到当前的ND GB200 v6系列的迭代,该VM将NVIDIA GB200 NVL 72机架设计与最新Quantum InfiniBand相结合,可连接万级Blackwell GPU。



该虚机包含2个NVIDIA GB200 Grace Blackwell超级芯片,每个芯片包含了1个Grace CPU和2个Blackwell GPU,两者通过nvlink-c2c互联。同时还包含1个boost DPU,1个集成HSM。


VM可通过nvlink交换机托盘扩展18个计算服务器,这表示单个nvlink域中最多可支持72 = 18 * 2 * 2个Blackwell GPU。VM间通过最新Quantum Infiniband连接,可scale-out到万级GPU集群。



更多性能数据可先参考10月的ND H200 v5虚机数据,该虚机比上一代ND H100 v5,HBM增加76%达到141GB,HBM带宽增加43%达到4.8TB/s,同时OpenAI以使用ND H200 v5虚机来则增强ChatGPT。


ND H200 v5在 MLPerf上的训练延迟基准数据如下图所示,右侧红色表示训练延迟。主要对比azure平台的ND H200 v5与Nvidia DGX H200及DGX B200。


(来源:https://mlcommons.org/benchmarks/training/)


机架方面采用sidekick设计(下文的Maia机架设计类似),在GB200机架旁边放一个液冷sidekick机架,冷却液通过芯片冷板上通道循环流动,进行热量吸收和传输。同时与meta合作开发了分离式电源机架设计,提高灵活和扩展性。还配备400V直流电,可增加35%的AI加速器以满足不同AI负载需求。




针对HPC优化基于CPU的AzureHBv5虚机


该虚机针内存密集型HPC负载进行优化,包含4个定制的第4代EPYC™处理器。更多EPYC介绍可参考前文,AMD最新AI端到端基础设施。




每个HBv5虚机特性包括:




云上通用计算AzureCobalt 100 CPU虚机


Cobalt CPU基于64位Arm架构,专为Microsoft云上通用计算任务而定制,旨在优化整个数据中心的每瓦性能 。基于 Cobalt 100 的 VM 包括新的通用 Dpsv6 系列和 Dplsv6 系列,以及内存优化过的Epsv6 系列。相较于上一代基于Arm的VM,这些虚机性价比最高提升50%。


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;"/>


下图展示了有Cobalt 100 CPU提供支持的服务器机架。




Azure Maia 100 AI加速器


为Microsoft云上AI负载提供支持,通过将芯片设计和AI基础设施硬件等协同设计,以实现硬件效率的最大化。



以下为Maia 100 AI加速器及sidekick机架示意图,冷却液从 sidekick流向Maia 100芯片表面的冷板,冷板上有通道,液体通过通道循环吸收和传递热量。




Azure 集成HSM(硬件级安全模块)


为最新设计的内部安全芯片,作为专用的硬件安全模块:







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5