我们是否应该用 Lite-GPU 构建 AI 集群？

显示全部楼层

为了满足生成式人工智能工作负载的蓬勃需求，GPU 设计者们一直以来都在尝试将越来越多的计算能力和内存，集成到单个复杂且昂贵的封装中。

然而，随着最先进的 GPU已经显示出封装、产量和散热方面的限制，人们对单个 GPU 以及由此构成的 AI 集群的可扩展性越来越不确定。

我们提出重新思考 AI 集群的设计和扩展，通过高效连接的 Lite-GPU 大型集群来实现。Lite-GPU 是具有单个小型芯片、能力仅为大型 GPU 一部分的 GPU。

我们认为，最近在共封装光学技术方面的进展能够通过高带宽和高效的通信，将 AI 工作负载分配到许多 Lite-GPU 上。

在本文中，我们阐述了 Lite-GPU 在制造成本、故障影响范围（blast radius，指单个组件故障可能影响的范围）、产量和能效方面的关键优势，并讨论了围绕资源、工作负载、内存和网络管理的系统机遇与挑战。

Co-packaged Optics 技术在2025年已进入
商业化阶段。台积电已成功将CPO技术与先进
封装技术结合，并计划在2025年下半年实现
大规模生产。博通、英伟达等公司也在积极推进
CPO产品的研发和商业化。

https://arxiv.org/abs/2501.10187

unsetunset本文目录unsetunset

本文目录
一、引言

小型 GPU 硬件特性
共封装光学技术（Co-packaged Optics）
我们对硬件趋势的判断和 Lite-GPU 的理解

二、Lite-GPU

当今领先 GPU 遇到的问题：NVIDIA、AMD
扩展 AI 集群的新方法：使用更小更多的 GPU

三、系统机遇与关键问题分析

3.1 扩展分布的规模
3.2 资源管理的细粒度化
3.3 工作负载管理
3.4 容错能力
3.5 内存管理
3.6 网络管理
3.7 数据中心管理

四、案例研究：LLM 推理

4.1 方法论和工作负载
4.2 实验结果

五、相关工作：用小芯片运行 AI 负载

NVIDIA DIGITS
谷歌 TPU
DeepSeek 的一系列 GPU 优化

六、结论
参考文献

加群请在 NeuralTalk 公众号后台回复：加群

unsetunset一、引言unsetunset

对人工智能（AI）的需求正在增长，且支持成本高昂 [34]。随着 AI 模型的多样性、复杂性和规模的不断扩大，预计这些挑战只会愈发严峻，这使得 AI 服务提供商构建强大且高效的 AI 基础设施变得至关重要 [2]。

然而，扩展 AI 基础设施正面临重大障碍[37]。我们已经达到了计算芯片尺寸的极限，导致GPU 设计者专注于利用先进封装技术，在相同封装内集成更多晶体管（参见图 1）。

然而，由于多种原因，包括功耗 [55]、散热 [21]、产量 [19, 53]、封装成本 [51] 和故障影响范围 [26]，单个 GPU 封装的扩展对制造来说变得越来越不可持续。例如，最新一代的 NVIDIA GPU 由于封装和散热问题导致部署延迟 [18, 52]。

我们观察到，存在一种令人兴奋的替代方法来扩展 AI 集群。如果我们将大型、强大的 GPU 封装替换为高度连接的 Lite-GPU 集群，每个 Lite-GPU 只有一个较小的单芯片，性能仅为大型 GPU 的一部分，会怎样呢？

小型 GPU 硬件特性

小型 GPU 具有许多有前景的硬件特性：它们的制造和封装成本更低，计算带宽比更高，功耗密度更低，且散热要求更轻。此外，它们还可以解锁理想的系统机遇，例如提高容错能力和更细粒度、灵活的资源分配。

迄今为止，由于数据流需要在 GPU 之间进行高带宽通信，将 AI 工作负载分配到大量 GPU 上一直是一个挑战[61]。然而，受到最近在共封装光学技术方面的推动，预计在未来十年内，与基于铜的通信相比，离芯片通信带宽将提高 1-2 个数量级，并且传输距离更远（数十米）[35, 50, 62]。

共封装光学技术（Co-packaged Optics）

共封装光学技术将电子和光学元件集成在毫米级范围内，与当前可插拔光学元件相比，缩短了信号传输距离，从而提高了能效。尽管在利用共封装光学技术方面仍有许多开放性问题和活跃的研究，但我们认为它有潜力打破围绕设计 AI 基础设施的权衡空间。

值得注意的是，在最近的 GPU 技术大会（GTC）上，NVIDIA 强调了他们在共封装光学技术方面的进展，以大幅提高 AI 基础设施的规模和能效 [38]。

# NerualTalk 公众号科普

Co-packaged Optics（CPO，共封装光学技术）
是一种将光学组件（如激光器和光电探测器）与电子
组件（如 ASIC 芯片）集成在同一封装内的技术。

## 技术原理

CPO 通过将光学和电子组件集成在一起，大幅缩短
了光信号与电信号之间的转换距离。这种集成方式
消除了传统架构中因长距离电气连接导致的信号衰
减、延迟和高功耗问题。例如，博通的 Bailly CPO
交换机将 6.4Tbps 的硅光子光学引擎直接集成在
ASIC 封装内。

## 封装形式

根据物理结构，CPO 可分为 2D、2.5D 和 3D 集成封装：

1.2D 集成封装：将光子集成电路（PIC）和电子集成
 电路（EIC）并排放置在基板或 PCB 上，通过引线键合
 或倒装芯片技术连接。其优点是封装简单、成本低，但
 存在寄生电感较大、信号完整性差等问题。

2.2.5D 和 3D 集成封装：采用更先进的封装技术，如
 台积电的 COUPE 技术（将电子芯片堆叠在光子芯片
 上），可实现更高的集成度和性能。

## 应用场景

CPO 主要用于高性能计算（HPC）和人工智能（AI）
领域。例如，英伟达的 Quantum-X 和 Spectrum-X
CPO 交换机分别支持 115.2Tbps 和 102.4Tbps 的
带宽，适用于大规模 AI 训练和推理。

## 发展现状

CPO 技术在 2025 年已进入商业化阶段。台积电已成功
将 CPO 技术与先进封装技术结合，并计划在 2025 年
下半年实现大规模生产。博通、英伟达等公司也在积极
推进 CPO 产品的研发和商业化

我们认为，共封装光学技术可以使配备高带宽和节能光互连的 Lite-GPU 以每秒千万亿比特的带宽与许多远距离的 Lite-GPU 进行通信 [35, 50]。

我们对硬件趋势的判断和 Lite-GPU 的理解

在本文中，我们通过 Lite-GPU 的视角来看待 AI 基础设施。尽管我们对最近的硬件趋势和 Lite-GPU 的关键硬件优势进行了概述，但本文主要关注将 Lite-GPU 纳入 AI 基础设施时可能出现的系统机遇和挑战。

我们讨论了 Lite-GPU 如何在资源定制、资源利用率、功耗管理、性能效率和故障影响范围方面为 AI 集群带来益处。此外，作为初步评估，我们使用流行的大型语言模型（LLM）推理工作负载对 Lite-GPU 集群进行了性能分析。

我们发现，Lite-GPU 有潜力与现有 GPU 相比匹配或实现更好的性能，因为它们利用了每计算单元总带宽增加和功耗密度降低所提供的硬件潜力。

这些优势并非没有代价：我们识别出围绕构建低成本高效网络、共同设计 AI 软件栈以及数据中心管理的关键研究问题。

unsetunset二、Lite-GPUunsetunset

近年来，最先进的数据中心 GPU 一直在增加计算 FLOPS（浮点运算次数）、内存带宽和网络带宽，以支持不断增长的 AI 工作负载。

由于我们已经达到了单芯片（die）的极限 [28]，改进依赖于先进封装技术，将更多晶体管集成到同一个 GPU 中。

当今领先 GPU 遇到的问题：NVIDIA、AMD

例如，最近，NVIDIA 推出了多芯片 GPU 设计，使用高带宽的芯片间接口将其 Blackwell GPU 平台中**的两个芯片绑定在一起 **[55]。

作为替代方案，AMD 提出了芯片组（chiplets），将单体硅片分解为更小的专业芯片，并通过3D 堆叠技术共同封装在一起[29]。尽管这些技术在其一代产品中成功提高了 GPU 性能，但目前尚不清楚如何进一步扩展它们。

事实上，这些复杂的 GPU 设计已经导致了诸如保持高产量、管理高功耗和应用高效散热等一系列问题[19, 21, 51, 53]。

此外，随着芯片面积增大，其面积增长速度超过了边缘（“海岸线”）的长度（芯片边缘长度与芯片面积的比例），而边缘长度决定了它可以利用的带宽。这导致了计算能力与带宽比例较高的 GPU，这并不总是适合 AI 工作负载，从而导致计算资源的浪费 [4]。

扩展 AI 集群的新方法：使用更小更多的 GPU

通过 Lite-GPU，我们提出了另一种扩展 AI 集群的方法：使用更小但更多的 GPU，通过高性能和可扩展的网络连接，而这种网络可以通过共封装光学技术实现。

其中，Lite-GPU 特指一个单芯片的 GPU 封装，其芯片面积远小于当前最先进的 GPU，从而带来许多硬件优势。图 2 给出了一个 Lite-GPU 系统的示例，其中每个 NVIDIA H100 GPU 被四个 Lite-GPU 替换。

在本文中，我们主要使用这个示例来讨论 Lite-GPU 在 AI 集群中的潜在优势。

首先，由于每个 GPU 的芯片面积较小，Lite-GPU 的制造成本大幅降低，因为硬件产量（yield，指制造过程中成功生产的芯片比例）更高。例如，当 H100 类似的芯片面积减少到 1/4 时，产量可以提高 1.8 倍，这意味着制造成本几乎降低了 50% [36]。
其次，减少计算芯片面积可以增加“海岸线”与芯片面积的比例。例如，将芯片面积减少到 1/4，会使四个芯片暴露的边缘长度增加一倍，从而实现计算与带宽比为 2 倍的集群。尽管额外的带宽可能需要用于额外的网络通信，但我们在案例研究中稍后会展示，Lite-GPU可以在 I/O 密集型工作负载（如 LLM 推理的部分）中实现更高的性能效率。
第三，较小的封装也大大降低了散热的复杂性。如今的尖端 GPU 已经需要通过降低计算频率来避免过热 [12, 20]。较小的单芯片 GPU 可以单独通过空气冷却，并且即使不需要先进的冷却技术，也能维持更高的时钟频率。

总体而言，我们预计 Lite-GPU 的成本将因更高的硬件产量和更低的封装成本而大幅降低。尽管网络成本会增加，但鉴于网络成本在当今仅占 GPU 成本的一小部分，我们预计净收益将是积极的。

此外，还有许多正在进行的努力，通过电路交换技术将网络成本与网络规模的增加呈亚线性关系，这将允许构建更大规模的 Lite-GPU 集群 [6, 24]。

unsetunset三、系统机遇与关键问题分析unsetunset

考虑一个由 NVIDIA H100 GPU 组成的集群，这是当今 AI 集群中最常部署的 GPU。每个 H100 GPU 可以被多个 Lite-H100 GPU 替换，每个 Lite-GPU 的计算和内存能力仅为 H100 的一部分。根据 Lite-GPU 的定制方式，与原始集群相比，使用 Lite-GPU 的集群可以具有相当甚至更好的计算、内存和成本特性。尽管如前一节所述，使用共封装光学技术扩展 AI 集群是一个选项，但 Lite-GPU 在硬件方面比当前 GPU 具有许多优势。

因此，本文主要关注利用 Lite-GPU，因为它们有潜力为更高效、可扩展的 AI 集群铺平道路。然而，需要解决一些关键的系统研究问题，以便我们能够实现 Lite-GPU 的颠覆性潜力。

3.1 扩展分布的规模

使用 Lite-GPU 的一些研究问题并非新问题或独有，但可能会被放大。例如，Lite-GPU 将导致数据中心中的分布式系统更多，例如以前由单个 GPU 服务的小型模型现在将分布在多个 Lite-GPU 上。

对于已经需要多个 GPU 的大型模型，设备数量将成倍增加。这可能会放大诸如同步和 GPU 滞后等问题。

AI 集群在训练和推理方面有不同的规模，训练集群比推理集群大几个数量级。

例如 Llama 3.1 405B 的推理集群为 16000 个 GPU，而训练集群为 8 个 GPU[16, 31]。

使用 Lite-GPU 的推理集群在我们前面讨论的缩减比例下，不太可能比今天的训练集群有更多的组件，并且在没有对模型进行大量创新性分布式部署的情况下更容易实现。一般来说，构建高效的分布式机器学习训练和推理平台是一个活跃的研究领域，这些方法也将受益于 Lite-GPU 集群[5, 14, 25, 44]。

3.2 资源管理的细粒度化

使用 Lite-GPU，我们可以分配和访问更小的计算和内存单元，从而在管理 AI 集群时具有更大的灵活性。

例如，考虑功耗管理。GPU 的计算时钟频率可以动态调整，以在空闲期间降低功耗或匹配滞后的任务 [9, 42]。然而，降频的粒度是在所有流式多处理器（Streaming Multiprocessors，SM，类似于 CPU 中的核心，是为高效并行处理设计的处理器，每个 GPU 包含多个 SM）上。对大型 GPU 的所有 SM 进行降频可能会导致资源浪费或性能不佳。

在 Lite-GPU 集群中，我们可以以更细的粒度控制降频，以实现更好的功耗效率，类似于只对大型 GPU 的一部分 SM 进行降频。相反，我们可以通过超频 Lite-GPU 来实现更高的性能，以应对峰值工作负载，因为较小的芯片面积更容易散热并且可以支持更高的时钟频率。

或者，可以使用更多的 Lite-GPU 来满足峰值负载，但这会因网络增加而带来额外的功耗。对工作负载模式的详细分析和功耗建模可以帮助我们确定使用 Lite-GPU 服务典型和峰值工作负载的最节能方法。

资源管理的另一个例子是围绕 GPU 配置。注意，如今，AI 集群已经使用异构 GPU 来尽可能高效地服务请求，例如通过在不同的 GPU 硬件上部署 Transformer 推理的不同阶段 [40]。我们可以像 Splitwise 那样定制和部署 Lite-GPU，但规模更小，例如使用机架级的定制 Lite-GPU，而不是集群级的定制机架。

此外，Lite-GPU 可以实现更容易的超频和更高的计算与带宽比，从而在集群级别实现更高的性能效率[41, 47]。

最后，这些较小的 GPU 单元可能有助于未来的 AI 即服务（AI as a Service）产品。能够为每个客户分配小的、可定制的 Lite-GPU 集群，并且这些集群在物理上是分开的，提供隔离和安全性，这将非常强大。

3.3 工作负载管理

为了获得 Lite-GPU 的优势并掩盖其开销，必须仔细进行工作负载的并行化、部署和调度。最重要的是，使用 Lite-GPU 时，我们把以前在芯片内部的流量转移到光网络上，可能会引入额外的延迟和网络负载。

有些工作负载可能难以使用 Lite-GPU 进一步分布，例如那些引入网络流量随机性和拥塞的工作负载。

然而，对于 AI 工作负载，我们可以使用几种技术。首先，AI 工作负载高度可预测且可流水线化，因此可以通过预取（prefetching）来掩盖额外的延迟[15]。实际上，由于Lite-GPU 可以实现更高的内存带宽与计算比，它们甚至可能允许在 AI 工作负载中减少请求级别的延迟，因为可能不需要那么多的批处理（batch）来提高计算利用率。

其次，如今的大型机器学习模型已经分布在许多 GPU 上，并通过高效的集体通信（collectives）来最小化交换的数据量，例如在计算矩阵-矩阵乘法时通过张量并行（tensor parallelism）。可以在 Lite-GPU 部署中增加张量并行的级别，以最小化端到端延迟。

3.4 容错能力

缩小 GPU 的尺寸自然降低了 GPU 因过高的温度、灰尘或碎屑、晶体管故障而失败的影响范围（blast radius），从而在任何时候都能获得更高的可用 FLOPS（浮点运算次数）、内存容量和内存带宽。

为了最大限度地利用更小的影响范围，构建一个稳健高效的软件栈是至关重要的。请注意，当今的大规模推理管道已经施加了比硬件影响范围更大的影响范围：如果一组为模型实例服务的 GPU 中的一个失败，整个实例将被下线[24]。

解决这个问题的积极工作也可以帮助 Lite-GPU 集群 [33, 48]。处理这种严格的、软件施加的 GPU 配置的一种方法是包括热备 GPU（hot spares），即可以在从故障中恢复时激活以服务模型实例的备用 GPU。Lite-GPU 特别适合这种方法，因为 Lite-GPU 集群更大，每个额外的 Lite-GPU 更小且更便宜。这减少了包括备用 Lite-GPU 的比例开销，尽管我们仍然需要一个策略来决定在正常操作期间如何最好地利用它们。

总的来说，Lite-GPU 可以帮助提高 AI 基础设施的容错能力。然而，使用 Lite-GPU 时，集群中的 GPU 数量增加，可能需要额外的网络组件，这可能会导致不同的故障频率和特征。需要对故障和恢复方案进行彻底分析，以确保利用 Lite-GPU 的减小的影响范围。

3.5 内存管理

每个 Lite-GPU 只有更大 GPU 内存容量的一部分。这可能是需要高内存容量且不能有效分布的工作负载的问题。因此，关于 Lite-GPU 集群中内存系统的设计有许多未解决的问题。

例如，我们是否需要在多个 Lite-GPU 之间共享内存作为一个选项？共享内存的语义应该是什么样子的
例如，我们需要在 Lite-GPU 之间操作一个加载/存储 GPU 到内存网络来防止由于网络缓冲而额外使用 HBM（高带宽内存）吗？
此外，在大量访问共享内存的环境中，我们如何缓解由于不同层级的内存而产生的编程和性能挑战？

另一种潜在的方法是使用 Lite-GPU 以及分离式内存[30]。分离式内存可以用来为 Lite-GPU 提供更大的内存池，并允许在 Lite-GPU 之间更有效地共享内存，尽管它引入了内存管理的额外复杂性。

不过，结合 Lite-GPU 的更细粒度，具有 Lite-GPU、共封装光学和分离式内存的 AI 集群可以让我们灵活地调整集群中每个 Lite-GPU 的计算与内存和计算与网络的比例。

3.6 网络管理

通过 Lite-GPU，以前在大型 GPU 内部的通信现在在 Lite-GPU 到 Lite-GPU 的网络上。

首先，集群中的总流量和网络的总功耗可能会更高。
其次，在硅片上的流量假设非常高的带宽、低延迟和节能通信。由于在硅片外的性能和效率通信会降低，因此必须共同设计工作负载的并行化和分布，以最小化这种退化的影响。上面提到了两个负载/效率掩盖的例子（使用集体和预取）。
第三，使用 Lite-GPU 时，GPU 到 GPU 链路所需的带宽和距离可能会更高。然而，使用光链路，我们正在寻找跨多个机架的每秒 petabit（千万亿比特）的高效通信，还是有希望的。

关于构建一个高效的、高带宽的 Lite-GPU 网络，我们有几个选项。

首先，由于替换一个大 GPU 的Lite-GPU 之间的流量是可预测的，我们可以在该组 Lite-GPU 内构建一个直接连接拓扑，并将其余网络保持不变。这是对原始网络的近似，尽管它消除了 Lite-GPU 更小影响范围的好处。
或者，我们可以考虑为整个 Lite-GPU 集群构建一个（平面或分层的）交换网络，从而获得灵活性和改进的容错能力。使用电路交换，部分或集群范围，可能是实现这种网络的关键，以降低成本。

电路交换相对于分组交换具有以下优势：

超过 50% 的能效提升
更低的延迟
在高带宽下更多的端口，这允许更大和更平坦的网络 [6]。

3.7 数据中心管理

使用 Lite-GPU，每个区域的设备数量增加，但每个区域的能耗降低。有研究使用各种自动化技术来处理大规模的数据中心管理，这些技术可以适用于 Lite-GPU 集群 [22]。

此外，尽管每个机架的设备数量可能会增加，但由于 Lite-GPU 结合共封装光学的更有效冷却，整个机架的冷却需求可能会更轻。这可以消除数据中心中液冷机架的需求，这在 NVIDIA B200 集群中占据了相当一部分机架和空间 [1]。

unsetunset四、案例研究：LLM 推理unsetunset

在本节中，我们以一种流行的 AI 工作负载——LLM（大型语言模型）推理为例，来探讨 Lite-GPU 的应用 [56]。LLM 推理包含两个不同的阶段。

提示预填充阶段（prompt prefill phase）处理输入标记以计算可重用的中间状态，即键值（Key-Value，KV）缓存，并生成第一个新标记。预填充阶段通常高度并行化，能够高效利用计算资源。
解码阶段（decode phase）逐个生成输出标记，每个新标记都基于整个 KV 缓存进行构建并追加。这一阶段通常受内存限制，计算资源的利用效率较低。

在评估中，我们假设不同阶段可以在不同的 Lite-GPU 集群上执行 [40, 63]，以展示 Lite-GPU 可以实现的硬件优势。通过本案例研究，我们旨在突出 Lite-GPU 在推理任务中的潜在优势，这些优势是基于对当前顶级 GPU 的改进。

4.1 方法论和工作负载

我们使用RoofLine 模型（roofline modeling）[57] 来捕捉重要的硬件和软件特性，并模拟 Lite-GPU 集群运行 LLM 推理的情况。

我们模拟了包括 FLOPS（浮点运算次数）、内存访问和集体通信的网络流量等重要指标。建模分别测量各个计算阶段，包括 projection、MLP（多层感知机）和融合的 FlashAttention [43]。在每个阶段内，计算、内存 I/O 和网络 I/O 可以重叠，并且使用张量并行（tensor parallelism）在每个集群内分配执行。

NVIDIA H100 是用于比较的基线 GPU [11]。一个 H100 集群由 1 到 8 个 H100 GPU 组成。每个 H100 包含 132 个流式多处理器（Streaming Multiprocessors，SM）。Lite-GPU 是基于 H100 模型化的，将其能力降低到原来的 1/4，记作“Lite”（见表 1）。

相应地，一个 Lite-H100 集群可以由 1 到 32 个 Lite-GPU 组成，以匹配 H100 集群的最大总 SM 数量。回想一下，对于 Lite-H100，我们期望其计算与带宽比可以增加到 H100 的 2 倍，并且由于冷却效率的提高，它可以提供更高的可持续 FLOPS。

为了探索这些硬件改进如何影响性能，我们进一步定义了表 1 中的定制 Lite-GPU 进行比较，其中更改的参数用蓝色和红色突出显示。

我们使用三种不同大小和结构的 LLM 模型进行性能评估：Llama3-70B、GPT3-175B 和 Llama3-405B [7, 32]。

我们根据 Splitwise 的延迟要求定义搜索标准，即首次生成标记的时间（TTFT，time-to-first-token）≤1 秒和标记间的时间（TBT，time-between-tokens）≤50 毫秒的约束 [40]。

我们设置一个固定的提示序列长度为 1500 个标记，这是生产工作负载中编码的中位数大小 [40]。搜索会遍历每种 GPU 类型的所有可能的批量大小和 GPU 数量。然后，由于不同 GPU 类型具有不同的硬件能力，我们使用该配置中的 SM 数量对每种配置的吞吐量进行归一化。得到的指标，每个 SM 的吞吐量（tokens/s/SM），表示该配置的性能效率。

对于每种 GPU 类型，我们绘制具有最高每个 SM 吞吐量的配置。注意，虽然我们在表 1 中定义的最大每个集群的 GPU 数量范围内进行搜索，但搜索可能会返回使用少于最大数量的 GPU 来运行模型可以获得更好的每个 SM 的吞吐量。

4.2 实验结果

结果总结在图 3 中。通过本研究，我们表明，尽管没有额外网络支持的基本 Lite-GPU 可能会面临性能限制，但Lite-GPU 集群可以定制以匹配或超越典型 H100 集群的性能。

需要注意的是，定制和改进的 Lite-GPU 不必在集群级别消耗更多能量，因为例如，它们可以权衡 FLOPS 以换取带宽。以每美元成本的性能（这是云运营商的主要指标）来看，我们预计由于 GPU 制造成本的降低，Lite-GPU 的部署成本会降低。

在这种情况下，即使与当今集群的性能相当，也可能足以通过每美元性能的提升来实现足够的改进。然而，网络的额外成本需要考虑，尽管它最初可能只是 GPU 成本的一部分，但随着规模的扩大，它可能会成为一个瓶颈。

进一步对性能和运营总成本的分析对于大规模部署 Lite-GPU 的可行性至关重要，尽管这超出了本文的范围。

unsetunset五、相关工作：用小芯片运行 AI 负载unsetunset

在过去的几年中，使用小芯片运行 AI 工作负载已经引起了关注。例如，苹果公司自 2017 年以来一直在其移动设备中搭载神经引擎 [54]。

NVIDIA DIGITS

最近，NVIDIA 宣布了 DIGITS，这是一个强大的 GPU 工作站，用于在部署到云端之前对 AI 模型进行工程化 [39]。从模型设计方向来看，提高单个 GPU 的推理能力也受到了大量的研究关注 [3, 45, 58–60]。尽管这些努力旨在最大化单个设备上的 AI 能力，但它们并没有解决在数据中心扩展对 AI 工作负载的需求这一挑战。

谷歌 TPU

另一方面，谷歌的 TPU 是一个扩展 AI 工作负载跨越许多张量处理器的例子 [24]。尽管它们采用了先进的网络技术以降低成本和功耗，但性能和灵活性的限制仍然存在，例如较长的重新配置周期和多设备故障影响范围，因为故障可能会使一组 TPU 失效。TPU 与 Lite-GPU 共享类似的原则。然而，TPU 是专用的，与 GPU 相比，提供的编程灵活性较低。

此外，TPU 也一直在跨代将更多晶体管集成到相同的封装中，与当前复杂的 GPU 走在类似的发展道路上[10, 24]。与 Lite-GPU 的扩展方法相反，晶圆级计算系统旨在将大量的计算和通信带宽集成到单个大型集成芯片上[8, 23]。尽管这些系统受益于大幅增加的带宽和集成密度，但它们需要复杂和先进的封装技术，这可能会导致产量、成本和功耗方面的挑战[23]。有大量的工作提出了系统解决方案，用于提高数据中心中 AI 工作负载的性能 [4, 13]、能效 [42, 46]、并行性 [27, 44] 和调度 [17, 49]。

DeepSeek 的一系列 GPU 优化

最近，DeepSeek 展示了一系列优化，这些优化使得在相对弱于尖端 GPU 的硬件上高效地训练和部署强大的 LLM 成为可能[14]。这些工作与 Lite-GPU 的硬件和系统工作是互补的，旨在以成本效益高的方式扩展 AI 工作负载。

unsetunset六、结论unsetunset

我们已经面临在单个 GPU 封装中能够容纳的计算和内存数量的不确定性，因为尖端 GPU 已经显示出其复杂设计的封装、冷却、功耗和成本相关的挑战。

在本文中，我们提出了一种替代的 AI 基础设施扩展方法：使用 Lite-GPU 而不是复杂且昂贵的大型 GPU。受到小型 GPU 封装的产量、功耗和运营优势的激励，我们在 Lite-GPU 的背景下审视 AI 基础设施。我们概述了围绕工作负载、内存和网络管理的关键研究问题。我们还展示了 Lite-GPU 如何改善能源管理、性能效率和容错能力。

通过本文，我们旨在围绕 Lite-GPU 及其在生成式 AI 时代构建和运营 GPU 集群时可能扭转局面的潜力展开讨论。