H20 141G版本是怎么来的

显示全部楼层

最近，朋友圈里突然涌现出大量关于NVIDIA H20 141GB整机的消息。市场上对H20 141GB整机或模组的需求暴增，包括不少大厂，都在囤卡。这一现象，很大程度上得益于deepseek的横空出世，大家惊喜地发现，如今能够以比以往低得多的成本，部署效果达标的大模型。

H20是英伟达专为中国市场推出的“特供版”产品。它基于英伟达H100芯片，不过为了符合美国出口管制政策，以便在中国市场销售，其性能被“阉割”了80% 。从参数对比上可以看出，相比我们之前介绍的H200【H200与H100的区别是什么】，H20的FP16算力还不到H200的1/10，但显存极大，之前的H20搭配96GB显存，显存带宽可以达到4TB/s。因此，H20是一款算力与显存极为畸形的显卡。DeepSeek火爆之前并不被看好。再加上国内AI芯片供应商产品的激烈竞争，H20的市场竞争力大打折扣，质疑声不绝于耳。

然而，随着DeepSeek模型走出低成本、高效果的技术路线，即便是被“阉割”的H20，如今在国内市场也迎来了热销。 H20 141GB版本单张显卡配备141GB的HBM3e显存，若组建8卡系统，总显存容量高达1128GB，显存带宽为4.8TB/s 。如此强大的硬件配置，能够原生流畅运行DeepSeek - R1满血版（FP8精度），轻松应对高负载的运算任务。

从参数上可以看到，H20 141版本与H20 96版本唯一的区别就是H20 141GB版本采用了跟H200一样的HMB3e。有消息称，H20 96GB版本已经停产，因此可以推断，今年H20 141GB版本将继续占领市场。

那么问题来了，HMB3e到底到底是个啥？

HBM3e

2014 年首款 HBM 产品问世，HBM1 首次采用 3D 堆叠技术，带宽达 128GB/s，每个堆栈的容量为 1GB。其通过独特的垂直堆叠技术和 TSV（硅通孔）技术，将多个 DRAM 单元紧密相连，并与 GPU 或 CPU 形成高效互联，构建出大容量、高带宽的 DDR 组合阵列。

此后 HBM 技术经历多代发展，容量、带宽以及数据传输速率都显著提升。如 SK 海力士成功研发出 HBM2E、HBM3 和 HBM3E 等多代产品；美光推出 HBM2 和 HBM2E 产品，并在 2023 年跳过 HBM3 直接推出 HBM3E 产品；三星推出了 HBM2E、HBM3 等产品，并计划在 2024 年发布首款 HBM3E 产品。HBM3E 是在 HBM3 的基础上进一步提升了带宽、延迟、能效和容量。

显存容量做到 141GB 的原因

HBM3e 采用了更先进的 3D 封装技术和垂直堆叠工艺。通过增加堆叠的 DRAM 芯片层数，在相同的物理空间内实现了更高的存储密度。例如，从 HBM2 的 8 层堆叠到 HBM3 的 12 层堆叠，增加了存储容量，HBM3e 可能在此基础上进一步优化了堆叠技术，使得单颗芯片的容量得以提升，进而实现了总容量的大幅增加。

以 H200 为例，其 141GB 的 HBM3e 显存可能是通过多个高容量的 HBM3e 芯片组合实现的。有猜测认为 H200 是采用了 6 个 24GB 的 HBM3e 堆栈，组成了物理容量为 144GB 的内存，不过 NVIDIA 出于产量等原因保留了部分容量，最终向用户提供 141GB 的可用显存。此外，GPU 内部的内存架构也进行了优化，包括数据通道的设计、内存控制器的改进等，使得能够高效地管理和利用大容量的显存。