返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

H100/A100/4090/A10 实测性能(算力篇)

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 11:12 |阅读模式 打印 上一主题 下一主题

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;visibility: visible;">由于众所周知的原因,某些GPU在某些地区销售是没有合法渠道&售后保障的,从奇怪的渠道购买GPU有概率买到翻新货、假货。对于计算用途的GPU,我们通常会关心峰值算力、显存带宽、通信带宽三个指标,如果拿到的货这三个指标实测值和理论值相符咱就基本能安全下车了。这里将分三篇分别说明每个指标怎么测,本文是第一篇:算力篇。

想要简单快速又比较准的的测出实际峰值算力,可以使用CUTLASS profiler提供的GEMM算子进行测试。通常认为GEMM是计算受限的算子,且当下大热的Transformer模型,负载基本上都是GEMM,故GEMM测得的最优性能可以被当作GPU的实际峰值算力。从github上的CUTLASS仓库(https://github.com/NVIDIA/cutlass )克隆源码并且按照文档里的方法编译cutlass_profiler程序。使用方法见cutlass_profiler --help。
这里附上我测的结果。(GEMM极致调优能应该还能再榨出一丁点性能,但是我们这里的方法主要讲究一个方便快捷,你甚至可以在提货时当场就能花个10分钟测一把验验货。且由下面的数据看,CUTLASS profiler内置的GEMM算子已经将运算单元的理论峰值性能榨到8、90%,完全够用)

ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;clear: left;color: rgb(25, 27, 31);letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);visibility: visible;">实验结果

ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);visibility: visible;">注:以下表中的“利用率”不是nvidia-smi里看到的GPU-Util(GPU-Util这个数值除了能让你知道GPU在跑以外,什么用都没有),下表中的“利用率”是指某种精度的GEMM算子运算过程中对GPU对应精度的运算单元硬件的利用效率。
    ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;">
  • H100 PCIe vs. A100 PCIe (CUTLASS 3.5.1 GEMM算子)


ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);">注:单位均为TFLOPS(浮点)或 TOPS(整型),数值均为实际性能,而非稀疏等价性能。后缀为T的行表示使用Tensor Core。

ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);">可以看出CUTLASS目前对A100的优化比对H100 PCIe的优化好。H100 PCIe有着2倍于A100 PCIe的价格,1.4倍于A100的功耗,差不多得到了2倍的算力(以及稍微强些的内存、通信带宽),INT4性能被阉割,但增加了FP8支持。

ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);">个人认为,H100 PCIe版的能耗、性价比都有点鸡肋,与其买一两块H100 PCIe版尝尝鲜,不如花多点钱买8卡/4卡的H100 SXM整机一步到位,正所谓“买的越多,省的越多”。

    ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;">
  • 4090 vs. A10(CUTLASS 3.5.1 GEMM算子)


ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;text-align: center;">

ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);">可以看CUTLASS对4090各种精度的优化都挺好,对A10的FP32、FP64的优化有点烂。作为常用的大模型推理卡,A10和4090在显存和通信的规格上相似,价格也差不多,A10计算性能却只有4090的1/3,唯一优势就是A10功耗是4090的1/3,少交点电费。

实验设置

  • 矩阵形状:M=N=K=8192

  • 测试使用的CUTLASS源码(https://github.com/NVIDIA/cutlass)git commit hash:

19b4c5e065e7e5bbc8082dfc7dbd792bdac850fc
  • 4090测试时的CUTLASS编译选项

-DCUTLASS_NVCC_ARCHS="89"
  • A10测试时的CUTLASS编译选项

-DCUTLASS_NVCC_ARCHS="86"
  • A100测试时的CUTLASS编译选项

-DCUTLASS_NVCC_ARCHS="80"
  • H100测试时的CUTLASS编译选项

-DCUTLASS_NVCC_ARCHS="90a"

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ