链载Ai

标题: 实测:NVIDIA 5090 vs NVIDIA 4090(48GB) 并发性能对比 [打印本页]

作者: 链载Ai    时间: 昨天 22:22
标题: 实测:NVIDIA 5090 vs NVIDIA 4090(48GB) 并发性能对比

刚好有位客户反馈自己的5090跑不快,来找老王调试,老王借着这个机会完成本次更有代表性的对比实验。

本次所有测试均基于 DeepSeek-R1-Distill-Llama-70B,精度 BF16,聚焦真实推理吞吐与稳定性。




一、5090 调试前后

测试方法(确保结论可复现)

测试数据

注:调试前后性能差异较大

调试过程(把“慢”的地方一个个掰直)

  1. 开启 CPU 最大性能模式(Governor 置为 performance)
#查看CPU频率策略(一般默认为powersave)cat/sys/devices/system/cpu/cpu*/cpufreq/scaling_governor#切换为performance,避免频繁降频导致推理阶段抖动forfin/sys/devices/system/cpu/cpu*/cpufreq/scaling_governor;doechoperformance|sudotee$fdone
  1. 开启 Resizable BAR(Re-Size BAR)
#简单校验(不同平台输出格式略有差异)lspci-vv|grep-i"ResizableBAR"-A1
  1. 调整 CPU C-States(C6 Support)
  1. GPU 驱动侧常规优化
#持久化进程,降低首个上下文建立的时延sudonvidia-smi-pm1#锁定一致的功耗墙(根据散热与电源能力设定)sudonvidia-smi-pl<WATT_LIMIT>#仅单卡推理可忽略多卡通信;多卡时请统一PCIe代际/拓扑
  1. 线程与内存

结论:

1、一台推理服务器 = CPU×GPU×内存×操作系统×BIOS×散热×供电的联合作品。

2、少一个环节,就可能把“战马”骑成“驴”。

3、专业的事情交给专业的人做,否则花一样的钱,只能享受一半的显卡性能。




二、5090 VS 4090(48GB)

为了拼数据,老王新入一台8卡48GB版4090的机器。废话不多说,直接上最终测试结果:

更专业的解读:

综合下来,本轮测试中 5090 依然更强,但差距由约 2× 缩小到约1.4×。这不是 48GB 显卡“变魔术”,而是容量把“工程化的路”铺平了(少换页、少拷贝、少同步),硬件算力才能稳定地转化为吞吐。

顺手也回答一个常见问题:

“同一架马车,车道宽一倍,能不能跑更快?” - - - 能,而且更不容易剐蹭。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5