链载Ai

标题: 实测：NVIDIA 5090 vs NVIDIA 4090(48GB) 并发性能对比 [打印本页]

作者: 链载Ai 时间: 2025-12-1 22:22
标题: 实测：NVIDIA 5090 vs NVIDIA 4090(48GB) 并发性能对比

刚好有位客户反馈自己的5090跑不快，来找老王调试，老王借着这个机会完成本次更有代表性的对比实验。

本次所有测试均基于 DeepSeek-R1-Distill-Llama-70B，精度 BF16，聚焦真实推理吞吐与稳定性。

一、5090 调试前后

测试方法（确保结论可复现）

模型与精度：DeepSeek-R1-Distill-Llama-70B，BF16。
度量口径：测试工具采用evalscope,评测指标包括首token时延，吞吐等。
输入规模：典型长上下文推理，固定 prompt 长度与采样参数，输入输出长度覆盖1K到4K。
系统环境：同一机房、同一操作系统镜像与驱动；功耗墙、散热条件一致；关闭除监控外的其它高负载服务。
图中数据：仅展示核心指标，完整环境版本与运行日志可按需补充。

测试数据

注：调试前后性能差异较大

调试过程（把“慢”的地方一个个掰直）

开启 CPU 最大性能模式（Governor 置为 performance）

#查看CPU频率策略（一般默认为powersave）cat/sys/devices/system/cpu/cpu*/cpufreq/scaling_governor#切换为performance，避免频繁降频导致推理阶段抖动forfin/sys/devices/system/cpu/cpu*/cpufreq/scaling_governor;doechoperformance|sudotee$fdone

开启 Resizable BAR（Re-Size BAR）

作用：放宽 CPU 访问 GPU 显存的窗口，降低主机到显存的数据搬运开销，稳定大 prompt/大 KV 缓存场景下的数据流。
建议：BIOS 中启用 “Above 4G Decoding” 与 “Resizable BAR”。
验证：

#简单校验（不同平台输出格式略有差异）lspci-vv|grep-i"ResizableBAR"-A1

调整 CPU C-States（C6 Support）

含义：更深的 C-State 能节能，但可能带来从空闲到满载的唤醒抖动。
建议：在 governor=performance 的前提下，保留 C6 但配合高性能电源策略与中断亲和，实测在我们机型上既不牺牲频率，也能减少温度峰值导致的降频回退。
如果你的平台遇到抖动，可测试“关闭深 C-State 或保留 C6”的两组 A/B 方案，取抖动更小的一组。

GPU 驱动侧常规优化

#持久化进程，降低首个上下文建立的时延sudonvidia-smi-pm1#锁定一致的功耗墙（根据散热与电源能力设定）sudonvidia-smi-pl<WATT_LIMIT>#仅单卡推理可忽略多卡通信；多卡时请统一PCIe代际/拓扑

线程与内存

固定推理服务的线程数与亲和性，避免和系统后台抢核；启用透明大页（THP=always 或 madvise）减少页缺失；确保 swap 不介入热路径。

结论：

1、一台推理服务器 = CPU×GPU×内存×操作系统×BIOS×散热×供电的联合作品。

2、少一个环节，就可能把“战马”骑成“驴”。

3、专业的事情交给专业的人做，否则花一样的钱，只能享受一半的显卡性能。

二、5090 VS 4090(48GB)

为了拼数据，老王新入一台8卡48GB版4090的机器。废话不多说，直接上最终测试结果：

更专业的解读：

显存带来的结构性收益：48GB 允许在单卡上容纳更大的 KV Cache 与更长上下文，

可以使用更大的 batch 或保持更稳定的 kernel 形状；
避免 24GB 版本常见的张量并行/页外 KV/CPU offload 带来的调度与拷贝开销；
使得 Flash-Attention 等高效内核能以更大 tile/更少重排运行，减少 kernel 启动与同步次数。

实际观感：长上下文与多会话并发下，48GB版4090的吞吐“台阶式”提升明显； 24GB 版常在容量边缘反复触发重排与内存回收，表现更不稳定。

综合下来，本轮测试中 5090 依然更强，但差距由约 2× 缩小到约1.4×。这不是 48GB 显卡“变魔术”，而是容量把“工程化的路”铺平了(少换页、少拷贝、少同步)，硬件算力才能稳定地转化为吞吐。

顺手也回答一个常见问题：

“同一架马车，车道宽一倍，能不能跑更快？” - - - 能，而且更不容易剐蹭。

欢迎光临链载Ai (https://www.lianzai.com/)