返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

实测:NVIDIA 5090 vs NVIDIA 4090(48GB) 并发性能对比

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

刚好有位客户反馈自己的5090跑不快,来找老王调试,老王借着这个机会完成本次更有代表性的对比实验。

本次所有测试均基于 DeepSeek-R1-Distill-Llama-70B,精度 BF16,聚焦真实推理吞吐与稳定性。




一、5090 调试前后

测试方法(确保结论可复现)

  • 模型与精度:DeepSeek-R1-Distill-Llama-70B,BF16。
  • 度量口径:测试工具采用evalscope,评测指标包括首token时延,吞吐等。
  • 输入规模:典型长上下文推理,固定 prompt 长度与采样参数,输入输出长度覆盖1K到4K。
  • 系统环境:同一机房、同一操作系统镜像与驱动;功耗墙、散热条件一致;关闭除监控外的其它高负载服务。
  • 图中数据:仅展示核心指标,完整环境版本与运行日志可按需补充。

测试数据

注:调试前后性能差异较大

调试过程(把“慢”的地方一个个掰直)

  1. 开启 CPU 最大性能模式(Governor 置为 performance)
#查看CPU频率策略(一般默认为powersave)cat/sys/devices/system/cpu/cpu*/cpufreq/scaling_governor#切换为performance,避免频繁降频导致推理阶段抖动forfin/sys/devices/system/cpu/cpu*/cpufreq/scaling_governor;doechoperformance|sudotee$fdone
  1. 开启 Resizable BAR(Re-Size BAR)
  • 作用:放宽 CPU 访问 GPU 显存的窗口,降低主机到显存的数据搬运开销,稳定大 prompt/大 KV 缓存场景下的数据流。
  • 建议:BIOS 中启用 “Above 4G Decoding” 与 “Resizable BAR”。
  • 验证:
#简单校验(不同平台输出格式略有差异)lspci-vv|grep-i"ResizableBAR"-A1
  1. 调整 CPU C-States(C6 Support)
  • 含义:更深的 C-State 能节能,但可能带来从空闲到满载的唤醒抖动。
  • 建议:在 governor=performance 的前提下,保留 C6 但配合高性能电源策略与中断亲和,实测在我们机型上既不牺牲频率,也能减少温度峰值导致的降频回退。
  • 如果你的平台遇到抖动,可测试“关闭深 C-State 或保留 C6”的两组 A/B 方案,取抖动更小的一组。
  1. GPU 驱动侧常规优化
#持久化进程,降低首个上下文建立的时延sudonvidia-smi-pm1#锁定一致的功耗墙(根据散热与电源能力设定)sudonvidia-smi-pl<WATT_LIMIT>#仅单卡推理可忽略多卡通信;多卡时请统一PCIe代际/拓扑
  1. 线程与内存
  • 固定推理服务的线程数与亲和性,避免和系统后台抢核;启用透明大页(THP=always 或 madvise)减少页缺失;确保 swap 不介入热路径。

结论:

1、一台推理服务器 = CPU×GPU×内存×操作系统×BIOS×散热×供电的联合作品。

2、少一个环节,就可能把“战马”骑成“驴”。

3、专业的事情交给专业的人做,否则花一样的钱,只能享受一半的显卡性能。




二、5090 VS 4090(48GB)

为了拼数据,老王新入一台8卡48GB版4090的机器。废话不多说,直接上最终测试结果:

更专业的解读:

  • 显存带来的结构性收益:48GB 允许在单卡上容纳更大的 KV Cache 与更长上下文,
    • 可以使用更大的 batch 或保持更稳定的 kernel 形状;
    • 避免 24GB 版本常见的张量并行/页外 KV/CPU offload 带来的调度与拷贝开销;
    • 使得 Flash-Attention 等高效内核能以更大 tile/更少重排运行,减少 kernel 启动与同步次数。
  • 实际观感:长上下文与多会话并发下,48GB版4090的吞吐“台阶式”提升明显; 24GB 版常在容量边缘反复触发重排与内存回收,表现更不稳定。

综合下来,本轮测试中 5090 依然更强,但差距由约 2× 缩小到约1.4×。这不是 48GB 显卡“变魔术”,而是容量把“工程化的路”铺平了(少换页、少拷贝、少同步),硬件算力才能稳定地转化为吞吐。

顺手也回答一个常见问题:

“同一架马车,车道宽一倍,能不能跑更快?” - - - 能,而且更不容易剐蹭。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ