2.蚂蚁显存优化探索
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">3.结语ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.Q&A分享嘉宾|赵军平蚂蚁集团 技术总监
编辑整理|向隆
内容校对|李瑶
出品社区|DataFun
大模型推理显存挑战
蚂蚁显存优化探索
1. 新请求到达时的显存检查优化:
2. 显存分配优化:
为了平衡首次延迟和后续 token 生成的效率,我们设计了调度策略,动态调整显存分配和 Offloading 的优先级。
通过配置不同的策略,系统可以在首字生成和后续生成阶段之间进行动态trade-off。
4. 与现有 vLLM 实现的对比:
当前 vLLM 的实现是请求级别的显存管理,即在 prefill 阶段,需要一次性为整个请求的上下文长度预留显存。
如果显存不足,vLLM 支持 Offloading 或重新计算(recompute)。
首字生成阶段仍然需要确保显存足够,这可能导致排队等待。
1. ShareGPT 负载测试:
2. 7B 模型测试:
1. 给定模型和硬件条件下:
2. 测试场景:
3. 极限情况:
结语
1. Virtual Tensor:
2. LayerKV:
Q&A
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |