多步重叠调度器:为提升 GPU 利用率,SGLang 采用单步重叠式调度器,将 CPU 的调度开销隐藏在模型 Decode 的 GPU kernel 耗时中。然而,LongCat-Flash 前向传播的耗时比较低,导致 GPU kernel 的耗时无法掩盖 CPU 的调度开销,为此我们实现多步重叠调度器,在单次调度迭代中启动多个前向传播 kernel,通过将 CPU 调度与同步操作隐藏于 GPU 计算过程,确保 GPU 一直处于 busy 状态。
投机推理:在投机推理的优化上,借鉴 MagicDec[1],我们首先对投机推理的收益进行的理论分析,其理论收益:。表示在投机推理情况下的平均 decode 耗时,表示 Target model 的耗时。其他各项含义参考下文的说明。针对这个公式,我们拆解成三部分分别优化: