深度探索Stable Diffusion模型推理加速

显示全部楼层

大模型时代，模型的参数量动辄数十亿甚至千亿，比如GPT-3的参数量达到了1750亿。1750亿个参数，如果采用fp16存储，那么模型的大小约为325.5G，现有最强的计算平台也很难满足其显存要求。此外，大模型部署上线后，推理速度直接影响了用户的使用体验，因为没有用户可以忍受大模型输出文字或者输出图片的响应速度超过3分钟。

针对大模型存储以及推理的实际诉求，工业界迫切需要模型压缩与推理加速技术，比如INT8量化甚至1bit量化、CUDA Graph优化、ONNX模型以及Pipeline优化等。除了技术不断迭代之外，模型压缩与推理工程师人才的需求也在迅速增加，究其原因在于，各大企业正通过开源的基础大模型进行垂直业务场景大模型的研发以及部署。

就类似于手机操作系统，目前市面上主流的手机操作系统仅有安卓、IOS、鸿蒙等几个，但大多数互联网企业都会养一个移动端开发的团队，开发自己的APP。基础大模型就像手机操作系统；垂直行业的大模型就是每家企业的移动端开发团队，其人才需求远超过基础大模型。因此，接下来的1-2年，模型压缩与推理加速工程师的岗位仍然是AI行业为数不多的蓝海。