大模型，进入剪枝蒸馏时代！

显示全部楼层

文章的目标是通过pruning和distillation，将Llama 3.1 8B和Mistral NeMo 12B模型分别压缩到4B和8B参数。总的来说，获得了非常好的结果。

先压缩参数 -> 剪枝。先计算每层、神经元、头和嵌入维度的重要性，开始剪枝过程。然后，对这些重要性分数进行排序，以计算相应的重要性排名。

判断是否重要，考虑三个不同的指标来评估层重要性：(1) LM dev loss，(2) Block Importance (BI) 和 (3) 下游任务的准确性。

一般开源模型不知道什么数据训练的，所以文中提出了在剪枝和蒸馏之前对教师模型进行微调的步骤，称为teacher correction，用了127B tokens。

至于蒸馏，仅在teacher和student logits 上使用前向 KL 散度损失

是否加teacher correction步骤，差异如下：

Width vs Depth Pruning，两种变体具有相同数量的参数，但宽度剪枝可以得到较小的初始损失，并始终优于深度剪枝模型。

与随机初始化更小的网络相比，pruning起点明显更低，另外基于蒸馏的训练优于传统训练方法，同时需要更少的训练tokens（下图红线和绿线）

teacher correction不回影响到剪枝的重要性排序，结合蒸馏，可以弥补剪枝从原始权重带来的差距

开头和结尾的layer是最重要的。删除不连续的layer可以获得更好的 LM 验证损失（下图虚线）。但是这个结论在下游任务准确率上不一定稳定成立。

最后文中的总结结论，上面大体上提到了：