链载Ai

标题: 聊聊DeepSeek R1的知识蒸馏与应用思考 [打印本页]

作者: 链载Ai    时间: 4 小时前
标题: 聊聊DeepSeek R1的知识蒸馏与应用思考

DeepSeek-R1和DeepSeek-R1-Zero都是杭州深度求索人工智能基础技术研究有限公司发布的AI推理模型。

我自己在官方的模型[1]上试用了一下,感觉很不错,尤其是深度思考模式下的思考链内容,很不错。

以下是二者的具体介绍:

DeepSeek-R1

DeepSeek-R1-Zero

区别

知识蒸馏

直接基于R1生成的long CoT的数据做SFT,最后的效果如下:

结论

思考

相比较于R1,我更好奇于知识蒸馏的细节,可惜,官方paper没有过多叙述。

为什么我会把注意力放在知识蒸馏上,主要是在一定的GPU/NPU限制内,通过CoT格式的数据,做SFT,最终的是有RL效果的。而且相比较基于RL训练的同等模型,效果要更好。

而遗憾就是在官方的paper没有公布一下数据及蒸馏方式。总的来说是如下几个方面的细节:

  1. 基于R1生成的long CoT数据是如何生成的?又是怎么样的结构?
  2. 蒸馏方式是什么?直接通过KL散度处理输出的logits嘛?

带着这两个问题,查询检索了很多信息,但是都没有一个答案,毕竟官方没有放出来的话,一般是不会有准确信息的,同样在官方issue上很多人都提了类似的问题。

不过在一个issue[2]下,倒是有一个回答从浅层次的说明了如何生成数据——prompt。

并且另外开了一个分支[3],来解释说明prompt。

不过也只是阐述了一下大致的逻辑,但具体的实践还是有待考证,不过也是一个思路。

小结

相比较别的DeepSeek帖子,本文要更侧重于知识蒸馏,而这一部分在paper中也是极少叙述的,只是阐述了简单的过程及效果。而其中可挖掘的内容是很多的,尤其是在显存等硬件受限的情况下,通过API调用DeepSeek R1生成的数据结合自定义的CoT数据,训练小模型,最后取得更好的效果。可惜,官方paper这些都没有放出来,但issue上关于这块的也是不少,希望官方可以考虑放出来一下。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5