ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);">知识蒸馏是一种将复杂的大型模型(教师模型)的知识迁移到较小的模型(学生模型)中的技术。在这个过程中,教师模型的推理能力和知识被提炼并转移到学生模型中,从而使学生模型能够在保持较高性能的同时,具有更低的计算复杂度和资源消耗。
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);">图解深度学习 - 数据蒸馏和知识蒸馏ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);">
DeepSeek通过创新的蒸馏技术、精心准备的数据、有效的蒸馏方法和模型微调与优化等手段,成功地将R1的模型能力蒸馏到Qwen-1.5B中,使得Qwen-1.5B具备了与o1-mini相似的能力。这一成果为AI技术的未来发展带来了新的思考和启示。
基于R1蒸馏Qwen1.5B分为准备和蒸馏两阶段,准备阶段选教师和学生模型,蒸馏阶段提炼教师知识到学生模型,降低计算成本。
一、准备阶段
教师模型:DeepSeek-R1,这是一个经过大规模强化学习训练出的强大推理模型,在数学、编程等推理任务上表现出色。
学生模型:Qwen-1.5B,这是一个参数较少、计算资源需求较低的模型,需要通过蒸馏过程学习R1的推理能力。
二、蒸馏阶段
DeepSeek的蒸馏体系是什么?DeepSeek的蒸馏体系分为渐进式分层和两阶段两种。渐进式分层蒸馏通过结构、特征和逻辑三级,分别迁移注意力模式、对齐隐层表征、优化决策路径。而两阶段蒸馏则通过教师模型提取推理能力,再由学生模型封装,同时利用强化学习在蒸馏中学习和修正错误,提升推理能力。
渐进式分层蒸馏体系:DeepSeek创新性地提出了这一体系,突破了传统的单阶段蒸馏模式。它构建了三级蒸馏体系,包括结构蒸馏、特征蒸馏和逻辑蒸馏,分别迁移注意力模式、对齐隐层表征和优化决策路径。
两阶段蒸馏法:分为教师模型和学生模型阶段。在教师模型阶段,提取R1的推理能力;在学生模型阶段,通过注意力对齐损失和输出分布匹配,将推理过程封装到Qwen-1.5B中。
强化学习训练:DeepSeek在推理模型的训练方式上进行了创新,采用强化学习(RL)策略而非传统的监督微调。这有助于模型在蒸馏过程中不断学习和修正错误,从而提升推理能力。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |