一文搞懂DeepSeek - 基于R1蒸馏Qwen1.5B

显示全部楼层

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);">知识蒸馏是一种将复杂的大型模型（教师模型）的知识迁移到较小的模型（学生模型）中的技术。在这个过程中，教师模型的推理能力和知识被提炼并转移到学生模型中，从而使学生模型能够在保持较高性能的同时，具有更低的计算复杂度和资源消耗。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);">图解深度学习 - 数据蒸馏和知识蒸馏ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);">

DeepSeek通过创新的蒸馏技术、精心准备的数据、有效的蒸馏方法和模型微调与优化等手段，成功地将R1的模型能力蒸馏到Qwen-1.5B中，使得Qwen-1.5B具备了与o1-mini相似的能力。这一成果为AI技术的未来发展带来了新的思考和启示。

基于R1蒸馏Qwen1.5B分为准备和蒸馏两阶段，准备阶段选教师和学生模型，蒸馏阶段提炼教师知识到学生模型，降低计算成本。

一、准备阶段

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;text-wrap: wrap;background-color: rgb(255, 255, 255);-webkit-tap-highlight-color: transparent;outline: 0px;">如何选择教师模型与学生模型？ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.578px;text-align: left;background-color: rgb(255, 255, 255);color: rgb(172, 57, 255);">准备阶段主要是选择和设计模型，即挑选一个性能优秀的大型神经网络作为教师模型，并设计一个结构相对简单的小型神经网络作为学生模型。

教师模型：DeepSeek-R1，这是一个经过大规模强化学习训练出的强大推理模型，在数学、编程等推理任务上表现出色。
学生模型：Qwen-1.5B，这是一个参数较少、计算资源需求较低的模型，需要通过蒸馏过程学习R1的推理能力。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;text-align: left;background-color: rgb(255, 255, 255);-webkit-tap-highlight-color: transparent;outline: 0px;">如何构建蒸馏数据集？ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.578px;text-align: left;background-color: rgb(255, 255, 255);color: rgb(172, 57, 255);">选择一个与R1模型训练时相似或相关的数据集。这个数据集应该包含足够的样本，以覆盖R1模型所擅长的各种任务和场景。ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.578px;text-align: left;background-color: rgb(255, 255, 255);color: rgb(172, 57, 255);">可以考虑使用R1模型训练时的原始数据集或其子集作为蒸馏数据集。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.578px;text-align: left;background-color: rgb(255, 255, 255);color: rgb(172, 57, 255);">通过蒸馏DeepSeek-R1的输出，高效的DeepSeek-R1-Distill-Qwen-7B能在各方面全面超越非推理模型，如GPT-4o-0513。DeepSeek-R1-14B在所有评估指标上都超越了QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试上则显著超过了o1-mini。这些结果展示了蒸馏的强大潜力。

二、蒸馏阶段

如何进行知识蒸馏？蒸馏阶段则是通过软化教师模型的输出、训练学生模型以及微调与优化等步骤，将学生模型的知识从教师模型中提炼并迁移过来，从而在保持较高性能的同时降低计算成本。

软化教师模型输出：使用温度参数对教师模型的输出进行软化处理，使其变得更加平滑和具有不确定性。这有助于学生模型学习到更丰富的信息。
训练学生模型：使用蒸馏数据集和软化后的教师模型输出作为训练目标来训练学生模型。在训练过程中，通过调整损失函数和学习率等参数来优化学生模型的性能。
评估与微调：在训练过程中定期评估学生模型的性能，并根据评估结果进行相应的微调。这可以帮助学生模型更好地适应蒸馏任务的要求并提高其性能水平。

DeepSeek的蒸馏体系是什么？DeepSeek的蒸馏体系分为渐进式分层和两阶段两种。渐进式分层蒸馏通过结构、特征和逻辑三级，分别迁移注意力模式、对齐隐层表征、优化决策路径。而两阶段蒸馏则通过教师模型提取推理能力，再由学生模型封装，同时利用强化学习在蒸馏中学习和修正错误，提升推理能力。

渐进式分层蒸馏体系：DeepSeek创新性地提出了这一体系，突破了传统的单阶段蒸馏模式。它构建了三级蒸馏体系，包括结构蒸馏、特征蒸馏和逻辑蒸馏，分别迁移注意力模式、对齐隐层表征和优化决策路径。
两阶段蒸馏法：分为教师模型和学生模型阶段。在教师模型阶段，提取R1的推理能力；在学生模型阶段，通过注意力对齐损失和输出分布匹配，将推理过程封装到Qwen-1.5B中。
强化学习训练：DeepSeek在推理模型的训练方式上进行了创新，采用强化学习（RL）策略而非传统的监督微调。这有助于模型在蒸馏过程中不断学习和修正错误，从而提升推理能力。