从零开始学大模型，什么，GAN也能用于知识蒸馏？知识蒸馏算法之Adversarial distillation！！ - 链载Ai

对抗性知识蒸馏，通常有三种形式，如下图所示，
a)基于生成器的对抗性知识蒸馏，在这种方法中，生成器（教师模型也可以用来充当鉴别器，不需要有一个独立的鉴别器）不仅仅是生成数据样本，而是专门生成训练数据或特征，更好地模拟教师模型的输出。生成器试图生成逼真的训练数据，学生模型则尝试根据这些数据进行学习，目标是使学生模型的输出尽可能接近教师模型的输出。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;border-left: 3px solid rgb(15, 76, 129);color: rgb(63, 63, 63);">Pytorch实现demo

假设我们已经有了一个预训练好的教师模型和一个未训练的学生模型。

import torchimport torch.nn as nn
# 定义教师模型和学生模型class TeacherModel(nn.Module):def __init__(self):super(TeacherModel, self).__init__()self.conv = nn.Conv2d(1, 16, kernel_size=3, stride=2, padding=1)self.relu = nn.ReLU()self.fc = nn.Linear(16*14*14, 10)
def forward(self, x):x = self.relu(self.conv(x))x = x.view(x.size(0), -1)return self.fc(x)
class StudentModel(nn.Module):def __init__(self):super(StudentModel, self).__init__()self.conv = nn.Conv2d(1, 8, kernel_size=3, stride=2, padding=1)self.relu = nn.ReLU()self.fc = nn.Linear(8*14*14, 10)
def forward(self, x):x = self.relu(self.conv(x))x = x.view(x.size(0), -1)return self.fc(x)
teacher = TeacherModel()student=StudentModel()

class Discriminator(nn.Module):def __init__(self):super(Discriminator, self).__init__()self.fc = nn.Linear(10, 1)
def forward(self, x):return torch.sigmoid(self.fc(x))

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">训练过程中，我们需要同时优化学生模型和鉴别器

# 损失函数和优化器criterion = nn.BCELoss()optimizer_student = torch.optim.Adam(student.parameters(), lr=0.001)optimizer_discriminator = torch.optim.Adam(discriminator.parameters(), lr=0.001)
for epoch in range(num_epochs):for data in dataloader:inputs, _ = data# 教师和学生模型的预测teacher_outputs = teacher(inputs)student_outputs = student(inputs)# 真实标签和假标签real_labels = torch.ones(inputs.size(0), 1)fake_labels = torch.zeros(inputs.size(0), 1)# 训练鉴别器discriminator_real = discriminator(teacher_outputs.detach())discriminator_fake = discriminator(student_outputs.detach())real_loss = criterion(discriminator_real, real_labels)fake_loss = criterion(discriminator_fake, fake_labels)discriminator_loss = (real_loss + fake_loss) / 2optimizer_discriminator.zero_grad()discriminator_loss.backward()optimizer_discriminator.step()
# 训练学生模型outputs = discriminator(student_outputs)student_loss = criterion(outputs, real_labels)optimizer_student.zero_grad()student_loss.backward()optimizer_student.step()

链载Ai

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;display: table;border-bottom: 2px solid rgb(15, 76, 129);color: rgb(63, 63, 63);visibility: visible;">引言

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;border-left: 3px solid rgb(15, 76, 129);color: rgb(63, 63, 63);">基本原理

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;border-left: 3px solid rgb(15, 76, 129);color: rgb(63, 63, 63);">Pytorch实现demo