MLLM MoE！UIUC联合字节提出视觉编码器稀疏门控MOE！

显示全部楼层

数源AI 最新论文解读系列

论文名：CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts

论文链接：https://arxiv.org/pdf/2405.05949.pdf

开源代码：https://github.com/SHI-Labs/CuMo

引言

GPT-4V的出现引发了开源社区的兴奋，他们希望将大型语言模型（LLM）转变为多模态LLM。最近的多模态LLM通常将预训练的视觉编码器和LLM与视觉指导调整数据整合在一起，以微调预训练的LLM，增强其视觉理解能力。为了进一步扩展多模态LLM，先前的努力主要集中在用更广泛的文本-图像配对数据训练模型，并采用更强大的LLM，显著增加了训练工作量。在视觉方面，最近的工作集中在利用多个视觉编码器来丰富视觉内容，采用更大的视觉编码器，并使用先进的视觉-语言连接器来提高多模态任务的性能。然而，这些技术导致了额外参数的增加，并为LLM生成了额外的视觉标记，使得扩展变得低效。

简介

受到在LLMs中成功应用的专家混合（Mixture-of-Experts，MoE）的启发，该方法在训练过程中提高了模型的可扩展性，同时保持了推理成本与较小模型相似，我们提出了CuMo，它将Co-upcycled Top-K稀疏门控Mixture-of-experts块融入视觉编码器和MLP连接器中，从而通过在推理过程中激活的参数可以忽略不计地增强了多模态LLMs。 CuMo首先对MLP块进行预训练，然后在视觉指导调整阶段，从预训练的MLP块中初始化MoE块中的每个专家，通过辅助损失确保专家的平衡负载。CuMo在各种VQA和视觉指导跟随基准测试中的各个模型大小组内均优于最先进的多模态LLMs，同时仅在开源数据集上进行训练。

方法与模型

，我们首先回顾了先前研究中使用的稀疏MoE块结构和循环利用策略。随后，我们描述了如何利用共同循环利用策略将这些稀疏门控MoE块集成到多模态LLM的每个模块中。然后，我们介绍了用于稳定训练和平衡专家负载的三阶段训练过程和辅助损失函数。

01Revisit Sparse MoE

(1) 稀疏的MoE结构

先前的主流做法[60]是用稀疏门控的专家混合块替换密集的MLP块。给定输入X∈RN×Cin 和一个MLP块，

为了扩展具有多个MLP块的模型，稀疏的MoE块包括一个路由网络，以从总共S个专家中选择前K个专家。该路由网络具有一个线性层，根据输入X计算归一化权重矩阵以进行投票，结果为

对于每个标记，基于W选择前K个专家，并使用重新归一化的权重WK∈RN× K进行计算

每个选定的专家由一个MLP块表示，并通过重新加权求和获得最终输出。

输出Xout 保持与单个密集MLP块输出相同的维度。

(2) 稀疏升级

从头开始训练基于MoE的设计可能不稳定且成本高昂。稀疏升级[33]通过从预训练的密集检查点中的相应MLP块初始化每个MoE块中的专家来解决这一挑战。这种初始化方法为训练基于MoE的模型提供了更好的起点，并降低了与从头开始训练相比的训练成本。

02CuMo Architecture

(1) MLP连接器中的稀疏MoE

MLP连接器将视觉标记转换为词嵌入空间，对齐视觉和文本标记之间的维度。用于视觉-语言连接器的有效架构是一个包含两个线性层的MLP块[46]。我们从单个MLP块开始，并将其替换为一个Top-K稀疏MoE块，其中包括一个Top-K 路由器和一组专家，用于将视觉标记投影到词嵌入空间中。

(2)视觉编码器中的稀疏MoE

视觉编码器将图像特征提取为视觉标记序列，用于在LLM中进行推理。CLIP [57] 是最受欢迎的预训练视觉编码器之一，用于多模态LLM，因为它在大规模图像-文本对上进行了预训练，适用于处理图像以供多模态使用。CLIP的视觉编码部分是一个ViT[15]模型，其中在transformer 编码器中有连续的MLP块。我们用一个Top-K稀疏MoE 块替换每个MLP块，保留MoE块输出旁边的跳跃连接。

（3）LLM中的稀疏MoE

在使用MoE进行LLM时，我们将协同升级的LLM与基于预训练MoE的LLM进行比较。我们从Mistral-7B开始，升级后的Mistral-7B-MoE 在某些基准测试中略优于Mistral-7B。然而，考虑到来自Mistral-7B 的升级专家的受限知识库，我们将其与具有多样化知识库的预训练专家的预训练Mixtral8x7B 进行比较。实验结果表明，预训练Mixtral8x7B明显优于Mistral-7B-MoE。因此，LLM 未与CLIP和MLP连接器协同升级，因为它带来了微小的改进，但增加了大量的额外参数。

03Training Recipe

（1）共同升级再利用MoE模块

我们从头开始训练添加的 MoE模块，同时模型正在努力收敛。尝试通过降低学习率来解决这个问题的做法与基准相比效果更差。因此，我们采用了一种共同升级再利用的方法，将每个集成稀疏门MoE模块的模块与预训练的MLP替换相应的MLP模块，如图3所示。这种策略始终提高了训练稳定性和模型性能。

（2）三阶段训练

为了进一步增强训练稳定性，我们为 CuMo模型采用了三阶段训练策略，如图4所示。在第一阶段，我们仅对MLP连接器进行预训练，考虑到视觉编码器和LLM已经在大规模数据上进行了预训练。在第二个预微调阶段，我们使用高质量的字幕数据训练所有参数，以在引入MoE模块的后续阶段之前预热整个模型。第三阶段涉及视觉指导微调，其中多模态LLM通过再利用的MoE模块进行扩展，并在视觉指导微调数据上进行训练。

（3）损失函数

为了在每个MoE模块中维持专家之间的负载平衡，我们采用基于语言建模交叉熵损失的辅助损失。辅助损失包括负载平衡损失和路由器z-损失[77]。因此，总损失为

在这里，Lce代表语言建模损失，计算下一个标记预测的交叉熵。αb和αz分别表示加载平衡损失Lb和路由器z损失Lz的系数，设置为0.1和0.01，在所有实验中保持不变。这些辅助损失，在第4节中简称为bzloss，分别应用于MLP连接器、视觉编码器和LLM，以简化处理。

实验与结果

我们在一系列开源数据集上训练CuMo模型，这些数据集被转换为视觉指令调整格式。然后，我们对CuMo模型在各种竞争性VQA和基于指令跟随的基准测试中的性能进行全面评估。此外，我们对每个模块进行消融研究，使用升级的MoE块，并对结果进行定性分析。

CuMo与其他最先进的多模态LLM在竞争基准上的比较

用户与多模态LLM在具有挑战性的图像上的对话