MoE的特征优势是专家化、动态化、稀疏化,在模型研发成本、训练/推理效率和整体性能之间实现最佳平衡。一是采用混合专家方法,各专家模型面向不同数据或任务进行针对性建模和处理,提升模型的准确性和专业能力,更好地适应多模态数据及复杂/特定任务计算。二是根据任务的需求灵活选择并组合适宜的专家模型,使得模型能够动态地适应不同的输入样本和任务场景,提高模型的灵活性、可解释性和表达能力。三是只激活或使用部分专家模型,减少不必要的计算,提升模型计算速度并降低算力需求。研究表明,与稠密模型相比,MoE+指令调优仅使用1/3算力就能提升大模型性能约45%,缩短训练时间2,且参数规模越大,效果越好。
MoE不是一种全新的技术,与Transformer融合迈过发展“拐点”。早期MoE主要作为一种集成学习方法,用于提升模型预测性能,如谷歌将MoE引入自然语言处理领域,提升机器翻译性能。2020年,谷歌Gshard首次将MoE引入Transformer构建分布式并行计算架构,打开MoE发展新思路。之后,MoE逐渐进入规模发展阶段,作为一种底层架构优化方法,与Transformer结合,陆续被用于推荐系统、自然语言处理、计算机视觉、多模态大模型等领域。