GaLore 革新大语言模型训练方法

显示全部楼层

GaLore是一种兼顾内存效率与性能的大语言模型训练学习方法。

大规模语言模型（LLM）的训练一直面临着内存密集型的挑战。传统的降低内存消耗的方法（例如压缩模型权重）通常会导致性能下降。来自加州理工学院、Meta AI、德克萨斯大学奥斯汀分校和卡内基梅隆大学的研究人员提出了一种名为 Gradient Low-Rank Projection (GaLore) 的新方法，它着眼于梯度而非模型权重，有望在不牺牲性能的情况下提高内存效率。

GaLore 方法

GaLore 的方法与传统方法的不同之处在于它专注于梯度，而不是模型权重。通过将梯度投影到低维空间，GaLore可以在充分探索参数空间的同时兼顾内存效率。实验证明，该方法可以在维持甚至超越全秩训练方法性能的基础上大幅降低内存开销，特别是在 LLM 的预训练和微调阶段。

GaLore 的核心创新在于它独特的梯度投影方式，在不降低训练效率的前提下将优化器状态的内存使用量减少高达 65.5%。它通过引入梯度的紧凑表示来实现这一点，从而保证了训练动态的完整性，并大幅降低内存消耗。GaLore 使得在普通消费级 GPU 上训练数十亿参数的模型成为可能，这在以前只能通过复杂的模型并行或海量计算资源来实现。

优势

GaLore 的优势包括其与各种优化算法的兼容性，可以轻松地纳入现有训练流程中。此外，它在不同基准测试的预训练和微调场景中的应用已经展现了它能够在显著降低内存需求的情况下提供极具竞争力的结果。例如，GaLore 支持在消费级 GPU 上对多达 70 亿参数的模型进行预训练，这突出了该方法改变模型开发格局的潜力。

对 GaLore 的全面评估表明，它比其他低秩适应方法具有优越的性能。GaLore 在应用于大规模语言模型时，显着节省内存并取得了相当或更好的结果，这巩固了它作为一种有效训练策略的地位。在主流 NLP 基准测试的预训练和微调中，GaLore 的内存优势更为明显，其结果质量并没有受到影响。

结论

GaLore 代表了 LLM 训练领域的重大突破，为解决大规模语言模型训练的内存挑战提供了强有力的方案。通过其创新的梯度投影技术，GaLore 达成了显著的内存效率，同时保持甚至在某些情况下提升模型性能。它与各种优化算法的兼容性进一步巩固了它作为一种通用且有影响力的研究人员和从业者工具的地位。GaLore 的出现标志着 LLM 训练民主化的关键时刻，有可能加速自然语言处理及相关领域的进步。

这篇研究报告的主要结论有：

GaLore 在不影响性能的情况下显著降低了大规模语言模型训练中的内存使用量。
它采用了新颖的梯度投影方法来充分探索参数空间，从而提高训练效率。
GaLore 与各种优化算法兼容，可无缝集成到现有模型训练工作流中。
全面的实验证实了 GaLore 在预训练和微调基准测试中提供具有竞争力的结果的能力，展示了其彻底变革 LLM 训练的潜力。