链载Ai

标题: 陈丹琦团队新作:LLM指令微调仅选择5%的数据效果优于全量数据 [打印本页]

作者: 链载Ai    时间: 3 小时前
标题: 陈丹琦团队新作:LLM指令微调仅选择5%的数据效果优于全量数据
【导读】本文来自普林斯顿陈丹琦团队,提出了一种方法,能够在指令微调数据集中选择5%的数据效果就优于全量数据集的效果。且且适用于不同系列的模型和数据集。

简介

论文《LESS: Selecting Influential Data for Targeted Instruction Tuning 》来自普林斯顿陈丹琦团队,陈丹琦是清华本科(姚班),斯坦福博士即将毕业,师从Christopher Manning,毕业后成为普林斯顿大学计算机学院助理教授,在学期间曾在ACL,EMNLP,NIPS等自然语言处理与机器学习定会发表多篇文章。

论文思想

LESS 核心思想是通过优化器感知的方式从大量指令数据集中有效地选择5%有价值的数据用于目标指令微调,其在多个下游任务上的表现往往优于使用完整数据集的训练结果。此外,LESS算法选择的数据具有很好的迁移性,小模型选择的数据可以有效地用于训练更大的模型,且适用于不同系列的模型。

方法

1.准备阶段(Warmup Training):

2. 计算梯度特征(Compute Gradient Features):

3. 数据选择(Data Selection):

4. 目标模型训练(Training Final Model):

整个过程的核心思想是利用模型的梯度信息来估计数据点对于目标任务的影响,并通过选择具有高影响力的数据点来进行有针对性的训练,从而提高模型在特定任务上的性能。LESS方法的关键在于它能够适应现有的优化器(如Adam),并且能够有效地处理可变长度的指令数据。此外,LESS构建的梯度数据存储库可以重用于不同的目标任务,提高了数据选择过程的效率。

实验结果

实验结果对比了LESS和全量数据集(100%)、随机选择(5%)在不同模型、不同数据集下的效果。

关键结论:

总结

本文提出了一种基于优化器感知影响力的数据选择算法LESS。LESS 创建了一个有效且可重用的低维梯度特征的数据存储,以实现高效的数据选择。实验证明了 LESS 与全量数据(100%)、随机数据(5%)相比的有效性,并强调了使用较小模型选择数据来训练较大模型的能力。分析和消融实验表明,本文的方法选择了更多可解释的数据,但计算成本可能很高。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5