【LLM】通过文本质量的修剪来提高语言模型的训练效率

显示全部楼层

一句话结论

本文提出了一种新颖的方法，通过数值化评估大型未标记NLP数据集中的文本质量并赋予“质量分数”，以模型不可知的方式提高语言模型的训练效率和效果。

论文的背景

近年来，语言模型（LM）由于在各种自然语言处理（NLP）任务中的卓越表现而受到了显著关注。然而，它们的训练过程常常依赖于计算密集的程序，这些程序涉及大规模数据集和计算需求，这阻碍了在嘈杂的现实世界或特定领域数据集上训练大规模LM。更糟糕的是，这些数据集中的许多未经策划，可能包含有害内容，LM模型在训练过程中可能会获取这些内容。

文本质量评估在评估文本数据的适用性和可靠性方面扮演着至关重要的角色，用于LM的训练。以前的研究探索了多种文本质量评估方法，主要侧重于人工注释和主观判断。虽然这些方法提供了有价值的见解，但它们受到可扩展性限制和主观性偏见的影响。为了克服这些限制，最近的工作探索了使用自动化方法评估质量的方法，例如使用ChatGPT或GPT-4来评估文本的质量，如果ChatGPT/GPT-4认为文本与人类文本相似，则该文本被认为是高质量的（。然而，这些方法依赖于模型并且需要训练大型语言模型，这与高效训练LM的目的相悖

论文的方案

通过提出一种在大型未标记NLP数据集中数值化评估文本质量的新方法来解决这个问题，旨在提高LM训练的性能和效率。还确保文本质量指标是模型不可知的，帮助避免对每个模型重新计算这些质量指标。通过利用这个数值文本质量分数，论文演示了如何使用它来修剪原始数据集，使得只使用数据的一部分进行LM的训练。

论文的方法旨在识别和消除低质量的文本实例，从而简化训练过程并减轻处理大规模数据集的负担。论文还通过确保有害内容在我们的文本质量分数中得到低评分，从而可以被修剪，从数据中去除潜在有害的内容。例如，当在OpenWebText数据集上训练时，观察到在14个下游评估任务中多个LM模型的平均绝对准确度提高了0.9%，同时使用的数据减少了40%，训练速度提高了42%；在使用Wikipedia数据集时，平均绝对准确度提高了0.8%，同时使用的数据减少了20%，训练时间缩短了

论文的效果

论文建立了一个框架，以模型不可知的方式定量评估文本质量，并随后指导NLP数据集的修剪以进行LM训练。通过利用这个质量分数指标，能够更有效地分配计算资源，并减少LM训练所需的数据。这种方法不仅加快了训练过程，而且还提高了模型的整体效果

论文标题：Text Quality-Based Pruning for Efficient Training of Language Models

论文链接：https://arxiv.org/pdf/2405.01582