链载Ai

标题: 大模型的训练数据解决方案深度分析 2024 [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: 大模型的训练数据解决方案深度分析 2024


1大模型的训练数据

数据是大模型的关键要素,其所需的数据的种类也非常广泛,涉及多种模态。以语言大模型为例,其所需要的数据包括多语言数据、代码数据、人工标注数据等多种类别。

1.1大模型的训练数据处理流程和特点

根据大模型训练的尺度定律(scaling law),数据规模、模型参数与大模型性能存在紧密关系。近期,微软研究工作表明提高数据质量可以极大地改变尺度定律的形状。

通过构建7B的小规模“教科书(Textbooks)”高质量的代码训练数据(包括从web上筛选的“教科书质量”数据(6B tokens)以及使用GPT-3.5生成的教科书和练习(1Btokens)),训练1.3B模型phi-1在代码评测集HumanEval上Pass@1准确率达到了50.6%,超越GPT-3.5(175B,超过2TB训练数据)的47%。

该方法表明,通过构建高质量的数据,可以大大降低大模型训练需要的数据规模,具有重要指导意义。

下面是几类用于提升数据质量的预处理方法。

当前,大模型训练不仅需要大量的无标注数据,而且也需要高质量的人工标注数据,用于模型微调等任务。语言大模型通常需要人类提供明确的指令用于生成有用的输出,标注者通常需要编写提示,典型的提示类型包括如下几种:

1.3大模型常用的公开数据集

当前已经出现一批大模型数据集,涵盖多种模态。代表性的数据集既包括ALIGN、VAST-27M、WebVid-2.5M等多模态数据集,还包括BookCorpus、Common Crawl、HH-RLHF等语言大模型数据集。

表1大模型常用的公开数据集

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space: normal;background-color: rgb(255, 255, 255);">






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5