AI大模型那么强，它是吃什么长大的？

显示全部楼层

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">AI为什么那么强？大模型为什么那么厉害？

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">是因为它“吃的好”！而且“吃的多”！　

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">　

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">吃的好是什么意思呢？就是它从小到大，学习了非常高质量的数据，几乎把人类所有优质的内容都学了一遍。　

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">　

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">吃的多是什么意思呢？就是它从小到大，学习了海量的高质量数据，几乎把人类互联网上能看到的都学了一遍。　

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">　

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">过去的AI模型不够厉害，有一个关键原因，就是“吃的不够多，吃的也不够好”。　

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">　

现在的AI模型厉害，恰恰是因为它“吃的多，也吃的好”！　

那具体而言，大模型它在训练过程中，到底学习了哪些高质量数据呢？　

这篇文章就来分享，有关大模型训练数据集的内容。　

01 训练数据集的要求

如果想要训练出一个强大的大模型，必须要给它喂养高质量、大规模、以及丰富多彩的数据集。　

高质量，目的是为了提高模型的精度和可解释性，从而减少训练时长。如果都是一堆低质量数据，那大模型训出来也是低智能的AI，因为大模型训练遵循“Garbage in Garbage out”的原则。　

大规模，指的是大模型所需要的训练数据，数量要大、训练参数也大，这样得到的预训练模型效果才会越好。如果数据量太小，那达不到涌现的程度，大模型自然也就不会那么智能。　

丰富多彩，目的是为了提高模型的泛化能力，也就是说，遇到新的数据，它也能够处理。如果泛化能力弱，那么遇到新的场景和问题，它就变成傻子了。所以训练数据集必须包含多个领域的知识，单一数据容易出现过拟合现象。　

02 数据集的产生过程

既然大模型既要“吃的多”，又要“吃的好”，该如何才能满足它的这两个要求呢？　

这个时候，就需要建立一套完整的数据集搭建过程，来保证最后的数据集质量，具体的搭建过程包含三步。　

第一步，数据采集。从多个渠道，采集各种类型的数据，可以包括音频、视频、文本、图片等各种数据。　

第二步，数据清洗。这一步是为了提升数据质量，把那些噪声数据、重复数据，以及缺失数据进行处理。　

第三步，数据标注。也是数据集搭建过程中，最重要的一环节。往往会根据不同的需求，指定相应的数据标注规则，然后每一个标注任务都有不同的规范和标注点要求，一般由标注员来完成。　

现在我们看到的大模型，背后使用的海量数据，有很多标注员的工作参与其中，一般来说，一个标注任务将会分配给多个标注员去完成。　

做完前面的三步之后，数据集的搭建就基本完成了。后面的工作，就是对模型进行训练，以及模型测试，最后做模型评估。　

模型训练，是指技术人员利用已经标注好的数据，训练需要的算法模型。模型测试，是指审核员进行模型测试，并反馈技术人员，并不断调整参数。模型评估，是指上线前做最后的评估。　

03 数据标注的分类

前面提到，数据标注是数据集搭建过程中，最重要也是最核心的一个环节，那具体有哪些数据标注的种类呢？　

具体而言，主要有三种，分别是文本数据标注，语音数据标注，以及图像数据标注。　

文本数据标注，常见的任务有：文本分类、OCR转写、实体标注、情感标注、意图标注、语义标注等。简单来说，就是给你一段文本，让你给这段文本根据上面的类别，打上具体的标签。　

文本标注完成之后，会有相对应的技术人员，使用一些算法来去评估文本标注的质量，比如BLEU算法，ROUGE算法等。　

语音数据标注，常见的任务有：发音校对、语音清洗、语音切割、韵脚标注、音素标注、情绪判定等。简单来说，就是给你一段音频文件，你需要根据上面的任务分类，给它打上具体的标签。　

语音数据标注完成后，会有对应的技术人员，使用算法对语音标注额质量进行评估，比如WER算法和SER算法等。　

图像数据标注，常见的任务有：实体分割，线段标注、目标跟踪标注。简单来说，就是给你一张图片，然后你需要对这个图片里的内容，根据上述的分类，打上具体的标签。　

图像数据标注完成后，同样会有对应的技术人员，使用一定的算法对标注结果进行评估，比如MV算法、EM算法、RY算法等。　

上面这些内容，就是数据标注中具体的事项，但还有一点没有说，就是这些数据到底从何而来？　

04 主流数据集

既然参数量和数据量是判断大模型的重要参数，那大模型的训练数据集究竟从何而来呢？　

这里拿GPT模型来举例，2018年的GPT-1数据集约4.6GB，2020年GPT-3的数据集达到了753GB，这些数据集来源主要包含六类：　

1.维基百科：它是多语言的百科全书　

2.书籍：用来训练模型的故事讲述能力和反应能力，主要包括小说和非小说两大类。比如说，Project Gutenberg是一个拥有7万多本免费电子书的图书馆，BookCorpus里面有海量的作家未出版的书籍。　

3.期刊：包含了各种各样的许多领域的期刊。　

4.WebText：它主要是来自Reddit社区网站的高赞文章，类似于中国的知乎，里面有大量主流的优质额文本内容。　

5.Common Crawl：里面包含了2008年至今的所有爬虫数据。　

6.其它数据集：比如Github代码数据集，视频字幕数据集，The Pile数据集等。　

正是因为有了上面这6种丰富的数据集来源，才能让大模型的预训练成为可能。　

尾声：

大模型到底是吃什么长大的？想必看完今天的分享，你应该有了答案。　

它不仅吃的多，而且还吃的好。正是因为大模型的训练数据集满足，大规模、高质量、丰富性高、这三个特点，所以才会在预训练结束后的基础模型中，就涌现出了智能。　

当然数据集的搭建过程，也是一个漫长且需要专业的工作，包括了数据采集、数据清洗、以及数据标注，其中标注是最重要的环节，包含了对文本、语音、以及图像内容的标注。　

如果你也想要训练属于自己的大模型，那你一定要考虑好，是否有足够多且足够好的数据，来去喂养它。　

作为普通人而言，如果没有训练大模型的打算，那就尽快坐享渔翁之利，好好的把AI和大模型利用起来吧！