返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

AI大模型那么强,它是吃什么长大的?

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">AI为什么那么强?大模型为什么那么厉害?

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">是因为它“吃的好”!而且“吃的多”! 

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;"> 

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">吃的好是什么意思呢?就是它从小到大,学习了非常高质量的数据,几乎把人类所有优质的内容都学了一遍。 

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;"> 

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">吃的多是什么意思呢?就是它从小到大,学习了海量的高质量数据,几乎把人类互联网上能看到的都学了一遍。 

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;"> 

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;">过去的AI模型不够厉害,有一个关键原因,就是“吃的不够多,吃的也不够好”。 

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 16px 4px;word-break: break-all;min-height: 20px;"> 

现在的AI模型厉害,恰恰是因为它“吃的多,也吃的好”! 

 

那具体而言,大模型它在训练过程中,到底学习了哪些高质量数据呢? 

 

这篇文章就来分享,有关大模型训练数据集的内容。 

 

01 训练数据集的要求

 

如果想要训练出一个强大的大模型,必须要给它喂养高质量、大规模、以及丰富多彩的数据集。 

 

高质量,目的是为了提高模型的精度和可解释性,从而减少训练时长。如果都是一堆低质量数据,那大模型训出来也是低智能的AI,因为大模型训练遵循“Garbage in Garbage out”的原则。 

 

大规模,指的是大模型所需要的训练数据,数量要大、训练参数也大,这样得到的预训练模型效果才会越好。如果数据量太小,那达不到涌现的程度,大模型自然也就不会那么智能。 

 

丰富多彩,目的是为了提高模型的泛化能力,也就是说,遇到新的数据,它也能够处理。如果泛化能力弱,那么遇到新的场景和问题,它就变成傻子了。所以训练数据集必须包含多个领域的知识,单一数据容易出现过拟合现象。 

 

02 数据集的产生过程

 

既然大模型既要“吃的多”,又要“吃的好”,该如何才能满足它的这两个要求呢? 

 

这个时候,就需要建立一套完整的数据集搭建过程,来保证最后的数据集质量,具体的搭建过程包含三步。 

 

第一步,数据采集。从多个渠道,采集各种类型的数据,可以包括音频、视频、文本、图片等各种数据。 

 

第二步,数据清洗。这一步是为了提升数据质量,把那些噪声数据、重复数据,以及缺失数据进行处理。 

 

第三步,数据标注。也是数据集搭建过程中,最重要的一环节。往往会根据不同的需求,指定相应的数据标注规则,然后每一个标注任务都有不同的规范和标注点要求,一般由标注员来完成。 

 

现在我们看到的大模型,背后使用的海量数据,有很多标注员的工作参与其中,一般来说,一个标注任务将会分配给多个标注员去完成。 

 

做完前面的三步之后,数据集的搭建就基本完成了。后面的工作,就是对模型进行训练,以及模型测试,最后做模型评估。 

 

模型训练,是指技术人员利用已经标注好的数据,训练需要的算法模型。模型测试,是指审核员进行模型测试,并反馈技术人员,并不断调整参数。模型评估,是指上线前做最后的评估。 

 

03 数据标注的分类

 

前面提到,数据标注是数据集搭建过程中,最重要也是最核心的一个环节,那具体有哪些数据标注的种类呢? 

 

具体而言,主要有三种,分别是文本数据标注,语音数据标注,以及图像数据标注。 

 

文本数据标注,常见的任务有:文本分类、OCR转写、实体标注、情感标注、意图标注、语义标注等。简单来说,就是给你一段文本,让你给这段文本根据上面的类别,打上具体的标签。 

 

文本标注完成之后,会有相对应的技术人员,使用一些算法来去评估文本标注的质量,比如BLEU算法,ROUGE算法等。 

 

语音数据标注,常见的任务有:发音校对、语音清洗、语音切割、韵脚标注、音素标注、情绪判定等。简单来说,就是给你一段音频文件,你需要根据上面的任务分类,给它打上具体的标签。 

 

语音数据标注完成后,会有对应的技术人员,使用算法对语音标注额质量进行评估,比如WER算法和SER算法等。 

 

图像数据标注,常见的任务有:实体分割,线段标注、目标跟踪标注。简单来说,就是给你一张图片,然后你需要对这个图片里的内容,根据上述的分类,打上具体的标签。 

 

图像数据标注完成后,同样会有对应的技术人员,使用一定的算法对标注结果进行评估,比如MV算法、EM算法、RY算法等。 

 

上面这些内容,就是数据标注中具体的事项,但还有一点没有说,就是这些数据到底从何而来? 

 

04 主流数据集

 

既然参数量和数据量是判断大模型的重要参数,那大模型的训练数据集究竟从何而来呢? 

 

这里拿GPT模型来举例,2018年的GPT-1数据集约4.6GB,2020年GPT-3的数据集达到了753GB,这些数据集来源主要包含六类: 

 

1.维基百科:它是多语言的百科全书 

2.书籍:用来训练模型的故事讲述能力和反应能力,主要包括小说和非小说两大类。比如说,Project Gutenberg是一个拥有7万多本免费电子书的图书馆,BookCorpus里面有海量的作家未出版的书籍。 

3.期刊:包含了各种各样的许多领域的期刊。 

4.WebText:它主要是来自Reddit社区网站的高赞文章,类似于中国的知乎,里面有大量主流的优质额文本内容。 

5.Common Crawl:里面包含了2008年至今的所有爬虫数据。 

6.其它数据集:比如Github代码数据集,视频字幕数据集,The Pile数据集等。 

 

正是因为有了上面这6种丰富的数据集来源,才能让大模型的预训练成为可能。 

 

尾声:

 

大模型到底是吃什么长大的?想必看完今天的分享,你应该有了答案。 

 

它不仅吃的多,而且还吃的好。正是因为大模型的训练数据集满足,大规模、高质量、丰富性高、这三个特点,所以才会在预训练结束后的基础模型中,就涌现出了智能。 

 

当然数据集的搭建过程,也是一个漫长且需要专业的工作,包括了数据采集、数据清洗、以及数据标注,其中标注是最重要的环节,包含了对文本、语音、以及图像内容的标注。 

 

如果你也想要训练属于自己的大模型,那你一定要考虑好,是否有足够多且足够好的数据,来去喂养它。 

 

作为普通人而言,如果没有训练大模型的打算,那就尽快坐享渔翁之利,好好的把AI和大模型利用起来吧! 

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ