|
大语言模型中的"大"通常体现在以下几个方面,参数数量,训练数据和计算资源:
参数数量:
上图为大规模语言模型的参数量随着时间的变化图,2022年左右大规模语言模型大量出现,参数量在100B(1千亿)左右,
训练数据:
从下面的图可以看到,Meta 开源的llama所需要的训练数据有2T(2万亿)token,阿里开源的通义千问模型的训练数据达到了3T(3万亿)。这个训练数据是什么量级呢,我们可以来类比一下,2022年底的时候,维基上有640万篇文章,这些文章的token量大概是40亿。
计算资源:
上图中我们可以看到一台8卡的A100(80G)的服务器大概可以提供的计算量为5PFlop/s-day,假设GPT4有万亿参数量,其大概需要的计算量为75352 PFlop/s-day,如果需要15天训练完成的话,估计需要万卡的GPU集群。
所以,大语言模型的规模不仅体现在参数数量上,还包括训练数据、计算资源上,这些“大”使得大规模语言模型的泛化能力和应用领域等都得到极大增强。大语言模型在增强泛化能力的情况下,还会带来给应用领域带来变革。
|