链载Ai

标题: 大语言模型的“大”体现在哪里 [打印本页]

作者: 链载Ai    时间: 4 小时前
标题: 大语言模型的“大”体现在哪里

大语言模型中的"大"通常体现在以下几个方面,参数数量,训练数据和计算资源:

  1. 参数数量:

上图为大规模语言模型的参数量随着时间的变化图,2022年左右大规模语言模型大量出现,参数量在100B(1千亿)左右,

  • 训练数据:

  • 从下面的图可以看到,Meta 开源的llama所需要的训练数据有2T(2万亿)token,阿里开源的通义千问模型的训练数据达到了3T(3万亿)。这个训练数据是什么量级呢,我们可以来类比一下,2022年底的时候,维基上有640万篇文章,这些文章的token量大概是40亿。

  • 计算资源:

  • ​上图中我们可以看到一台8卡的A100(80G)的服务器大概可以提供的计算量为5PFlop/s-day,假设GPT4有万亿参数量,其大概需要的计算量为75352 PFlop/s-day,如果需要15天训练完成的话,估计需要万卡的GPU集群。

    所以,大语言模型的规模不仅体现在参数数量上,还包括训练数据、计算资源上,这些“大”使得大规模语言模型的泛化能力和应用领域等都得到极大增强。大语言模型在增强泛化能力的情况下,还会带来给应用领域带来变革。






    欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5