链载Ai

标题: 大语言模型的“大”体现在哪里 [打印本页]

作者: 链载Ai 时间: 4 小时前
标题: 大语言模型的“大”体现在哪里

大语言模型中的"大"通常体现在以下几个方面，参数数量，训练数据和计算资源：

上图为大规模语言模型的参数量随着时间的变化图，2022年左右大规模语言模型大量出现，参数量在100B（1千亿）左右，

训练数据：

从下面的图可以看到，Meta 开源的llama所需要的训练数据有2T（2万亿）token,阿里开源的通义千问模型的训练数据达到了3T（3万亿）。这个训练数据是什么量级呢，我们可以来类比一下，2022年底的时候，维基上有640万篇文章，这些文章的token量大概是40亿。

计算资源：

上图中我们可以看到一台8卡的A100(80G)的服务器大概可以提供的计算量为5PFlop/s-day，假设GPT4有万亿参数量，其大概需要的计算量为75352 PFlop/s-day，如果需要15天训练完成的话，估计需要万卡的GPU集群。

所以，大语言模型的规模不仅体现在参数数量上，还包括训练数据、计算资源上，这些“大”使得大规模语言模型的泛化能力和应用领域等都得到极大增强。大语言模型在增强泛化能力的情况下，还会带来给应用领域带来变革。

欢迎光临链载Ai (https://www.lianzai.com/)