“开源靠LLama，闭源看GPT“，Transformer变体第一阶段，Decoder-Only获胜？

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;visibility: visible;">

LLama3 & GPT-5

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);visibility: visible;">当我们回顾Transformer三大变体的第一阶段发展历程时，一个不容忽视的事实是：Decoder-Only结构似乎在这场竞赛中脱颖而出，赢得了初步的胜利。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);outline: 0px;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.578px;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;text-indent: 0em;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.544px;text-align: center;text-wrap: wrap;background-color: rgb(255, 255, 255);outline: 0px;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;">模型发展历史

—1—

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;text-wrap: wrap;background-color: rgb(255, 255, 255);font-size: 16px;letter-spacing: normal;caret-color: rgba(0, 0, 0, 0.9);visibility: visible;text-size-adjust: inherit;text-align: center;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;text-align: justify;visibility: visible;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;visibility: visible;">Transformer

Transformer遵循编码器-解码器总体架构，使用堆叠的自注意力机制和逐位置的全连接层，分别用于编码器和解码器，如图中的左半部分和右半部分所示。

Transformer架构

编码器-解码器架构

编码器 - 解码器架构：将现实问题转化为数学问题（Encoder编码器），通过求解数学问题来得到现实世界的解决方案（Decoder解码器）。

编码器 - 解码器架构

Transformer模型：将整个Transformer模型视为一个黑盒，在机器翻译任务中，它可以将句子从一种语言翻译成另一种语言。

打开这个黑盒，左边是N个编码器，右边是N个解码器，Transformer中的N为6。

详细了解看这篇：神经网络算法 - 一文搞懂Encoder-Decoder（编码器-解码器）

Transformer的编码器与解码器的本质区别

Transformer的编码器与解码器的本质区别：在于Self-Attention的Mask机制。

Encoder负责将输入序列转换为隐藏表示，通过多层自注意力和全连接层，捕捉序列中所有位置的依赖关系，无需使用Mask。

Decoder生成输出序列，利用Encoder输出和已生成部分序列作为输入。在Decoder的Self-Attention中，使用Mask防止当前位置受到未来信息影响，确保生成顺序和准确性。

详细了解看这篇：神经网络算法 - 一文搞懂Transformer中的三种注意力机制

编码器

Transformer中的编码器部分一共6个相同的编码器层组成。

每个编码器层都有两个子层，即多头自注意力层(Multi-Head Self-Attention)层和前馈神经网络(Feed-Forward Network)。

在每个子层后面都有残差连接（图中的虚线）和层归一化（LayerNorm）操作，二者合起来称为Add&Norm操作。

Transformer的编码器

解码器

Transformer中的解码器部分同样一共6个相同的解码器层组成。

每个解码器层都有三个子层，即因果自注意力层(Masked Self-Attention)、交叉注意力（Encoder-Decoder Attention）、前馈神经网络（Feed Forward）。

同样，在每个子层后面都有残差连接（图中的虚线）和层归一化（LayerNorm）操作，二者合起来称为Add&Norm操作。

Transformer的解码器

—2—

Transformer的三大变体

Transformer的三大变体：Decoder-Only专注生成文本，Encoder-Only擅于分析文本，Encoder-Decoder融合编解码实现文本生成和文本分析。

Transformer的三大变体

蓝色分支Decoder-Only模型：随着时间的推移，越来越多的Decoder-Only模型被推出，如LLama、GPT等，显示了这一分支的活跃度和发展势头。

粉色分支Encoder-Only模型：这些模型主要用于编码和表示输入序列，如BERT、RoBERTa等。

绿色分支Encoder-Decoder模型：结合了前两者的特点，既能够编码输入序列，又能生成输出序列，如T5、GLM（清华）。

Transformer的三大变体

Decoder-Only模型

Decoder-Only模型就如同一位即兴演讲者。你为他提供一个话题或者一个开头，比如“未来城市的模样”，他便能根据这个引子，滔滔不绝地展开演讲，描述出他心中的未来城市景象，直至演讲结束。

模型特点：擅长创造性写作，具备出色的文本生成能力。它能够根据已有信息，灵活扩展出新颖、连贯的内容，如自动生成文章、续写故事等。

典型代表：OpenAIGPT、Meta LLama，用于文本生成，通过捕捉文本中的语言模式和风格，使生成的文本更加自然、流畅。

OpenAI GPT

详细了解看这篇：神经网络算法 - 一文搞懂GPT（Generative Pre-trained Transformer）

Meta LLama

详细了解看这篇：国内“百模大战”，大部分都是套壳LLaMA？

Encoder-Only模型

Encoder-Only模型则像是一个侦探，它接收一段文字或信息（案件线索），然后深入解析、理解其内在含义（破案）。

模型特点：擅长分析和理解文本，捕捉文本中的关键信息，如情感、主题或实体。这种模型在文本分类、情感分析、信息抽取等任务中表现出色。

典型代表：GoogleBERT，用于处理输入数据，专注于理解和编码信息，而不是生成新的文本。

GoogleBERT

详细了解看这篇：神经网络算法 - 一文搞懂BERT（基于Transformer的双向编码器）

Encoder-Decoder模型

Encoder-Decoder模型就像是一位精通多种语言的翻译家。当你给它一段源语言文本时，它不仅能够理解并捕捉这段文本中的关键信息和语义，还能够将其精准地翻译成另一种目标语言。

模型特点：结合了编码与解码的功能，能够同时处理输入和输出序列，并在两者之间建立有效的联系，擅长文本生成和文本分析。

Encoder部分：负责文本分析，将输入序列（源语言文本）转化为一个固定长度的内部表示，这个表示包含了输入序列的所有关键信息。

Decoder部分：负责文本生成，根据这个内部表示来生成目标序列（目标语言文本）。

典型代表：清华GLM，在机器翻译、文本摘要和对话生成等任务中取得了显著的成果。

清华GLM