链载Ai

标题: Transformer动画讲解 - 注意力计算Q、K、V [打印本页]

作者: 链载Ai    时间: 3 天前
标题: Transformer动画讲解 - 注意力计算Q、K、V

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;color: rgb(172, 57, 255);visibility: visible;">注意力计算Q、K、V

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;text-indent: 0em;font-size: var(--articleFontsize);visibility: visible;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;visibility: visible;">Transformer的起源:ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;caret-color: rgba(0, 0, 0, 0.9);background-color: rgb(253, 253, 254);color: rgb(255, 76, 65);visibility: visible;">Google Brain 翻译团队通过论文《Attention is all you need》提出了一种全新的简单网络架构—ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;caret-color: rgba(0, 0, 0, 0.9);background-color: rgb(253, 253, 254);color: rgb(255, 76, 65);visibility: visible;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;background-color: rgb(255, 255, 255);">Transformer,它完全基于注意力机制,摒弃了循环和卷积操作。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);text-align: center;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">注意力机制是全部所需

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);">正如论文标题所言“注意力机制是全部所需”,强调了注意力机制是Transformer架构的核心要素,就如同人的心脏一样,充当着发动机的作用。

注意力计算Q、K、V

神经网络算法 - 一文搞懂Transformer

神经网络算法 - 一文搞懂 Transformer(总体架构 & 三种注意力层)

神经网络算法 - 一文搞懂Transformer中的三种注意力机制

注意力计算Q、K、V:在注意力机制中,Q(Query)、K(Key)、V(Value)通过映射矩阵得到相应的向量,通过计算Q与K的点积相似度并经过softmax归一化得到权重,最后使用这些权重对V进行加权求和得到输出。
Transformer注意力计算公式

权重矩阵W:W_Q、W_K和W_V

    权重矩阵W_Q计算Query(Q)在Transformer模型中,Query(Q)是通过将输入数据的嵌入矩阵E与权重矩阵W_Q相乘得到的。

        计算Q(Query)

        权重矩阵W_K计算Key(K)在Transformer模型中,Key(K)是通过将输入数据的嵌入矩阵E与权重矩阵W_K相乘得到的。

            计算K(Key)

            权重矩阵W_V计算Value(V)在Transformer模型中,Value(V)是通过将输入数据的嵌入矩阵E与权重矩阵W_V相乘得到的。

                计算V(Value)

                Q、K、V计算Q用于查询,K用于匹配,V提供被加权的信息。通过计算Q和K的点积来衡量注意力分数,进而决定V的加权方式。

                Q(query)、K(Key)、V(Value)计算






                欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5