链载Ai

标题: 大语言模型笔面试-第4章 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: 大语言模型笔面试-第4章

1、attention中QKV的含义和作用?

本质计算当前文本中哪个词更重要对输出就应该增加影响力。通过计算每个词和当前文本中其他词之间的相关性(注意力分数矩阵),进而度量出当前词在整个文本更重要进而对输出应该加权影响更大。

进而将当前文本信息的压缩矩阵进行新一轮考虑语义影响的压缩变换,强化文内语义关联

1 原始语义有embedding获得 .

2上下文语义靠Attention获得.

3 低维压缩表达靠LLM最后输出.

Self-Attention机制简介

首先,回顾一下自注意力机制(self-attention)的作用:

自注意力机制的核心在于计算序列X 对自身的注意力权重,即序列中每个时间点与其他时间点之间的相关性(通过相似度来体现)。通过这种方式,我们能够得到一个注意力矩阵。

得到注意力矩阵后,我们将其应用于序列X,从而计算出各个时间点的加权和。这意味着每个时间点的信息都会融合来自其他时间点的信息。

Q、K、V的作用

为了实现上述过程,我们需要引入查询(Q)、键(K)和值(V)三个矩阵。它们的作用如下:

  1. **查询(Q)键(K)**用于计算注意力权重:






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5