[LLM]gemma-2B-10M：10M上下文，递归局部注意力，小于32G内存推理

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin-right: auto;margin-bottom: 1em;margin-left: auto;padding-right: 1em;padding-left: 1em;border-bottom: 2px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">gemma-2B-10M：10M上下文递归局部注意力

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">gemma-2B-10M简介

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">gemma-2B-10M是一个具有高达 10M 上下文长度的递归局部注意力模型。gemma-2B-10M的实现仅使用小于32GB的内存！

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Gemma 2B特性：

•gemma-2B-10M模型支持 10M（1000万） Token上下文序列长度。
•gemma-2B-10M模型可以在少于 32GB 的内存上可推理运行。
•gemma-2B-10M模型为 CUDA 做了本地推理优化。
•采用了递归局部注意力，实现 O(N) 内存复杂度。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">gemma-2B-10M工作原理

对于LLM模型上下文扩展的最大瓶颈是 KV 缓存的大小，这涉及在计算最新令牌的注意力之前存储先前令牌的键值对。如果不这样做，计算成本会呈二次方增长，对于更长的序列这几乎是必须的。下面的 GIF 图解说明了 KV 缓存避免重新计算的概念。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">递归局部注意力

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">gemma-2B-10M采用了最新Transformer-XL和递归神经网络（recurrent neural networks）的方法，改为在局部 2048 x 2048 块上计算注意力，并将该块传递给 MLP 以存储状态向量。然后，这个状态向量作为额外的参数传递到计算的下一个局部注意力块中，目标是保留从早期令牌序列中的记忆。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">Infini-Attention

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">同时，在建立了递归状态向量的实用性之后，借鉴自 Google 的开创性论文中Infini-attention 方法，使用压缩内存来存储先前层的信息。这允许模型只需要对局部块执行标准的点积（二次方注意力），并线性地关注过去的压缩内存。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">逐步增加上下文窗口大小

最后，为了优化训练成本和数据，gemma-2B-10M遵循了GrowLength中的方法，逐渐将上下文大小从 32K 逐步增加，直到 10M上下文窗口（32K → 64K → 128K → 256K → 512K → 1M → 2M → 4M → 10M）。这允许研发团队在开始时优先使用较短的序列进行预训练，从而提供更高的利用率，并允许模型学习更简单的表示嵌入。随着上下文窗口的扩展，随后从更强大的初始表示状态中受益，这简化了更大上下文窗口大小的训练。

• InfiniAttention：https://arxiv.org/pdf/2404.07143
• Transformer-XL：https://arxiv.org/pdf/1901.02860

注意：当前开放的Gemma 2B模型属于早期模型权重，仅进行了 200 步的模型训练。模型下载地址：https://huggingface.co/mustafaaljadery/gemma-2B-10M

附录

• github：https://github.com/mustafaaljadery/gemma-2B-10M?tab=readme-ov-file
• huggingface：https://huggingface.co/mustafaaljadery/gemma-2B-10M
•官方博客：https://aksh-garg.medium.com/gemma-10m-technical-overview-900adc4fbeeb