返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

[LLM]gemma-2B-10M:10M上下文,递归局部注意力,小于32G内存推理

[复制链接]
链载Ai 显示全部楼层 发表于 前天 09:49 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin-right: auto;margin-bottom: 1em;margin-left: auto;padding-right: 1em;padding-left: 1em;border-bottom: 2px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">gemma-2B-10M:10M上下文递归局部注意力

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">gemma-2B-10M简介

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">gemma-2B-10M是一个具有高达 10M 上下文长度的递归局部注意力模型gemma-2B-10M的实现仅使用小于32GB的内存!

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Gemma 2B特性:

  • gemma-2B-10M模型支持 10M(1000万) Token上下文序列长度。

  • gemma-2B-10M模型可以在少于 32GB 的内存上可推理运行。

  • gemma-2B-10M模型为 CUDA 做了本地推理优化。

  • •采用了递归局部注意力,实现 O(N) 内存复杂度。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">gemma-2B-10M工作原理

对于LLM模型上下文扩展的最大瓶颈是 KV 缓存的大小,这涉及在计算最新令牌的注意力之前存储先前令牌的键值对。如果不这样做,计算成本会呈二次方增长,对于更长的序列这几乎是必须的。下面的 GIF 图解说明了 KV 缓存避免重新计算的概念。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">递归局部注意力

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">gemma-2B-10M采用了最新Transformer-XL和递归神经网络(recurrent neural networks)的方法,改为在局部 2048 x 2048 块上计算注意力,并将该块传递给 MLP 以存储状态向量。然后,这个状态向量作为额外的参数传递到计算的下一个局部注意力块中,目标是保留从早期令牌序列中的记忆。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">Infini-Attention

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">同时,在建立了递归状态向量的实用性之后,借鉴自 Google 的开创性论文中Infini-attention 方法,使用压缩内存来存储先前层的信息。这允许模型只需要对局部块执行标准的点积(二次方注意力),并线性地关注过去的压缩内存。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">逐步增加上下文窗口大小

最后,为了优化训练成本和数据,gemma-2B-10M遵循了GrowLength中的方法,逐渐将上下文大小从 32K 逐步增加,直到 10M上下文窗口(32K → 64K → 128K → 256K → 512K → 1M → 2M → 4M → 10M)。这允许研发团队在开始时优先使用较短的序列进行预训练,从而提供更高的利用率,并允许模型学习更简单的表示嵌入。随着上下文窗口的扩展,随后从更强大的初始表示状态中受益,这简化了更大上下文窗口大小的训练。

  • • InfiniAttention:https://arxiv.org/pdf/2404.07143

  • • Transformer-XL:https://arxiv.org/pdf/1901.02860

注意:当前开放的Gemma 2B模型属于早期模型权重,仅进行了 200 步的模型训练。模型下载地址:https://huggingface.co/mustafaaljadery/gemma-2B-10M

附录

  • • github:https://github.com/mustafaaljadery/gemma-2B-10M?tab=readme-ov-file

  • • huggingface:https://huggingface.co/mustafaaljadery/gemma-2B-10M

  • •官方博客:https://aksh-garg.medium.com/gemma-10m-technical-overview-900adc4fbeeb

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ