链载Ai

标题: Titans架构-谷歌替代Transformers的百万 token上下文窗口架构 [打印本页]

作者: 链载Ai    时间: 5 小时前
标题: Titans架构-谷歌替代Transformers的百万 token上下文窗口架构
最近在搞大模型记忆这个专题, 所以从多角度调研大模型记忆。一般我们更多考虑Agent级别记忆, 该类记忆的方式多半是伴随一个牛叉的检索系统进行设计。以下内容向大家介绍从底层神经网络角度, 介绍一种新的网络结构: Google Titans
另一个记忆相关的方案参见:如何在生产环境基于本体Ontology的记忆系统
关注公众号,拷贝并后台发送"TITAN",获取Google Titan技术文档

深入解析谷歌的神经长时记忆架构:宣称支持200万+ token上下文窗口,复杂度仅为O(n)。数据很好看,但保持怀疑态度是合理的。

一句话总结:谷歌的Titans架构引入了神经长时记忆,通过“基于意外”的更新在推理过程中学习——实现200万+ token的上下文,复杂度为O(n)而非O(n²)。基准测试显示,在“大海捞针”任务中准确率达98.8%,而Mamba-2仅为31%。但该研究没有公开官方代码,实现细节模糊,且后续论文发现分块处理会降低性能。这是一项令人印象深刻的创新,但在相信这些数字之前,最好等待独立的复现结果。


“好记性顶不过烂笔头” —— 谚语

或者说:如果无法检索,最好的记忆也毫无用处。


谷歌选择在除夕夜发布

在8K上下文长度下,任务中达到98.2%的准确率(可扩展至200万+tokens)。

Mamba-2—之前大家都看好的架构?准确率31%。


谷歌不只是击败了竞争对手,也彻底碾压了自己。

在AI领域最难的记忆基准测试上实现了3倍的提升,而这项成果却埋没在假期期间大多数人匆匆划过的论文里。

真正令人震惊的是:Titans 不只是像高级数据库那样存储上下文,它可以推理过程中学习

这个模型实际上会实时重写自己的记忆,自主决定记住什么、遗忘什么——更像大脑,而不是硬盘。

200万+tokens。复杂度为O(n)而非O(n²)。在某些任务上,参数效率比GPT-4高出2000倍。

而谷歌呢?并没有过多宣传。没有官方代码。没有API。没有时间表。

他们构建了可能是自原始Transformer以来最重要的架构——然后把它锁进了保险箱。

原因是什么?

什么是谷歌Titans? 谷歌Titans是一种神经网络架构,它结合了基于注意力的短期记忆与可学习的长期记忆模块。

与Transformer的O(n²)复杂度不同,Titans实现了O(n)的线性复杂度,同时能处理超过200万tokens的上下文窗口。该架构由谷歌研究院于2024年12月提出。

限制所有大语言模型的 O(n) 与 O(n²) 问题

大家需要关注一个数字:O(n²)

这事注意力机制的复杂度。上下文长度翻倍,计算量就变成四倍。

这也是为什么"128K上下文"的模型会出问题。

Transformer架构在2017年通过其注意力机制彻底改变了AI——模型在处理当前tokens时能看到所有先前tokens的方法。"全局注意力"正是语言模型能够保持连贯对话和理解上下文的原因。

这样的机制有什么问题?

注意力机制具有 O(n²) 的复杂度。上下文长度翻倍,计算和内存需求就变成四倍。这就是为什么GPT-4,尽管拥有128K词元的上下文窗口,但在长上下文任务上表现出明显的性能下降,一些研究发现其有效上下文低至8K tokens,尽管窗口是128K。这个模型技术上可以_接收_128K tokens。但它无法有效地_使用_它们。

Researchers花了七年时间试图解决这个问题:

上下文长度解决方案时间线

表中的每个方案都有所取舍。稀疏注意力会丢失全局依赖关系。线性注意力无法忘记无关信息。状态空间模型将所有信息压缩成固定大小的表示,在长序列中会丢失细节。

Titans 声称能解决这个难题。



谷歌Titans架构运作原理

三记忆系统

Titans 并非单一架构,而是一个建立在三种不同记忆类型之上的框架,其灵感来源于人类认知中短期记忆与长期记忆的分离方式。

1. 核心(短期记忆):注意力机制

这是标准的滑动窗口注意力机制,作用于当前的Tokens片段。可以把它想象成你的工作记忆——精确、详细,但容量有限。训练上下文长度:4K 词元(推理时窗口大小可能变化)。

2. 长期记忆:神经记忆模块

这是 Titans 的创新之处。与将上下文压缩成固定大小向量的传统 RNN 不同,Titans 使用一个深度神经网络(具体来说,是一个 2 层以上的多层感知机)作为其记忆。这个网络在推理过程中通过一种称为测试时训练的过程进行学习

3. 持久记忆:习得参数

这些是与任务无关的可学习参数,在训练后保持固定。可以把它们看作是“本能”——不随当前输入而改变的通用知识。

正是这个神经长期记忆模块,将 Titans 与此前所有试图解决上下文窗口问题的尝试区分开来。虽然 Mamba 和其他状态空间模型将上下文压缩成固定向量,但 Titans 的神经记忆可以自适应地扩展其表征能力。

"惊喜"机制

这里就是数学变得有趣的地方。神经记忆模块并非盲目地存储一切。它使用一个"惊喜"指标来决定哪些内容值得记住。

直觉是这样的:如果你正在阅读一份财务报告,并遇到了"季度"这个词,你的大脑不会急于记住它——这是意料之中的。但如果在这份报告中间突然看到一张香蕉皮的图片,你就会注意到。这就是惊喜。

从数学上讲,Titans 通过重构损失的梯度来衡量惊喜:


# 泰坦记忆更新伪代码

def memory_update(M_prev, key, value, eta, theta, S_prev):
"""
    M_prev: 前一个记忆状态(神经网络权重)
    key, value: 当前输入表征
    eta: 惊喜学习率(动量系数)
    theta: 遗忘率(权重衰减)
    S_prev: 前一个惊喜状态(动量)
    """
# 计算重构损失:记忆预测值的准确度如何?
    loss = mse_loss(M_prev(key), value)  # l(M; x) = ||M(k) - v||²
# 计算梯度 = "惊喜信号"
    gradient = compute_gradient(loss, M_prev)
# 用动量更新惊喜状态
# 高梯度 = 意外输入 = 高惊喜度
    S_t = eta * S_prev - theta * gradient
# 更新记忆
    M_t = M_prev + S_t
return M_t, S_t

三十行伪代码。这是Google花了八年时间试图修正注意力机制的样子。

这种大语言模型的测试时训练方法与传统推理方式有根本性不同。模型不是在固定权重下运行,而是在每次前向传播时执行梯度下降——实时学习和适应。

核心:梯度充当了惊喜信号。如果记忆已经"掌握"当前输入(重构误差低),梯度就很小——无需更新。如果输入出人意料(重构误差高),梯度就很大——将其存储起来。

Titans记忆的工作原理:
1. 输入tokens抵达记忆模块
2. 模型计算重构损失(预测值 vs 实际值)
3. 梯度大小决定"惊喜"程度
4. 高惊喜度 = 大梯度 = 记住该tokens
5. 动量累积近期的惊喜模式
6. 权重衰减实现旧信息的自适应遗忘

两项关键改进

Titans 引入了两种机制,使其变得实用:

动量机制:模型不仅考虑“瞬时意外”(当前tokens),还考虑“过往意外”(近期上下文)。这确保了一个令人意外的句子能被完整捕捉,即使其后续的单个词语本身并不令人意外。

自适应遗忘(权重衰减):记忆容量是有限的。遗忘门允许模型丢弃不再相关的信息——这对于处理超过数百万tokens的序列至关重要。

三种架构变体

这篇论文提出了三种将神经记忆与注意力机制结合的方法:

理解 MAC、MAG 和 MAL 这三种架构变体,对于任何想要实现 Titans 模型的人来说都至关重要。谷歌的实验结果明确显示,MAC(记忆作为上下文)在所有测试的基准上都表现最佳。

结果表明,MAC(记忆作为上下文)在处理长距离依赖关系时表现最好,而 MAG 在较短上下文上仍具有竞争力。它在各项基准测试中始终优于其他变体。MAL(记忆作为层)表现最差——显然,只是简单地将记忆和注意力层顺序堆叠,并不能捕捉到正确的交互关系。


Titans vs Mamba-2 vs GPT-4:基准测试对比

200万token的上下文窗口并非仅是理论宣称——谷歌提供了具体的基准测试数据。以下是Titans在长上下文检索与推理任务上,与当前顶尖模型的性能对比。

海量文本中寻找线索的效果测试 

这是长上下文模型的经典测试:将特定事实隐藏在庞大的文档中,看模型能否检索出来。

Titans 与 Mamba-2 准确率对比(8K 上下文):
- 海量文本寻针(S-NIAH-PK at 8K):Titans 98.2% 对比 Mamba-2 31.0%
- 海量文本寻针(多值):Titans 88.4% 对比 Mamba-2 32.5%
- 语言建模困惑度:Titans 25.43 对比 Mamba-2 30.83(数值越低越好)

数值近似取自 BABILong 论文

Mamba-2 的对比结果尤其惊人。在 8K 上下文长度下,Titans 达到了 98.8% 的准确率,而 Mamba-2 仅有 31%。

说得更直白点。Mamba-2 本应是 Transformer 的终结者,是大家翘首以盼的高效替代方案。但谷歌的 Titans 在最关键的任务——真正记住你告诉它的内容上——以三倍的效果优势击败了它。


BABILong 推理任务

BABILong 测试的不仅仅是检索,还包括跨分布式事实的推理。一个问题可能需要将文本中三个不同位置的信息联系起来。

核心结论是:一个拥有 7.6 亿参数的 Titans 模型,在长上下文推理任务上,表现优于 GPT-4(估计约 1.7 万亿参数)。这代表着参数数量上约 2000 倍的差距——尽管这个比较并不完美,因为 GPT-4 使用的是混合专家架构,而非稠密模型。

不是 2 倍。不是 20 倍。是两千倍。


多年来,Scale Law,行业一直致力于将模型规模扩展到数千亿参数,消耗着兆瓦级的算力,坚信越大越好。谷歌刚刚暗示我们可能完全搞错了方向。

前提是这些基准测试结果能迁移到实际应用场景中。

语言建模困惑度

困惑度越低越好。在原始语言建模任务上,Titans 的表现优于现代 Transformer 基线模型和 Mamba-2。

测试模型规模

这篇论文评估了四种模型规模:


谷歌Titans架构的五个关键问题

它的架构设计很优雅。基准测试结果很厉害。其影响颠覆所有认知所有认知。

但我在这行待得够久了,深知一个道理:牛叉的论断需要非凡的证据。而眼下,这些数字只有一个来源——谷歌自己的论文。

没有独立的复现。没有官方的代码库。没有第三方的验证。

1. 没有官方代码发布

根据我的分析,谷歌尚未发布 Titans 的官方代码。论文里承诺了会发布,但代码仓库并不存在。目前唯一可用的实现是 lucidrains/titans-pytorch,这是一个非官方的社区项目,目前仍在积极开发中。

这很重要,因为:

2. 可复现性:只能看《Titans》论文

2025年10月,来自萨皮恩扎大学的研究人员发表了论文《Titans重访:一个轻量级重实现与批判性分析》。他们的发现发人深省:

原论文中的模糊之处:

关键发现:"由于分块处理,titans模型并非总能超越已有的基线模型。"

分块问题至关重要。为了达到实际的训练时间,titans模型以片段为单位处理序列。但这种分块策略可能会降低性能,而原论文并未充分说明这一点。

坦白说:我泰坦模型能成功。我花了太多时间与上下文窗口限制作斗争,一个真正的解决方案将彻底改变我的工作流程。

这正是我对此如此严格的原因。

3. 测试时训练开销

TTT听起来很优雅,但它意味着模型在推理过程中还在训练。每次前向传播都包含对记忆模块的梯度计算。这会增加延迟,而论文并未对此进行充分的基准测试。

作为参考,现有的TTT方法在GPU利用率方面一直存在问题——由于在线小批量数据规模较小,通常只能实现不到5%的浮点运算利用率。

4. 规模未知

经过测试的最大 Titans 模型拥有 7.6 亿个参数。我们没有证据表明该架构能够扩展到 GPT-4 级别的规模(数千亿参数)。论文展示了有希望的扩展曲线,但外推纯属推测。

5. 对合成基准的审慎态度

BABILong 虽然严谨,但它是一个合成基准。现实世界中的长文本任务——如法律文件分析、代码库理解、多文档综合——可能表现不同。正如原始 BABILong 论文所指出的:流行的大语言模型实际有效利用的上下文长度,仅占其宣称能力的 10% 到 20%。

何时不应使用 Titans(基于现有证据)


谷歌Titans会是Transformer的终结者吗?5个理由告诉你它可能真是

尽管存在一些注意事项,以下是我认为Titans值得关注的原因:

1. 数学基础是可靠的

基于“意外”的记忆更新机制并非空谈。它与在线学习和联想记忆中的成熟概念紧密相连。谷歌的配套论文MIRAS提供了一个理论框架,将Titans与其他序列模型统一起来。

2. 如果基准测试可复现,则意义重大

在"大海捞针"任务上,98.8% 对 31% 的准确率差距绝非偶然噪音。要么是结果造假(考虑到谷歌的声誉,这不太可能),要么是基准测试的设计偏袒了Titans模型(有可能但不明显),要么就是这种架构在长上下文检索方面确实效果更好。

3. 它解决了一个实际问题

注意力机制的 O(n²) 复杂度是一个根本性的瓶颈。每个研究长上下文模型的研究者都在与这个限制作斗争。如果 Titans 能以最小的质量损失实现 O(n) 复杂度,那就值得深入研究。

4. 时机说明一切

谷歌于2024年12月31日发布了Titans,随后在2025年12月4日通过MIRAS发布了一篇详细的博客文章。这并非一篇随意发表的研究论文,而是一项持续性的努力。结合关于Gemini 4开发的传闻来看,Titans可能代表了谷歌的下一代架构。

5. 竞争正在验证这一方法

TTT(测试时训练)概念并非谷歌独有。斯坦福大学、加州大学伯克利分校和Meta都发表过关于序列模型测试时训练的研究。GPT-4o以新颖的方式运用自回归推理。该领域正朝着在推理过程中持续学习的方向发展。


注意力架构的终结

把视野拉远一点。

过去七年,AI领域一直遵循一个简单的假设:只要把Transformer模型做大,能力就会涌现。从GPT-2到GPT-3再到GPT-4——模型越来越大,数据越来越多,效果越来越好。这个"规模扩展假说"取得了惊人的成功。

但注意力机制的O(n²)复杂度设定了硬性天花板。你可以把模型做得更大,但无法让上下文窗口按比例延长。一个参数多100倍的模型,并不会获得100倍的上下文长度——可能只增加2-4倍,内存就爆了。

Titans代表了一种不同的赌注:如果架构本身就需要改变呢?如果注意力机制只适合短期精确记忆,而长期记忆需要完全不同的机制呢?

人类大脑并不会把你见过的每一帧视觉画面都以完美细节存储下来。它会压缩、抽象、遗忘。它记住意外事件,丢弃可预测的内容。Titans试图在计算上实现这种机制。

如果它能大规模应用,影响将是深远的:

对于RAG:检索增强生成可能对许多用例变得不再必要。既然能记住,为什么还要检索?

对于智能体:自主智能体可以在数小时甚至数天的操作中保持连贯的上下文,无需复杂的上下文窗口操作技巧。

对于成本:线性复杂度意味着推理成本随上下文长度线性增长,而非二次增长。上下文增加10倍,成本只增加10倍,而不是100倍。

对于竞争:如果谷歌将Titans集成到Gemini 4中,OpenAI和Anthropic将需要架构层面的回应,而不仅仅是增加规模。

但这里有个没人问的问题:

如果Titans这么好,为什么谷歌按兵不动?

沉默了一年。没有代码。没有Gemini集成公告。要么他们在憋大招——要么内部复现结果不理想。

我知道我赌的是哪一种。

Titans架构会出现在 Gemini 4 中吗?

根据我的分析,以下是我的概率性预测:

最可竜出现的情况是:Titans架构将成为处理长上下文任务的几种架构选项之一,与改进的稀疏注意力、状态空间模型以及混合方法并存。Transformer 不会“消亡”——它会变得更加专业化。


如何在2026年追踪Google Titans的开发进展

如果你想追踪Titans的开发情况:

  1. 关注非官方实现:lucidrains/titans-pytorch 这个项目维护得很积极,会跟进最新的理解。

  2. 阅读关键分析:Titans Revisited 这篇论文提供了关于可复现性问题的重要背景信息。

  3. 跟进理论基础:MIRAS 这篇论文解释了Titans背后的数学框架。

  4. 关注BABILong的结果:BABILong排行榜 会显示独立团队能否复现Titans报告的性能数据。

  5. 留意Google的官方公告:任何关于Gemini 4架构的细节都可能揭示Titans是否已投入实际生产。


真的需要关注谷歌的Titans模型吗?


google发表了一篇论文,声称要淘汰Transformer。你们展示的基准测试结果足以改写所有AI教科书。你们描述了一个能解决我们十年来一直努力攻克的问题的架构。

然后,就没有然后了。 

没有代码。没有权重。没有复现指南。只有一个PDF文件和一片寂静。

现实是:在2025年,没有代码的论文就是新闻稿。无法复现的基准测试就是营销。没有实现的架构就是科幻小说。

Gooogle有两个选择:

选项A:发布代码。让社区来验证。如果Titans是真的,你们将做出自《Attention Is All You Need》以来对AI最重要的贡献。历史将记住你们是开拓者。

选项B:继续藏着掖着。看着质疑声越来越大。看着舆论从“谷歌的突破”转向“谷歌的雾件”。加入那些过度炒作却从未面世的演示品的坟墓。



参考文献

学术论文

关注公众号,拷贝并后台发送"TITAN",获取Google Titan技术文档






欢迎光临 链载Ai (http://www.lianzai.com/) Powered by Discuz! X3.5