继Gemini 3 pro, Gemini 3 Deep Think之后....
在NeurlPS2025大会上,Google推出了Titans——一种结合了RNN速度与Transformer性能的全新架构。它利用深度神经记忆进行实时学习,并能有效扩展到超过200万个token的上下文。
这背后涉及了两篇新论文:Titans和MIRAS(架构和理论蓝图)。
Titans是具体的架构(工具),而MIRAS是用于推广这些方法的理论框架(蓝图)。它们共同推进了测试时记忆的概念——这是AI模型通过在模型运行时、无需专门的离线再训练、就能融入更强大的"惊喜"指标(指意外的信息片段)来保持长期记忆的能力。
正如Titans所展示的,MIRAS框架引入了向实时适应性的重要转变。这种架构不是将信息压缩成静态状态,而是随着数据流入主动学习和更新自身的参数。这一关键机制使得模型能够即时将新的、具体的细节融入其核心知识。
一个有效的学习系统需要不同但又相互连接的内存模块,这反映了人脑短期记忆和长期记忆的分离。
虽然注意力机制擅长精确的短期记忆,但Titans引入了一个新颖的神经长期记忆模块。与传统的RNN中使用固定大小的向量或矩阵内存不同,该模块是一个深度神经网络(具体来说,是一个2层多层感知器)。这种内存模块提供了显著更高的表达能力,使得模型能够在不丢失重要上下文的情况下总结大量信息。模型不仅仅是做笔记;它是在理解和综合整个故事。
至关重要的是,Titans并非被动存储数据。它主动学习如何识别和保留跨越整个输入的token之间重要的关系和概念主题。这种能力的一个关键方面是我们称之为"惊喜指标"的东西。在人类心理学中,我们知道我们会迅速而轻易地忘记常规的、预期的事件,但会记住打破模式的事情——意外的、令人惊讶的或高度情绪化的事件。
在Titans的语境中,"惊喜指标"是模型检测到其当前记忆内容与新输入信息之间存在较大差异。
模型使用这种内部的误差信号(梯度)作为数学上的等价物,表示"这是意外的且重要的!"这使得Titans架构能够选择性地仅用最新颖、最能打破上下文的信息来更新其长期记忆,从而保持整个过程快速高效。
Titans通过融入两个关键元素改进了这一机制:
从现代Transformer到新的、闪电般快速的线性RNN,序列建模领域的每一个重大突破——本质上都是同一件事:一个高度复杂的联想记忆模块。
因此,MIRAS独特且实用之处在于它看待AI建模的方式。它不把不同的架构看作孤立的事物,而是将它们视为解决同一问题的不同方法:如何高效地将新信息与旧记忆结合起来,同时不让基本概念被遗忘。
MIRAS通过四个关键设计选择来定义一个序列模型:
几乎所有成功的现有序列模型都依赖于均方误差(MSE)或点积相似性来处理其偏置和保留。这种依赖可能使模型对异常值敏感,并限制其表达能力。
MIRAS通过提供一个生成性框架超越了这一限制,该框架探索了基于优化和统计学文献的更丰富的设计空间。这允许创建具有非欧几里得目标和正则化的新颖架构。
利用MIRAS,我们创建了三种特定的无注意力模型:
我们严格比较了Titans以及MIRAS变体(YAAD、MONETA、MEMORA)与包括Transformer++、Mamba-2和Gated DeltaNet在内的领先架构。我们通过在基因组建模(DNA)和时间序列预测上测试Titans进一步验证了其通用性,证明该架构能有效推广到文本以外的领域。
在标准语言建模数据集(C4、WikiTest)和零样本推理任务(HellaSwag、PIQA)上,我们的模型始终表现出更高的准确性和更低的困惑度(困惑度衡量的是LLM在看到一段文本时的惊讶程度)。
深度记忆的力量
消融研究清楚地表明,内存架构的深度至关重要。在比较大小相同但深度不同的长期记忆模块时,具有更深层记忆的模块在语言建模中始终获得更低的困惑度。此外,它们展现出更好的扩展特性,在序列长度显著增加时保持性能。
(展示360M参数和760M参数规模下,内存深度对困惑度影响的图表示意图)
语言建模与效率
在语言建模和常识推理任务中,Titans架构的性能优于最先进的线性循环模型(如Mamba-2和Gated DeltaNet)以及规模相当的Transformer++基线模型。新颖的MIRAS变体(MONETA、YAAD、MEMORA)也比这些基线模型实现了更好的性能,验证了探索稳健、非MSE优化机制的好处。重要的是,这些模型保持了高效的、可并行化的训练和快速的线性推理速度。
极端长上下文记忆
这些新架构最显著的优势是它们处理极端长上下文的能力。这在BABILong基准测试中尤为突出,该任务需要在极长文档中分布的事实之间进行推理。在这个具有挑战性的场景中,Titans的表现超过了所有基线模型,包括像GPT-4这样的超大型模型,尽管Titans的参数要少得多。Titans进一步证明了其能有效扩展到超过200万个token的上下文窗口大小。
与Gemini-1.5、Claude-2、OpenAI o1、Mamba-FT、TFT等模型对比,随着序列长度增加(从1到10^6),Titans (MAC)-FT表现优异。
模型卡 https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
https://research.google/blog/titans-miras-helping-ai-have-long-term-memory
Titans https://arxiv.org/abs/2501.00663
Miras https://arxiv.org/abs/2504.13173推荐阅读
Agents:(编排、记忆、插件、workflow、协作)" data-itemshowtype="0" linktype="text" data-linktype="2">动手设计AI Agents:(编排、记忆、插件、workflow、协作)
SOTA集体掉线,美团LongCat这个最新开源牛了!
AI Code赛道抛出一匹黑马:来自于字节跳动
一篇最新自演化AI Agents全新范式系统性综述
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |