“ 当 LLM 仍在“翻聊天记录”找答案时,MIRIX 已把 3 万张截图塞进 15 MB,并记住你是谁——记忆不再是缓存,而是你的下一份可交易资产。”
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">大家好,我是肆〇柒。当下,LLM 智能体在各种复杂任务中表现得越来越出色。然而,记忆这一关键要素却始终制约着 LLM 智能体的进一步发展。在与这些智能体的交互中,我们常常发现它们难以像人类一样记住过去的对话、识别模式或根据以往经验调整行为。这种“健忘症”限制了它们在现实世界中的长期可用性,也让用户对它们的期待大打折扣。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);"> ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">痛点对比:传统 RAG 的三大健忘瞬间ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;color: rgb(63, 63, 63);" class="list-paddingleft-1"> ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">• 对话一:用户曾说 “The CEO of Twitter is Linda Yaccarino”,但几天后询问 “Who is the CEO of Twitter?” 时,传统 RAG 智能体依赖过时知识错误回答 “Elon Musk”。 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">• 对话二:在 LOCOMO 数据集中,对于 “When is Melanie planning on going camping?” 这一问题,传统方法因对话中前后矛盾(早期计划与实际发生)难以准确判断时间。 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">• 对话三:面对 “Where did Caroline move from 4 years ago?” 这类需要整合多处信息的复杂问题,传统 RAG 无法有效拼凑分散证据,导致回答错误或不完整。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这些痛点凸显了传统 RAG 的局限性,而由 MIRIX AI 提出的 MIRIX,正是为了解决这些问题。携六种创新记忆类型与多智能体架构,为 LLM 智能体的记忆难题带来了创新的解决方案。它不仅能够精准捕捉和存储丰富的视觉及多模态体验,还通过主动检索机制让记忆的调用变得高效和智能。 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.5em 1em;color: rgb(63, 63, 63);text-shadow: rgba(0, 0, 0, 0.1) 2px 2px 4px;">它能做什么?3 个真实场景说了这么多,MIRIX 到底能帮你做什么?我们先用三个真实场景感受一下。
场景一:跨平台个人助理 MIRIX 驱动的跨平台个人助理应用程序,是你数字生活的得力助手。它能实时监控你的屏幕活动,每 1.5 秒截取一次屏幕图像,智能去重后,每 60 秒左右更新一次记忆。借助 Gemini API,它实现高效、低延迟的视觉数据传输,让你几乎实时看到记忆更新。你可以在聊天界面中查询过去的操作细节、文件摘要或特定事件背景,智能体都能凭借强大的记忆能力给出准确答复。如下图所示。
语义记忆以树结构呈现,清晰展示概念关系;程序性记忆以列表视图展示任务步骤,方便你回顾和总结经验。
比如,一句话对话示例:“上周我在 VS Code 里改了哪个配置让代码高亮失效?”
场景二:可穿戴设备中的智能助手 在可穿戴设备领域,MIRIX 为智能个人助理注入了新的活力。以人工智能眼镜为例,配备 MIRIX 系统的设备能够自动总结会议内容,提炼关键要点;记住你经常访问的地点,提供精准导航建议;识别重复出现的视觉模式,记录生活中的重要时刻;回溯之前的对话或任务,让你迅速获取相关记忆。它完美契合轻量级、便携设备需求,程序性记忆学习日常习惯,语义记忆存储环境偏好,情景记忆捕获时间戳事件,混合存储设计巧妙适应硬件限制,确保隐私安全的同时节省设备存储空间。鉴于可穿戴设备硬件约束(limited compute and storage),MIRIX 采用 hybrid on-device/cloud memory management,将知识库等关键信息本地存储,资源记忆等大规模记忆云端调取,既保障隐私又节省空间。
比如,一句话对话示例:“我在咖啡店遇到的那个人名片上写的邮箱是什么?”
场景三:智能体记忆市场中的数字资产 MIRIX 提出了一个大胆而创新的概念 —— 将个人记忆打造成为一种全新的数字资产类别。在这个时代,记忆不再仅仅是过去事件的被动记录,而是成为了可共享、个性化和货币化的活跃知识库。在智能体记忆市场中,用户可以在记忆社交 / 交易平台上分享和交换记忆,通过代币化的方式实现记忆的价值转化。专家社区聚焦特定领域,集体构建专业知识记忆库。粉丝经济与约会应用为直观地展示出与名人或网红数字人设互动的新途径,创造者也迎来了新的商业机会。
比如,一句话对话示例:“把我上个月研究‘联邦学习’的完整工作流挂到市场卖 5 美元。”
它怎么做到?—— 拆开瞅瞅 看完这些场景,我们一起来看看 MIRIX 是怎么记住“你上周看过哪份报告” 的?
与需要重训 Transformer 结构才能记忆的最新研究不同,MIRIX 采用外挂式多智能体架构,零侵入、零重训,直接兼容 GPT-4、Gemini 等闭源模型,即插即用。接下来我们拆开它的“记忆抽屉”。
记忆分类对照表
event_type、summary、details、actor、timestamp name、summary、details、source entry_type、description、steps persona、human(包含姓名、爱好等持久信息) title、summary、resource_type、content entry_type、source、sensitivity_level、secret_value
记忆组件 MIRIX 有六种记忆类型,每种类型的功能和结构各不相同,共同构成了其坚实的基础。这六种划分参考了认知科学中经典的情景、语义、程序记忆模型,既保留人类记忆的抽象层次,又针对 LLM 场景做了工程化扩展。
核心记忆(Core Memory) 核心记忆分为 persona 和 human 块。persona 块编码智能体的个性身份、语气风格以及行为模式,塑造智能体独特的“人格魅力”;human 块记录用户的持久信息,包括姓名、爱好、生活习惯等关键属性。例如,human 块会存储 “User’s name is David”“User enjoys Japanese cuisine” 等信息。当记忆容量接近上限时,系统会智能触发受控重写过程,去除冗余和过时的信息,确保记忆的紧凑性和相关性。
情景记忆(Episodic Memory) 情景记忆以结构化方式记录时间戳事件,涵盖事件类型、摘要、细节、参与者和时间戳等关键字段。例如,当你提到一次旅行计划,情景记忆会记录提及时间(如 2025-03-05 10:15)、行程安排(user_message 表示这是用户发送的消息)、参与人员等信息,为后续提供跟进服务和提醒事项奠定基础。
语义记忆(Semantic Memory) 语义记忆专注存储抽象知识和事实信息,包含名称、摘要、细节和来源等字段。它不局限于特定时间和事件,更注重知识的普遍性和关联性。比如,它会记录“巴黎是法国的首都”这类地理知识,或“用户喜欢阅读科幻小说”这类个人偏好信息,为智能体构建丰富全面的知识网络。
程序性记忆(Procedural Memory) 程序性记忆存储结构化、目标导向的流程,涵盖工作流程、指南和脚本的类型、目标和步骤列表。比如,撰写商务报告时,它提供从资料收集到排版的一系列步骤指导;学习烹饪新菜肴时,给出分步操作流程;在处理差旅报销时,它会存储 “how to file a travel reimbursement form” 的详细步骤,从收集票据到提交申请,确保用户顺利完成任务。
资源记忆(Resource Memory) 资源记忆处理用户正在使用的完整或部分文档、脚本或多媒体文件,包含标题、摘要、资源类型和内容等字段。阅读研究报告时,它存储关键章节和摘要,方便查阅和引用;编辑视频时,保存素材片段和编辑进度,确保多任务处理或长时间工作中不会丢失成果。
知识库记忆(Knowledge Vault) 知识库安全存储凭证、地址、联系信息和 API 密钥等逐字和敏感信息。通过严格访问控制机制和敏感度级别设置,确保高敏感信息的安全性。银行账户信息、私人邮箱密码等在知识库中得到最高级别保护,只有经过严格授权验证,智能体才能在合法必要场景下使用这些信息,有效防止隐私泄露。
主动检索与检索设计 MIRIX 的主动检索机制解决了现有记忆增强系统中记忆检索需显式触发的问题。它将检索过程分为两个阶段。首先,智能体基于输入上下文生成精准的当前主题;接着,利用该主题从每个记忆组件中检索相关记忆,并将结果注入系统提示中。例如,询问“谁是 Twitter 的 CEO?”时,智能体判断主题为“Twitter 的 CEO 信息”,从六个记忆组件中检索最新记忆内容,如对话中提到的 CEO 姓名、相关新闻报道中的变更记录等,并整合反馈给用户。这一过程如下图所示。
为避免模型依赖过时知识错误回答问题,主动检索机制确保回答的及时性和准确性。检索到的内容会进行来源标记,让模型清楚知晓每条信息的内容和来源,从而在生成回答时合理引用和整合这些记忆。此外,MIRIX 支持多种检索功能,如 embedding_match、bm25_match 和 string_match,适用于不同类型的数据和查询需求。例如,基于语义相似度的查询,embedding_match 能快速找到匹配记忆;基于关键词精确匹配的场景,string_match 能精准定位相关内容。MIRIX 正不断扩展更多检索策略,以满足日益多样化的应用场景,确保在各种复杂情况下都能高效精准地检索到所需记忆。
多智能体工作流 与需要重训 Transformer 结构才能记忆的最新研究不同,MIRIX 采用外挂式多智能体架构,零侵入、零重训,直接兼容 GPT-4、Gemini 等闭源模型,即插即用。
记忆更新工作流 多智能体架构是 MIRIX 灵活应对用户交互复杂性和异构性的关键。在记忆更新工作流中,接收到用户输入后,系统首先在记忆库中全面搜索,初步筛选出可能相关的信息。然后,元记忆管理器分析这些内容,精准将其路由到相应的记忆管理器。这些记忆管理器高效执行更新任务,同时避免冗余信息干扰。更新完成后,它们向元记忆管理器汇报,元记忆管理器确认所有更新任务成功完成后,才向用户发送更新完成通知。这一过程既保证了记忆更新的准确性,又提高了更新效率,使系统能够及时跟上用户信息的快速变化。这一过程如下图所示。
对话检索工作流 在对话检索工作流中,聊天智能体收到用户查询后,先进行粗略检索,快速扫描所有六个记忆组件,获取与查询相关的高级别摘要信息。然后,它深入分析查询,判断哪些记忆组件可能藏有更关键的线索。接下来,聊天智能体选择合适检索方法,获取详细结果,并整合加工,最终形成完整准确富有逻辑的响应呈现给用户。如果用户查询涉及记忆更新,聊天智能体还能直接与相应的记忆管理器交互,精准地对特定记忆组件进行更新,确保记忆的时效性和完整性。如下图所示。
技术架构 多智能体架构的协作机制 MIRIX 的多智能体架构由 8 个智能体组成,包括 1 个 Meta Memory Manager、6 个 Memory Managers 和 1 个 Chat Agent。Meta Memory Manager 起着核心的协调作用。当接收到用户输入后,它会先对输入内容进行全面分析,判断其中的关键信息和记忆需求,然后确定与此输入相关的记忆组件,并将任务精准地路由到对应的 Memory Managers。例如,如果用户输入的内容涉及一个新的事件描述,Meta Memory Manager 会识别出该内容包含事件类型、参与者、时间等关键要素,从而判定其属于情景记忆的范畴,并将任务分配给情景记忆管理器,由它来进一步处理和存储该事件信息。这种基于内容的动态任务分配机制,使得各记忆组件能够高效地协作,避免了记忆处理的混乱和冗余。
存储压缩技术的实现 MIRIX 实现了高达 99.9% 的存储压缩,这一成果主要得益于其对原始图像的处理方式。它不存储任何原始图像,而是通过高效的摘要算法对图像内容进行提炼和压缩,仅保留关键的结构化信息。具体来说,在处理用户屏幕截图时,MIRIX 会先对图像进行分析,提取出其中的核心内容和特征,如图像中包含的关键物体、文字信息、布局结构等,并将这些信息转化为简洁的文本描述或数据结构进行存储。同时,它还会运用去重策略,识别和过滤掉相似度极高的图像内容,进一步减少存储负担。这种摘要算法与去重策略相结合的方式,使得 MIRIX 能够以极小的存储空间保存大量的多模态信息,其存储效率远超传统方法。例如,在实验中,对于 SigLIP 需要存储 22.55GB 的图像数据,MIRIX 仅需 20.57MB 即可完成存储,压缩比达到了惊人的 949:1。
隐私机制的保障 在可穿戴设备场景中,MIRIX 的混合存储设计充分考虑了隐私保护。对于知识库记忆中的敏感信息,如用户的私人联系信息、账户密码等,MIRIX 采用了严格的敏感度分级机制。这些高敏感信息会被标记为最高敏感度级别,并通过访问控制机制进行严格保护。只有在用户明确授权且符合特定的安全策略时,智能体才能访问这些信息。此外,MIRIX 还将关键信息存储在本地,而非云端,进一步降低了隐私数据泄露的风险。例如,在知识库记忆的字段设计中,包含 sensitivity_level 字段,用于明确标识每条信息的敏感程度,从而确保高敏感数据不会被随意检索和使用。
记忆市场的争议澄清 针对记忆市场中可能引发的数据权属争议,MIRIX 强调其技术的中立性。其隐私基础设施包含三层设计:加密层、权限控制和去中心化存储。加密层确保所有记忆数据在存储和传输过程中都被加密处理,只有经过授权的用户和智能体才能解密使用;权限控制允许用户精细地设置哪些记忆可以共享、交易或限制访问,用户对自身的记忆资产拥有绝对的控制权;去中心化存储则避免了记忆数据被集中掌控,降低了数据被滥用的风险。这种隐私保护机制为记忆市场的健康发展提供了坚实的基础,确保了用户在共享和交易记忆时的权益得到充分保障。
实验:3 位博士生的 3 万截图 为了验证 MIRIX 的性能,研究者邀请了 3 位博士生参与实验。他们在日常使用电脑的过程中,通过一个自动化脚本,每秒截取一次屏幕图像。如果当前图像与上一张图像相似度超过 99%,则跳过当前图像,以减少重复数据。通过这种方式,研究者收集了大量高分辨率的屏幕截图,总计超过 3 万张。这些截图涵盖了他们一个月内的各种计算机使用场景,包括阅读文献、编写代码、参加在线会议等。基于这些截图,构建了一个具有挑战性的多模态数据集,并提出了相关的问题,用于测试 MIRIX 的记忆能力和推理能力。
实验设计:为什么用截图 传统文本记忆系统无法处理视觉输入,而 MIRIX 的一大创新点在于能够处理多模态输入,包括视觉信息。因此,研究者需要验证 MIRIX 是否能从真实用户的屏幕活动中提取并记忆信息。为此,他们选择了 3 位博士生作为参与者,这些博士生分别来自计算机科学和物理学领域,自愿运行脚本 1 周到 1 个月不等。数据采集的具体过程是:每秒截屏一次,然后通过去重算法(相似度超过 99% 的图像被跳过),最终得到的截图数量分别为:第一位博士生 5,886 张(1 天内)、第二位博士生 18,178 张(20 天内)、第三位博士生 5,349 张(超过 1 个月)。总计超过 3 万张高分辨率截图。为了构建测试问题,每位博士生根据截图手写问答对,研究者再进行交叉验证以确保问题的可答性,最终得到 87 个问题(第一位博士生 11 个、第二位博士生 21 个、第三位博士生 55 个)。
对比基线 为了更全面地评估 MIRIX 的性能,研究者选择了以下几种基线方法进行对比:
长上下文基线,将 3,600 张缩略图一次性输入模型 RAG 基线,先用视觉模型检索 Top50 图,再让 Gemini 回答
结果速览 一句话总结:MIRIX 用 1% 的存储空间,换来了 4 倍的准确率提升。
具体实验结果如下表所示。
深入分析 存储效率 MIRIX 不存原图,仅保留结构化摘要,压缩比达到949 : 1 (SigLIP vs MIRIX)。具体来说,对于第一位博士生的数据,SigLIP 存储大小为 22.55GB,而 MIRIX 仅为 20.57MB;第二位博士生的数据,SigLIP 存储为 19.88GB,MIRIX 为 19.83MB;第三位博士生,SigLIP 存储 2.82GB,MIRIX 仅 7.28MB。这种高效的存储方式使得 MIRIX 在处理大规模多模态数据时更具优势。
准确率提升 相比 RAG 基线,MIRIX 提高了35% 的准确率;相比长上下文基线,MIRIX 提升了410% 的准确率。MIRIX 的高准确率得益于其独特的记忆组件和主动检索机制。例如,在处理复杂问题时,MIRIX 能够快速从多个记忆组件中检索到相关信息,并整合后生成准确的回答。而 Gemini 和 SigLIP 等基线方法由于缺乏这种高效的检索和整合能力,导致准确率较低。
错误案例 尽管 MIRIX 在总体上表现优异,但在某些特定情况下也会出现错误。例如,Gemini 由于需要一次性处理大量图像,容易出现“幻觉”,即生成与问题无关的回答;SigLIP 在检索 Top50 图像时可能会漏掉关键帧,从而导致回答不准确;MIRIX 由于需要对图像内容进行摘要,可能会丢失一些细节信息,从而在某些情况下出现误判。这些错误案例为未来的研究提供了改进的方向。
LOCOMO 对话实验 实验背景 除了多模态数据集的实验,研究者还对 MIRIX 进行了长对话问答实验。实验使用了 LOCOMO 数据集,该数据集包含 10 段对话,每段对话平均有 200 个问题,总共有 26,000 个 token。实验的设定是:不直接将对话原文输入模型,而是仅依靠模型从记忆中检索到的信息来回答问题。这种设定更能体现模型的记忆能力和推理能力。
实验结果 在 LOCOMO 数据集上,MIRIX 的表现非常出色,其平均 J 评分达到了85.38% (三次独立运行的 Overall 区间为 83.98 % –87.34 %,标准差 1.8 pp,稳定性良好),领先最强开源对手+8.0 pp ,逼近 Full-Context 上界(87.5%)。具体来看,在不同类型的问答中,MIRIX 的表现如下:
•单跳问题 :MIRIX 的准确率为 85.11%,略低于 Full-Context 方法(88.53%),但远高于其他基线方法。这表明 MIRIX 在处理简单事实查找问题时已经非常接近人类水平。 •多跳问题 :MIRIX 的准确率为 83.70%,领先第二名+24 pp 。这得益于 MIRIX 的事件整合存储机制,能够快速将分散的信息整合成完整的事件,从而更高效地回答多跳问题。 •开放领域问题 :MIRIX 的准确率为 65.62%,与基线方法的差距相对较小。这表明在开放领域问题上,MIRIX 的推理能力还有提升空间。 •时间顺序问题 :MIRIX 的准确率为 88.39%,表现非常出色,这得益于其情景记忆组件对时间戳事件的精准记录和推理能力。 具体如下表
实验亮点 在 LOCOMO 数据集上,MIRIX 的表现令人瞩目。它在 200 个问题的全面测试中,以 85.4% 的准确率逼近人类水平的上限(87.5%)。尤其是在需要整合多处对话信息的多跳问题上,MIRIX 凭借其独特的事件整合存储机制,比现有方法高出 24%。这使得它能够快速调取完整的事件记忆,而无需在查询时拼凑碎片化信息。
总结:MIRIX - 让记忆更高效、精准与实用 MIRIX 用约 15MB 存储空间高效记住 3 万张截图关键信息,并在对话中准确回答超 85% 的复杂问题,实现技术突破,推动记忆系统从传统工具向价值创造转变。
不放想象一下,MIRIX 的巨大潜力。比如未来,在会议场景中,配备 MIRIX 系统的智能眼镜能精准总结会议内容。同时,用户可选择将 “如何在 3 分钟内提炼会议纪要” 的技巧以匿名方式分享给其他授权用户。这种共享是知识的安全流转,用户技能与经验成为他人受益资源,且用户隐私始终掌控在自己手中。
这种转变预示着记忆系统未来发展方向,即从单纯的信息存储检索转变为可共享、可复用的知识资产。MIRIX 通过隐私保护机制确保用户对自身记忆资产拥有绝对控制权,其隐私基础设施包含加密层、权限控制和去中心化存储三层设计。加密层确保记忆数据存储传输过程加密,仅授权用户和智能体可解密使用;权限控制允许用户精细设置记忆共享、交易或限制访问权限;去中心化存储避免记忆数据集中掌控,降低数据滥用风险。
MIRIX 为开发者带来一种新思路。例如,程序性记忆的 JSON 步骤可转化为可交易技能卡(这让我想起 Agent 蒸馏,扩展阅读👉《无训练智能体蒸馏:AgentDistill 低成本高能效的智能进化方案(万字)》),使高效工作流程成为可购买数字商品;知识库记忆则能设计得像密码箱一样,仅由用户解锁,让敏感信息保护机制更直观可靠。MIRIX 可以让这些想法逐渐成为现实,重新定义 LLM 智能体记忆能力,平衡隐私保护与价值创造。至此,大家可通过其GitHub页面下载完整代码和 Demo 应用,体验这一创新技术如何改变我们与数字世界的交互方式(如需体验见参考资料)。