链载Ai

标题: 从 EchoLeak 到 AgentFlayer:RAG 系统面临的间接 Prompt 注入威胁与防御 [打印本页]

作者: 链载Ai    时间: 前天 19:22
标题: 从 EchoLeak 到 AgentFlayer:RAG 系统面临的间接 Prompt 注入威胁与防御

随着大模型进入生产环境,RAG(Retrieval-Augmented Generation)已成为降低幻觉、提升准确性的主流手段。同时,由于 AI 可访问更广的企业数据,新的攻击面同步扩大。

2025 年 6 月 11 日,Aim Security 披露了 Microsoft 365 Copilot 的“零点击(Zero-Click)”间接 Prompt 注入漏洞EchoLeak(CVE‑2025‑32711) [1]。不到两个月后,2025 年 8 月 6 日,Zenity Labs 在 Black Hat USA 披露AgentFlayer,针对 ChatGPT Connectors 与 Google Drive 集成 [2]。两者本质一致:间接 Prompt 注入(Indirect Prompt Injection, IPI)+ 自动外传

这意味着什么?

本文将结合 EchoLeak 与 AgentFlayer,解释间接 Prompt 注入的工作原理与危害,并给出面向开发者/企业的可操作防御方法。

1. RAG 系统安全模型概述

1.1 RAG 是什么

简单讲,RAG 就是:在回答前先去拉取外部知识,再把这些文本作为上下文喂给大模型,由模型在此基础上生成更贴近事实的输出。它把“模型参数里的通用知识”和“企业自己的私有知识”拼在一起,降低幻觉、提升回答的准确性。


这些外部知识库的常见来源包括:

在 EchoLeak 中,主要利用的是 Outlook 和 Sharepoint;在 AgentFlayer 中,主要利用的是 Google Drive。

这些外部知识库把原本封闭的模型“打开”到了大量外部数据与渲染环境,也就引入了新的安全假设与边界

1.2 三个核心风险点

RAG 应用的架构提示了三个核心的风险点:

  1. 数据不可信:进入检索层的外部数据可能被“投毒”。(详见 §2.1)
  2. 指令/数据未隔离:模型可能把“数据里的隐藏指令”当成任务执行。(详见 §2.1)
  3. 输出可被渲染/执行:Markdown/HTML/URL 预览等会在无交互下发起外部请求,形成外传通道。(详见 §2.2)

1.3 典型的威胁路径

一个典型的威胁路径如下图所示:


  1. 攻击者把包含恶意外链的隐藏指令塞进某个将被索引/访问的载体(邮件、文档、网页、Drive 文件)。
  2. 该载体进入检索范围,被召回进上下文。
  3. 模型遵循隐藏指令,拼接或检索出内部敏感信息。
  4. 模型在输出中嵌入“看似无害”的外链(如 Markdown 图片/链接,或要求调用某个 URL)。
  5. 前端渲染/预览或后端处理链路自动访问该外链 → 请求到达攻击者域名 → 数据被带出。

2. 攻击手法解析

本章回答两个问题:指令如何被藏进数据?数据如何被带出去?对应地,§2.1 讲 IPI 注入手法,§2.2 讲外传通道。

2.1 间接 Prompt 注入(Indirect Prompt Injection, IPI)

2.2 数据外传通道(Exfiltration Channels)

数据外传是威胁链路的最后一跳,也是攻击者达成目的的关键一步。RAG 应用以文本生成为主,直接执行脚本并不常见;攻击者通常借助被动出网机制(渲染器、预览服务、工具调用在后台自动发起请求),实现零点击外传。常见通道包括:

示例

3. 错误安全假设

从 EchoLeak 到 AgentFlayer ,这些针对于 RAG 的威胁并非源自“零日漏洞”,而是对数据、模型与渲染链路的过度信任。常见的三类误判如下:

4. 防御与缓解

承接上一节的误判分析,下面谈“如何防”。传统防护主要面向脚本执行与显性恶意;而在生成式 AI 场景,输入—推理—输出几乎全部以自然语言呈现,单靠语法规则难以奏效,必须结合语义感知上下文约束。此外,随着 AI Agent 范式兴起,Agent 往往可访问企业内部数据并通过连接器调用外部服务;若权限边界不清,风险会被放大,因此最小权限能力域隔离尤为关键。

4.1 输入检查与净化(Input Inspection and Sanitization)

4.2 权限最小化与能力域隔离 (Least Privilege & Capability Scoping)

4.3 上下文隔离(Context Isolation)

4.4 输出检查与拦截(Output Inspection and Interception)

5. 总结

RAG 是当前企业落地生成式 AI 的较成熟路径,但其优势伴生新的攻防范式:数据即攻击面,输出即外连点。EchoLeak 与 AgentFlayer 在两个月内相继曝光,说明这并非个案,而是一套可在不同平台迁移复用的通用打法。随着连接器与生态扩张,变种只会不断增多;在本地化/自建部署中,缺乏统一基线往往意味着更大的暴露面与更长的修复周期。

这些风险多源于对数据可信度、模型顺从性与渲染链路的误判,而非传统意义上的“零日”。仅靠语法/特征匹配难以奏效;要有效降风险,应将语义感知的多层净化与检查AI Agent 的最小权限以及对外连输出的拦截与审计固化为工程基线,而非临时加固。

随着 AI(含生成式 AI、RAG 与 AI Agent)持续深入企业业务场景,围绕语义对抗与被动出网的特定威胁仍将不断涌现。我们将持续跟踪最新进展。

免责声明

本文仅用于安全科普与防御研究,不提供攻击脚本。请在合法合规的前提下开展测试与防护,网络并非法外之地。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5