近日,最知名的大模型厂商Anthropic推出了Chrome插件,使得Claude能够直接在浏览器中为您工作。目前该产品还处于早期的试水阶段,不过这已经成为巨头们布局浏览器市场的重要一步。
在这篇文章里,我想把 Anthropic 最新发布的“Claude for Chrome”试点项目讲清楚:为什么要让 AI 直接在浏览器里工作,它能做什么,以及更关键的,如何把风险压到可接受的范围。文章的重点放在实际的安全挑战和缓解思路上,包括他们在红队测试中观察到的攻击方式和效果。 简单说,Anthropic 正在小范围测试一个 Chrome 扩展,让可信用户授权 Claude 代你在网页上点击、填写、提交。但和便利一起到来的,是更棘手的“提示注入”风险,官方这次给出了相对具体的数据和防护方案。 
为什么让 AI 直接用浏览器过去几个月,Claude 已能接入你的日历、文档和常见软件。顺着这个方向走下一步,就很自然想到浏览器。毕竟我们的大部分在线工作都发生在浏览器里。让 Claude“看见”你正在浏览的页面,替你点按钮、填表单,从效率上看确实有价值。 从实际应用来看,Anthropic 在内部用早期版本已经试着让 Claude 管理日程、安排会议、写邮件、报销、以及配合测试新网站功能。结果是“有明显帮助”。但他们也承认,广泛开放之前还得解决一些安全问题。 浏览器里的新风险:提示注入这里的核心风险是“提示注入”(prompt injection)。简单说,就是在网页、邮件或文档里埋入恶意指令,诱导 AI 违背用户意图去执行危险操作。对于人类,这是钓鱼;对于会“读网页并执行”的 AI 来说,这是结构化的社工攻击。 - 提示注入可能导致删除文件、窃取数据、甚至进行资金操作。
- 这不是理论推演。Anthropic 做了红队测试(red-teaming,模拟对抗性攻击),在不加防护的情况下,确实出现了令人担心的结果。
一个具体例子是恶意邮件伪装成“安全团队”的通知,声称为了“邮箱卫生”需要删除邮件,而且“不需要额外确认”。测试里,Claude 在处理收件箱时照做了,直接帮用户删了邮件。加上新防护后,它能识别这是可疑的钓鱼信息,并停止执行。 实验数据:缓解前后差多少为了量化风险,团队做了较系统的对抗测试: - 他们设计了 123 个测试用例,覆盖 29 种攻击场景。
- 在“不加防护”的浏览器使用场景里,如果遭到有意攻击,成功率是 23.6%。
- 加入新一轮缓解措施后,成功率降到 11.2%。这个水平已经低于他们此前的“Computer Use”能力(能看屏幕但没有完整浏览器接口)的攻破率。
另外,他们专门针对浏览器特有的新型攻击加了防护,比如: - 在 DOM(Document Object Model,文档对象模型)里藏不可见的恶意表单字段;
- 把恶意指令塞进 URL 文本或标签页标题这种用户不太会留意、但代理会读取的地方。
在一个包含 4 类“浏览器特有”难题的挑战集上,新防护把攻击成功率从 35.7% 降到了 0%。这当然不是说万无一失,而是说明特定方向的缓解有明显效果。 
他们怎么防:权限、确认和分类器这个试点的防护思路比较朴素但有效,主要有三层: - 站点级权限:你可以随时在设置里授权或收回 Claude 对某个网站的访问。
- 行为确认:涉及发布、购买、分享个人信息这类高风险动作时,Claude 会先征求你的确认。即便你开启了“自主模式”(autonomous mode),这些敏感动作仍保留强制确认。需要说明的是,官方的红队测试和安全评估都是在自主模式下进行的。
- 系统提示词(system prompts)强化:在模型收到你的具体指令前,先通过全局提示词约束它如何处理敏感数据、如何对待敏感请求。
- 直接屏蔽高风险站点类别,比如金融服务、成人内容、盗版内容等。
- 训练并上线更高级的分类器(classifier)来检测可疑的指令模式和异常数据访问请求,即便它们看起来像出现在“正常网页”里。
总的来说,这些防护把风险从“容易中招”拉到了“需要更多努力才能中招”。但 Anthropic 也坦率表示,未知的攻击面还很多,他们希望把这个比例继续压低。 为什么先做小范围试点内部测试始终不等于真实世界。用户的实际指令、访问的网站、恶意内容的呈现方式,在野外环境里都更复杂。而且新的提示注入手法还在不断被发明。 因此他们选择先在可信用户里做受控试点:从 1000 名 Max 订阅用户开始,逐步放量。目标是: - 收集真实环境中的失效案例,补充训练分类器与模型本身;
- 根据用户的实际习惯,设计更细粒度、更符合直觉的权限与确认流程。
如何参与内测如果你愿意让 Claude 在 Chrome 里代你执行操作,且你的环境不涉及安全关键或敏感业务,可以加入等候名单: - 研究预览等候名单:claude.ai/chrome
- 获得访问权限后,你可以在 Chrome Web Store 安装扩展,并用 Claude 账号登录。
- 官方建议从可信网站开始,随时注意 Claude 能看到哪些数据。涉及金融、法律、医疗等敏感信息的网站,当前阶段尽量避免用 Claude for Chrome 操作。
- 更详细的安全指引可以在 Help Center 查看:https://support.anthropic.com/en/articles/12012173-getting-started-with-claude-for-chrome
我怎么看这个项目的核心在于,把“AI 看网页并执行动作”这件事做得更可控。好处显而易见,但提示注入在浏览器环境里更隐蔽、更多样。Anthropic 这次有两点值得注意:一是公开了对抗测试的基线数据和缓解后的对比,二是把权限-确认-分类器这套防线落到了具体产品形态里。 换个角度思考,如果你计划在自己的系统里引入“会点网页”的代理,这些经验几乎可以直接借用:始终保留用户在环的确认,显式限制站点范围,用系统提示词约束风险行为,再配合对抗性样本驱动的分类器。等真的要放到生产环境,逐步放量、先易后难,可能是更稳妥的路径。 |