把 Claude 放进浏览器：Anthropic发布Chrome插件，试点背后的安全取舍

显示全部楼层

近日，最知名的大模型厂商Anthropic推出了Chrome插件，使得Claude能够直接在浏览器中为您工作。目前该产品还处于早期的试水阶段，不过这已经成为巨头们布局浏览器市场的重要一步。

在这篇文章里，我想把 Anthropic 最新发布的“Claude for Chrome”试点项目讲清楚：为什么要让 AI 直接在浏览器里工作，它能做什么，以及更关键的，如何把风险压到可接受的范围。文章的重点放在实际的安全挑战和缓解思路上，包括他们在红队测试中观察到的攻击方式和效果。

简单说，Anthropic 正在小范围测试一个 Chrome 扩展，让可信用户授权 Claude 代你在网页上点击、填写、提交。但和便利一起到来的，是更棘手的“提示注入”风险，官方这次给出了相对具体的数据和防护方案。

Claude for Chrome 试点示意图

为什么让 AI 直接用浏览器

过去几个月，Claude 已能接入你的日历、文档和常见软件。顺着这个方向走下一步，就很自然想到浏览器。毕竟我们的大部分在线工作都发生在浏览器里。让 Claude“看见”你正在浏览的页面，替你点按钮、填表单，从效率上看确实有价值。

从实际应用来看，Anthropic 在内部用早期版本已经试着让 Claude 管理日程、安排会议、写邮件、报销、以及配合测试新网站功能。结果是“有明显帮助”。但他们也承认，广泛开放之前还得解决一些安全问题。

这里的核心风险是“提示注入”（prompt injection）。简单说，就是在网页、邮件或文档里埋入恶意指令，诱导 AI 违背用户意图去执行危险操作。对于人类，这是钓鱼；对于会“读网页并执行”的 AI 来说，这是结构化的社工攻击。

一个具体例子是恶意邮件伪装成“安全团队”的通知，声称为了“邮箱卫生”需要删除邮件，而且“不需要额外确认”。测试里，Claude 在处理收件箱时照做了，直接帮用户删了邮件。加上新防护后，它能识别这是可疑的钓鱼信息，并停止执行。

为了量化风险，团队做了较系统的对抗测试：

另外，他们专门针对浏览器特有的新型攻击加了防护，比如：

在一个包含 4 类“浏览器特有”难题的挑战集上，新防护把攻击成功率从 35.7% 降到了 0%。这当然不是说万无一失，而是说明特定方向的缓解有明显效果。

这个试点的防护思路比较朴素但有效，主要有三层：

站点级权限：你可以随时在设置里授权或收回 Claude 对某个网站的访问。
行为确认：涉及发布、购买、分享个人信息这类高风险动作时，Claude 会先征求你的确认。即便你开启了“自主模式”（autonomous mode），这些敏感动作仍保留强制确认。需要说明的是，官方的红队测试和安全评估都是在自主模式下进行的。

总的来说，这些防护把风险从“容易中招”拉到了“需要更多努力才能中招”。但 Anthropic 也坦率表示，未知的攻击面还很多，他们希望把这个比例继续压低。

内部测试始终不等于真实世界。用户的实际指令、访问的网站、恶意内容的呈现方式，在野外环境里都更复杂。而且新的提示注入手法还在不断被发明。

因此他们选择先在可信用户里做受控试点：从 1000 名 Max 订阅用户开始，逐步放量。目标是：

如果你愿意让 Claude 在 Chrome 里代你执行操作，且你的环境不涉及安全关键或敏感业务，可以加入等候名单：

研究预览等候名单：claude.ai/chrome
获得访问权限后，你可以在 Chrome Web Store 安装扩展，并用 Claude 账号登录。
官方建议从可信网站开始，随时注意 Claude 能看到哪些数据。涉及金融、法律、医疗等敏感信息的网站，当前阶段尽量避免用 Claude for Chrome 操作。
更详细的安全指引可以在 Help Center 查看：https://support.anthropic.com/en/articles/12012173-getting-started-with-claude-for-chrome

这个项目的核心在于，把“AI 看网页并执行动作”这件事做得更可控。好处显而易见，但提示注入在浏览器环境里更隐蔽、更多样。Anthropic 这次有两点值得注意：一是公开了对抗测试的基线数据和缓解后的对比，二是把权限-确认-分类器这套防线落到了具体产品形态里。

换个角度思考，如果你计划在自己的系统里引入“会点网页”的代理，这些经验几乎可以直接借用：始终保留用户在环的确认，显式限制站点范围，用系统提示词约束风险行为，再配合对抗性样本驱动的分类器。等真的要放到生产环境，逐步放量、先易后难，可能是更稳妥的路径。