链载Ai

标题: 把 Claude 放进浏览器:Anthropic发布Chrome插件,试点背后的安全取舍 [打印本页]

作者: 链载Ai    时间: 昨天 19:24
标题: 把 Claude 放进浏览器:Anthropic发布Chrome插件,试点背后的安全取舍

近日,最知名的大模型厂商Anthropic推出了Chrome插件,使得Claude能够直接在浏览器中为您工作。目前该产品还处于早期的试水阶段,不过这已经成为巨头们布局浏览器市场的重要一步。

在这篇文章里,我想把 Anthropic 最新发布的“Claude for Chrome”试点项目讲清楚:为什么要让 AI 直接在浏览器里工作,它能做什么,以及更关键的,如何把风险压到可接受的范围。文章的重点放在实际的安全挑战和缓解思路上,包括他们在红队测试中观察到的攻击方式和效果。

简单说,Anthropic 正在小范围测试一个 Chrome 扩展,让可信用户授权 Claude 代你在网页上点击、填写、提交。但和便利一起到来的,是更棘手的“提示注入”风险,官方这次给出了相对具体的数据和防护方案。

Claude for Chrome 试点示意图

为什么让 AI 直接用浏览器

过去几个月,Claude 已能接入你的日历、文档和常见软件。顺着这个方向走下一步,就很自然想到浏览器。毕竟我们的大部分在线工作都发生在浏览器里。让 Claude“看见”你正在浏览的页面,替你点按钮、填表单,从效率上看确实有价值。

从实际应用来看,Anthropic 在内部用早期版本已经试着让 Claude 管理日程、安排会议、写邮件、报销、以及配合测试新网站功能。结果是“有明显帮助”。但他们也承认,广泛开放之前还得解决一些安全问题。

浏览器里的新风险:提示注入

这里的核心风险是“提示注入”(prompt injection)。简单说,就是在网页、邮件或文档里埋入恶意指令,诱导 AI 违背用户意图去执行危险操作。对于人类,这是钓鱼;对于会“读网页并执行”的 AI 来说,这是结构化的社工攻击。

一个具体例子是恶意邮件伪装成“安全团队”的通知,声称为了“邮箱卫生”需要删除邮件,而且“不需要额外确认”。测试里,Claude 在处理收件箱时照做了,直接帮用户删了邮件。加上新防护后,它能识别这是可疑的钓鱼信息,并停止执行。

实验数据:缓解前后差多少

为了量化风险,团队做了较系统的对抗测试:

另外,他们专门针对浏览器特有的新型攻击加了防护,比如:

在一个包含 4 类“浏览器特有”难题的挑战集上,新防护把攻击成功率从 35.7% 降到了 0%。这当然不是说万无一失,而是说明特定方向的缓解有明显效果。

他们怎么防:权限、确认和分类器

这个试点的防护思路比较朴素但有效,主要有三层:

总的来说,这些防护把风险从“容易中招”拉到了“需要更多努力才能中招”。但 Anthropic 也坦率表示,未知的攻击面还很多,他们希望把这个比例继续压低。

为什么先做小范围试点

内部测试始终不等于真实世界。用户的实际指令、访问的网站、恶意内容的呈现方式,在野外环境里都更复杂。而且新的提示注入手法还在不断被发明。

因此他们选择先在可信用户里做受控试点:从 1000 名 Max 订阅用户开始,逐步放量。目标是:

如何参与内测

如果你愿意让 Claude 在 Chrome 里代你执行操作,且你的环境不涉及安全关键或敏感业务,可以加入等候名单:

我怎么看

这个项目的核心在于,把“AI 看网页并执行动作”这件事做得更可控。好处显而易见,但提示注入在浏览器环境里更隐蔽、更多样。Anthropic 这次有两点值得注意:一是公开了对抗测试的基线数据和缓解后的对比,二是把权限-确认-分类器这套防线落到了具体产品形态里。

换个角度思考,如果你计划在自己的系统里引入“会点网页”的代理,这些经验几乎可以直接借用:始终保留用户在环的确认,显式限制站点范围,用系统提示词约束风险行为,再配合对抗性样本驱动的分类器。等真的要放到生产环境,逐步放量、先易后难,可能是更稳妥的路径。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5