“您有 AI 代理和传统的互联网,”Klein 解释说。“你知道,DMV 不会很快拥有 MCP 服务器。我的理发店不会为我打开 GraphQL API 来安排理发,尽管我一直在恳求 John [可能是他的理发师] 这样做。他有更重要的事情要做。因此,如果我们希望 AI 代理与传统的互联网的其他部分进行交互,他们需要一座桥梁。我真的相信浏览器是 AI 与互联网其他部分之间的桥梁。”
如果像 Browserbase 这样专注于 AI 的公司是可信的,那么将越来越多地由 AI 代理访问您的商业网站,这意味着人类 Web 访问量将相应下降。但是,这些代理究竟是如何为其人类用户获取正确信息的?
Klein 回顾了当前可用的各种类型的 AI 代理以及它们如何控制浏览器。他从过去一年左右率先推出 Web 代理的产品开始——包括 WebVoyager、Adept 和 OpenAI 的 Operator。他将他们的方法描述为:“采用一个模型,然后生成一些代码来控制浏览器,通常通过解析页面上的 DOM、HTML 和 CSS。”
[14]
什么是 Web 代理?
他继续说道,我们现在所处的位置是,有两种主要的 Web 代理类型。
视觉 Web 代理通常使用无头浏览器来获取屏幕截图“作为模型的上下文”,并且它们“可能会对屏幕截图进行一些标记,以指示要单击哪个框,”Klein 说。
文本 Web 代理“主要使用 HTML 作为模型的上下文”——Playwright 是这种方法中流行的工具。
[15]
两种类型的代理。
顺便说一句,Browserbase 有一个名为 Stagehand 的 Playwright 开源框架——适用于 Python 和 Node.js。在最近与 Brian Douglas 的播客采访[16]中,Klein 说 Stagehand 是“Playwright 的超集”,并且它在“Playwright 之上添加了更多 AI 功能”。
Stagehand 是 Browserbase 在 AI 代理方面雄心的关键。在另一次播客采访中,这次与 Latent Space[17]合作,Klein 将 Stagehand 描述为“用于构建 Web 代理的框架”,其中开发人员可以调用三个 API“工具”:Act、extract 和 observe。
回到 AI 工程师世界博览会的演讲,Klein 说“计算机使用”模型是一种新兴的 Web 代理类型。顾名思义,它是指在 UI 任务和“Web 轨迹”(AI 代理浏览网站时的一种工作流程)上训练 AI 模型。
[18]
Web 轨迹。
结论
Klein 指出,目前“在教 AI 如何浏览 Web 方面正在发生很多创新 [...]——而且这东西越来越好。” 当然,如果 AI 代理要不辜负它们的炒作,那么能够有效地自主浏览网站将至关重要。
您可以争论说,对于 Web 发布商来说,他们的内容越来越多地由 AI 代理而不是人类浏览是否是一件好事(这是我非常关心的问题[19])。但是,很难反驳浏览器基础设施是未来AI 开发堆栈[20]的关键组成部分。Browserbase 似乎完全适合这个市场