项目速览今天给大家推荐一个真心不错的项目:Nanobrowser。简单来说,它是一款开源免费的 Chrome 浏览器插件,能让你用自己的 LLM API 密钥,实现复杂的网页自动化任务,堪称 OpenAI Operator 的完美替代品。 说实话,这个项目解决了一个大痛点。市面上同类产品要么收费不菲,要么对隐私保护不够透明。而 Nanobrowser 把所有操作都放在本地浏览器运行,你的 API 密钥和数据都掌握在自己手里,安全又省钱。 快速上手想体验一下?操作起来非常简单,三步就能跑起来: - 1. 安装插件:直接从 Chrome 网上应用店搜索“Nanobrowser”并添加。如果你想体验最新功能,也可以从 GitHub Release 页面下载
zip 包手动安装。 - 2. 打开侧边栏:安装成功后,在浏览器工具栏点击 Nanobrowser 图标,就会在右侧弹出它的操作界面。
- 3. 配置模型:点击侧边栏右上角的“设置”图标,添加你自己的 LLM API 密钥。你可以为不同的智能体(比如负责规划的 Planner 和负责执行的 Navigator)选择不同的模型,非常灵活。
配置完成后,你就可以在侧边栏通过聊天的方式给它下达指令了。 功能演示Nanobrowser 最酷的地方在于它的多智能体协作系统。你只需要给出一个目标,比如“去 TechCrunch 网站,提取过去24小时内排名前10的新闻标题”,它就会自动规划并执行。 下面这张官方演示图就很好地展示了它的工作流程: 可以看到,Planner 智能体在遇到障碍时会智能地自我修正,并动态指示 Navigator 智能体调整执行方法,整个过程全自动完成。 你可以用它来完成各种任务,比如: - • 信息搜集:“在 GitHub 上查找星标最多的 Python 热门仓库。”
- • 购物比价:“在亚马逊上找一款50美元以下的便携蓝牙音箱,要求防水且续航至少10小时。”
- • 数据整理:“访问这个网页,把表格里的数据提取出来。”
它还能联系上下文进行追问,并且会保存完整的对话历史,方便你随时回顾和管理。 项目技术栈Nanobrowser 本质上是一个基于现代前端技术栈(如 React 和 Vite)构建的浏览器扩展程序。它的核心亮点在于其巧妙的多智能体(Multi-Agent)架构。 它将复杂的自动化任务拆解为两个主要角色:规划者(Planner)和导航者(Navigator)。Planner 负责理解你的高层指令,并将其分解成一系列具体、可执行的步骤;Navigator 则负责模拟用户操作,在网页上点击、输入、滚动等。 这种分工协作的模式,让它在处理复杂任务时更加鲁棒和智能。更棒的是,它支持多种 LLM 服务商,包括 OpenAI、Anthropic、Gemini,甚至可以通过 Ollama 连接本地模型。你可以为 Planner 选择一个推理能力强的大模型,为 Navigator 选择一个响应速度快、成本低的模型,实现性能和成本的最佳平衡。 总的来说,Nanobrowser 是一个非常有前景的 AI 网页自动化工具。它免费、开源,并且把数据隐私和控制权完全交还给用户。如果你对这类工具有需求,强烈推荐试试。 |