链载Ai

标题: Browser-Use:AI解锁浏览器的无限可能 [打印本页]

作者: 链载Ai    时间: 昨天 18:42
标题: Browser-Use:AI解锁浏览器的无限可能

AI浏览器革命!Browser-use让你秒变"效率达人",无代码、零门槛,对话式控制浏览器,数据抓取、竞品分析一键搞定。

又是一个被数据和报表包围的深夜,你是否还在为这些场景发愁:

如果这些痛点让你感同身受,那么今天介绍的这款开源神器绝对能让你眼前一亮!它正在颠覆传统的网页操作方式,让无数数据分析师、市场研究员和效率控欢呼雀跃。下面是我触发的一个任务的执行过程和结果。

一、认识Browser-use

Browser-use是GitHub上一款热度爆表的开源项目,狂揽61.5k星。它彻底革新了传统的网页自动化方式,无需编写一行代码,只需用自然语言对话,就能指挥AI完成各种复杂的网页操作任务。

Enable AI to control your browser 🤖

https://github.com/browser-use/browser-use

想象一下,你只需输入"帮我查找某某商品全网最低的价格",AI就能自动打开浏览器,依次访问各平台,提取价格信息,最后生成一份完整的比价报告。这不是科幻,而是Browser-use已经实现的功能。核心亮点如下:

1.1对话式网页操控

告别繁琐的编程学习,用你最熟悉的语言直接"指挥"浏览器。无论是网页导航、表单填写、数据提取还是跨平台比价,只需一句话描述需求,AI就能理解并执行。这种交互方式极大降低了技术门槛,让网页自动化真正走向大众化。

1.2 多模型自由切换

Browser-use支持对接20多种主流大模型,包括GPT-4、Claude、DeepSeek等。你可以根据不同任务特点和个人偏好,灵活切换不同的"AI大脑"。这种开放架构确保了工具的持续进化能力,让你始终能用上最适合的AI能力。

1.3 数据安全

针对不同用户需求,Browser-use提供了两种部署方式,这种灵活设计满足了从个人用户到企业级应用的多样化需求:

1.4AI辅助与人工干预的智能结合

Browser-use不是完全的"黑盒"操作,它支持人工随时干预,让你保持对浏览过程的掌控权,比如在运行时登录各个APP的账号,当然也支持你使用自己的浏览器,里面保存着你常用的网站token。更贴心的是,整个操作过程可以录屏保存,方便后续复盘和优化。这种人机协作模式既发挥了AI的效率优势,又保留了人类的判断能力,堪称智能化的最佳实践。

二、安装

2.1 零基础小白

零基础的小白可以体验云端或者使用其Web UI,当然云端是需要收费的。

这里介绍一下使用Web UI白嫖的方法。Web UI的项目地址,按照其提示来进行安装部署,不会的直接将下面的命令在终端中粘贴运行。

web-ui

https://github.com/browser-use/web-ui

克隆项目到本地

注意后面的每个命令执行均需要在web-ui的目录下

gitclonehttps://github.com/browser-use/web-ui.gitcdweb-ui

设置python的环境

使用uv来管理python的环境,uv如果没有下载,使用下面的命令下载

curl-LsSfhttps://astral.sh/uv/install.sh|sh
uvvenv--python3.11

启动虚拟的环境

根据不同的平台选择不同的方式

.venv\Scripts\activate#Windows(CommandPrompt)
source.venv/bin/activate#macOS/Linux

安装相关的依赖

uvpipinstall-rrequirements.txt
playwrightinstallchromium--with-deps#安装浏览器

设置配置文件

copy.env.example.env#Windows(CommandPrompt)
cp.env.example.env#macOS/Linux

启动Web-ui

注意后面每次执行的时候,需要先启动虚拟的环境。执行完命令后,在浏览器中输入地址来使用http://127.0.0.1:7788

source.venv/bin/activate
pythonwebui.py--ip127.0.0.1--port7788
#WindowsBROWSER_PATH="C:\ProgramFiles\Google\Chrome\Application\chrome.exe"BROWSER_USER_DATA="C:\Users\YourUsername\AppData\Local\Google\Chrome\UserData"
#MacBROWSER_PATH="/Applications/GoogleChrome.app/Contents/MacOS/GoogleChrome"BROWSER_USER_DATA="/Users/YourUsername/Library/ApplicationSupport/Google/Chrome"

白嫖模型API

使用魔塔社区的免费API调用,注册一个魔塔社区的账号,每天可以白嫖2000次API的调用,亲测执行简单的任务一天用不完。

然后在.env文件中添加下面两个配置,记得更改默认模型,MODELSCOPE_API_KEY的值在魔塔社区,点击个人头像->“账号设置”->“访问令牌”->“SDK/API 令牌”,记得先绑定阿里云账号。

MODELSCOPE_ENDPOINT=https://api-inference.modelscope.cn/v1MODELSCOPE_API_KEY=xxxxxxxxxxx#setdefaultLLMDEFAULT_LLM=modelscope

页面操作

因为公司电脑有管控,无法录屏,页面操作就参考一下官方的视频,主要分为五个模块

2.2 开发者的Python库集成

有python基础的可以直接通过pip安装,步骤如下:

pipinstallbrowser-use
playwrightinstallchromium--with-deps--no-shell#浏览器下载
#大模块的api调用,需要自己到不同的模型官网注册OPENAI_API_KEY=ANTHROPIC_API_KEY=AZURE_OPENAI_ENDPOINT=AZURE_OPENAI_KEY=GOOGLE_API_KEY=DEEPSEEK_API_KEY=GROK_API_KEY=NOVITA_API_KEY=
importasynciofromdotenvimportload_dotenvload_dotenv()frombrowser_useimportAgentfromlangchain_openaiimportChatOpenAIasyncdefmain():agent=Agent(task="Comparethepriceofgpt-4oandDeepSeek-V3",llm=ChatOpenAI(model="gpt-4o"),)awaitagent.run()asyncio.run(main())

三、后记

其实还有一个类似的AI浏览器工具Nanobrowser,产品形态是开源Chrome扩展程序,基于多智能体协作系统(Planner/Navigator/Validator)的LLM驱动架构,浏览器本地运行,注重隐私安全,与现有浏览器无缝集成,保留用户熟悉的浏览器环境和插件生态。有兴趣的同学可以尝试玩玩。对于新手用户而言,Browser-use的Web UI方案可能更容易上手;而对于已经习惯使用Chrome的用户,Nanobrowser的扩展形式可能更加便捷。

当AI浏览器助手已经成为现实,你还在坚持手动重复那些机械性工作吗?Browser-use不仅是一个工具,更是工作方式的革新。它让我们从繁琐的重复劳动中解放出来,将时间和精力投入到真正需要创造力的工作中。随着大模型技术的不断进步,Browser-use这类AI浏览器助手的能力还将持续提升,让AI成为你的专属"浏览器管家",一起拥抱更高效、更智能的工作方式!







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5