返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

让Agent通过MCP操作本地浏览器,用视觉识别还是通过DOM操作,貌似回到当年RPA水准

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 13:01 |阅读模式 打印 上一主题 下一主题

不管是Manus还是其他自主代理框架,还是MCP官网样例,Agent自主操作本机的浏览器是很多任务在联网信息收集时,相对于付费的搜索API,是一种免费、泛化空间大的手段。

技术上微软有playwright,谷歌有puppeteer,这些原本用于网站自动化测试的工具,都被做成了MCP Server:

https://github.com/microsoft/playwright-mcp

https://github.com/modelcontextprotocol/servers//tree/main/src/puppeteer

在这两个工具的支持下,大模型Agent貌似可以通过两种模式操作目标网站:

视觉模式:这两个工具都可以用程序控制操作目标网站,也都能把当前页面截屏,进一步让大模型采用视觉识别,确定屏幕上的输入与点击位置。然而截图之后的图片象素与实际屏幕象素位置会因为各种原因导致偏差(比如用户同步操作了界面),这种模式很容易失效。当然,多模态的大模型频繁处理截屏画面,消耗的tokens也会比较大。

DOM操作模式:这种模式下,貌似又回到了传统RPA或者页面自动测试采用的技术路线,在目标网站关键DOM名字发生变化时,也会失效,而且大模型当下几乎无法自己识别要操作的关键DOM名字。

比如,想搞个Agent,联合几个AI搜索的内容进行综合研究,以便充分利用各AI搜索引擎的长处。主流的AI搜索:DeepSeek、腾讯元宝、秘塔、天工、知乎直答,联网搜索的操作相对都比较简单,技术要可行性还是比较高的。但是,当用puppeteer、playwright的MCP Server去操作时,当下功能确实太弱了,再要深入下去,发现采用的手段在向当年RPA靠近。

以秘塔为例,主界面比较简单:

打开这个主页面【https://metaso.cn】,应该是毫无压力,接下来是要告诉Agent在输入框中输入相关内容,然后点击发送。

问题就来了,不同的AI搜索输入框怎么定位、发送按钮的名字应该也是各不相同,比如对于秘塔,需要把以下内容放到Agent的系统提示词:

#秘塔主页https://metaso.cn/##输入内容位置textarea##发送按钮位置#searchRoot>div.SearchHome_search-home__QcyMJ.MuiBox-root.css-0>div.css-149dzbt>div.search-kits_home-search-box__k3GoF.MuiBox-root.css-w1u6io>form>div.MuiStack-root.css-95g4uk>div.MuiBox-root.css-0>button

上面的内容,是需要实际在浏览器上用开发者工具找出来。有了上面的信息,在MCP客户端倒确实可以用两三句话完成:打开浏览器、输入要搜的内容,点击发送,然后看到AI搜索开始不断输出。

这种用MCP Server来操作本地浏览器完成搜索功能,实在是太不鲁棒,不够实用,还有很大的改进空间。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ