我要投稿

让Agent通过MCP操作本地浏览器，用视觉识别还是通过DOM操作，貌似回到当年RPA水准

发布日期：2025-04-05 07:37:42 浏览次数： 1621 作者：IT搬砖录

不管是Manus还是其他自主代理框架，还是MCP官网样例，Agent自主操作本机的浏览器是很多任务在联网信息收集时，相对于付费的搜索API，是一种免费、泛化空间大的手段。

技术上微软有playwright，谷歌有puppeteer，这些原本用于网站自动化测试的工具，都被做成了MCP Server:

https://github.com/microsoft/playwright-mcp

https://github.com/modelcontextprotocol/servers//tree/main/src/puppeteer

在这两个工具的支持下，大模型Agent貌似可以通过两种模式操作目标网站：

视觉模式：这两个工具都可以用程序控制操作目标网站，也都能把当前页面截屏，进一步让大模型采用视觉识别，确定屏幕上的输入与点击位置。然而截图之后的图片象素与实际屏幕象素位置会因为各种原因导致偏差（比如用户同步操作了界面），这种模式很容易失效。当然，多模态的大模型频繁处理截屏画面，消耗的tokens也会比较大。

DOM操作模式：这种模式下，貌似又回到了传统RPA或者页面自动测试采用的技术路线，在目标网站关键DOM名字发生变化时，也会失效，而且大模型当下几乎无法自己识别要操作的关键DOM名字。

比如，想搞个Agent，联合几个AI搜索的内容进行综合研究，以便充分利用各AI搜索引擎的长处。主流的AI搜索：DeepSeek、腾讯元宝、秘塔、天工、知乎直答，联网搜索的操作相对都比较简单，技术要可行性还是比较高的。但是，当用puppeteer、playwright的MCP Server去操作时，当下功能确实太弱了，再要深入下去，发现采用的手段在向当年RPA靠近。

以秘塔为例，主界面比较简单：

打开这个主页面【https://metaso.cn】，应该是毫无压力，接下来是要告诉Agent在输入框中输入相关内容，然后点击发送。

问题就来了，不同的AI搜索输入框怎么定位、发送按钮的名字应该也是各不相同，比如对于秘塔，需要把以下内容放到Agent的系统提示词：

# 秘塔主页 https://metaso.cn/## 输入内容位置textarea## 发送按钮位置#searchRoot > div.SearchHome_search-home__QcyMJ.MuiBox-root.css-0 > div.css-149dzbt > div.search-kits_home-search-box__k3GoF.MuiBox-root.css-w1u6io > form > div.MuiStack-root.css-95g4uk > div.MuiBox-root.css-0 > button

上面的内容，是需要实际在浏览器上用开发者工具找出来。有了上面的信息，在MCP客户端倒确实可以用两三句话完成：打开浏览器、输入要搜的内容，点击发送，然后看到AI搜索开始不断输出。

这种用MCP Server来操作本地浏览器完成搜索功能，实在是太不鲁棒，不够实用，还有很大的改进空间。