微信扫码
添加专属顾问
我要投稿
探索Agent在本地浏览器操作中的技术选择,揭示视觉识别与DOM操作的优劣对比。核心内容:1. 免费泛化信息收集手段:Agent自主操作浏览器的价值2. 视觉识别与DOM操作:两种模式的对比分析3. 实际应用案例:秘塔搜索界面的Agent操作挑战
不管是Manus还是其他自主代理框架,还是MCP官网样例,Agent自主操作本机的浏览器是很多任务在联网信息收集时,相对于付费的搜索API,是一种免费、泛化空间大的手段。
技术上微软有playwright,谷歌有puppeteer,这些原本用于网站自动化测试的工具,都被做成了MCP Server:
https://github.com/microsoft/playwright-mcp https://github.com/modelcontextprotocol/servers//tree/main/src/puppeteer |
在这两个工具的支持下,大模型Agent貌似可以通过两种模式操作目标网站:
视觉模式:这两个工具都可以用程序控制操作目标网站,也都能把当前页面截屏,进一步让大模型采用视觉识别,确定屏幕上的输入与点击位置。然而截图之后的图片象素与实际屏幕象素位置会因为各种原因导致偏差(比如用户同步操作了界面),这种模式很容易失效。当然,多模态的大模型频繁处理截屏画面,消耗的tokens也会比较大。
DOM操作模式:这种模式下,貌似又回到了传统RPA或者页面自动测试采用的技术路线,在目标网站关键DOM名字发生变化时,也会失效,而且大模型当下几乎无法自己识别要操作的关键DOM名字。
比如,想搞个Agent,联合几个AI搜索的内容进行综合研究,以便充分利用各AI搜索引擎的长处。主流的AI搜索:DeepSeek、腾讯元宝、秘塔、天工、知乎直答,联网搜索的操作相对都比较简单,技术要可行性还是比较高的。但是,当用puppeteer、playwright的MCP Server去操作时,当下功能确实太弱了,再要深入下去,发现采用的手段在向当年RPA靠近。
以秘塔为例,主界面比较简单:
打开这个主页面【https://metaso.cn】,应该是毫无压力,接下来是要告诉Agent在输入框中输入相关内容,然后点击发送。
问题就来了,不同的AI搜索输入框怎么定位、发送按钮的名字应该也是各不相同,比如对于秘塔,需要把以下内容放到Agent的系统提示词:
秘塔主页 https://metaso.cn/
# 输入内容位置 textarea
# 发送按钮位置 #searchRoot > div.SearchHome_search-home__QcyMJ.MuiBox-root.css-0 > div.css-149dzbt > div.search-kits_home-search-box__k3GoF.MuiBox-root.css-w1u6io > form > div.MuiStack-root.css-95g4uk > div.MuiBox-root.css-0 > button
上面的内容,是需要实际在浏览器上用开发者工具找出来。有了上面的信息,在MCP客户端倒确实可以用两三句话完成:打开浏览器、输入要搜的内容,点击发送,然后看到AI搜索开始不断输出。
这种用MCP Server来操作本地浏览器完成搜索功能,实在是太不鲁棒,不够实用,还有很大的改进空间。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-02
2025-04-02
2025-04-01
2025-04-01
2025-04-01
2025-03-30
2025-03-30
2025-03-28