Vercel Labs agent-browser:AI 驱动的浏览器自动化 CLI
Vercel Labs 开源了 agent-browser,这是一个基于 Rust 的浏览器自动化 CLI 工具,专为 AI 代理设计,支持网页操作、数据抓取和自动化测试。

在线自动化操作网页,通常需要在浏览器和脚本之间频繁切换,流程繁琐且效率不高。针对这一痛点,Vercel Labs 推出了开源项目 agent-browser。这是一个专为 AI 设计的浏览器自动化命令行工具,旨在简化自动化流程,提升执行效率。
核心内容
agent-browser 的核心是基于 Rust 编写的原生二进制文件,这带来了极高的性能与极低的延迟。同时,它也支持回退到 Node.js 环境,确保了良好的兼容性。该工具集成了完整的浏览器控制能力,包括打开页面、点击元素、填写输入框、截图、抓取元素文本等基础操作。此外,它还支持等待特定元素出现、页面滚动、注入键盘与鼠标事件等高级功能。
在架构设计上,agent-browser 支持管理多个会话和持久化浏览数据,便于复杂任务的执行与状态恢复。其功能特性具体体现在以下几个方面:
- 极速 Rust CLI:操作流畅,延迟极低。
- 灵活的元素选择器:支持多种定位方式,推荐使用 refs 快速定位元素。
- 丰富的输出与调试:支持截图、PDF 导出、页面快照及元素高亮。
- 多会话与持久化:支持加密保存浏览状态,管理多个独立会话。
- 远程与云端支持:可连接远程调试浏览器或在云端浏览器环境中运行。
- 跨平台控制:支持操控 iOS 模拟器与真机上的 Safari 浏览器。
- 安全特性:内置域名白名单、动作确认和内容边界标记等安全机制。
安装过程较为简单,通过 npm 全局安装 agent-browser 后,执行 agent-browser install 命令即可自动下载所需的 Chromium 浏览器。该工具适用于 Web、macOS、Windows 和 Linux 平台。
价值与影响
agent-browser 的出现,为 AI 代理执行自动化任务提供了强有力的工具支持。它特别适用于自动登录、数据爬取、测试脚本自动执行等场景。其支持 iOS 模拟器控制和云端远程浏览的能力,进一步拓宽了应用范围,使其非常适合集成到各类自动化工作流和 AI 助理系统中。对于开发者和 AI 从业人员而言,agent-browser 提供了一个高性能、高兼容性且功能全面的浏览器自动化解决方案,有助于构建更智能、更高效的自动化流程。
来源:黑洞资源笔记




