Open-AutoGLM:基于视觉语言模型的安卓自动化框架
Open-AutoGLM 是一个开源手机智能助理框架,通过视觉语言模型理解屏幕内容,结合 ADB 用自然语言指令自动化操作安卓应用,支持 50 余款主流应用和远程调试。

随着移动应用的普及,日常操作中重复、繁琐的任务日益增多。传统自动化方案往往依赖脚本录制或坐标点击,缺乏对屏幕内容的语义理解,难以应对动态变化的界面。在此背景下,结合视觉语言模型与设备控制能力的自动化框架应运而生。
核心内容
Open-AutoGLM 是一个基于 AutoGLM 的开源手机智能助理框架。其核心能力在于通过视觉语言模型理解手机屏幕内容,并结合 Android 调试桥(ADB)实现对安卓设备的自动化控制。用户可以使用自然语言下达指令,例如“打开淘宝搜索无线耳机”,框架便能自动执行打开应用、点击、输入、滑动等一系列操作,甚至能处理验证码和登录流程。
该框架支持微信、淘宝、京东、美团、小红书等超过 50 款主流中文应用。在连接方式上,支持通过 WiFi 进行远程 ADB 调试,无需 USB 物理连接。在执行任务时,无论是单步调试还是批量任务,用户都可以清晰地观察到 AI 的思考过程与执行动作。
项目集成了多项关键功能:
- 多模态屏幕内容理解,可自动识别界面元素。
- 基于自然语言的智能任务规划。
- 敏感操作自动确认和人工接管机制。
- 支持远程 ADB 设备管理和无线调试。
- 兼容多平台模型部署,既可使用第三方 API,也可进行本地部署。
价值与影响
Open-AutoGLM 为自动化测试、智能个人助理、无障碍操作等多种场景提供了新的技术路径。它通过将高级语义理解与底层设备控制相结合,提升了自动化任务的灵活性和可靠性。开发者安装项目依赖后,即可快速运行体验,探索其在特定工作流中的应用潜力。
来源:黑洞资源笔记

