TechFoco Logo
首页专题归档站点地图
© 2026 TechFoco. All rights reserved.
文章归档专题网站地图站点地图 XML爬虫规则GitHub
  1. 首页
  2. /
  3. 返回归档
  4. /
  5. Open-AutoGLM:基于视觉语言模型的安卓自动化框架

Open-AutoGLM:基于视觉语言模型的安卓自动化框架

2025年12月27日•TechFoco 精选

Open-AutoGLM 是一个开源手机智能助理框架,通过视觉语言模型理解屏幕内容,结合 ADB 用自然语言指令自动化操作安卓应用,支持 50 余款主流应用和远程调试。

Article Image
Article Image

随着移动应用的普及,日常操作中重复、繁琐的任务日益增多。传统自动化方案往往依赖脚本录制或坐标点击,缺乏对屏幕内容的语义理解,难以应对动态变化的界面。在此背景下,结合视觉语言模型与设备控制能力的自动化框架应运而生。

核心内容

Open-AutoGLM 是一个基于 AutoGLM 的开源手机智能助理框架。其核心能力在于通过视觉语言模型理解手机屏幕内容,并结合 Android 调试桥(ADB)实现对安卓设备的自动化控制。用户可以使用自然语言下达指令,例如“打开淘宝搜索无线耳机”,框架便能自动执行打开应用、点击、输入、滑动等一系列操作,甚至能处理验证码和登录流程。

该框架支持微信、淘宝、京东、美团、小红书等超过 50 款主流中文应用。在连接方式上,支持通过 WiFi 进行远程 ADB 调试,无需 USB 物理连接。在执行任务时,无论是单步调试还是批量任务,用户都可以清晰地观察到 AI 的思考过程与执行动作。

项目集成了多项关键功能:

  • 多模态屏幕内容理解,可自动识别界面元素。
  • 基于自然语言的智能任务规划。
  • 敏感操作自动确认和人工接管机制。
  • 支持远程 ADB 设备管理和无线调试。
  • 兼容多平台模型部署,既可使用第三方 API,也可进行本地部署。

价值与影响

Open-AutoGLM 为自动化测试、智能个人助理、无障碍操作等多种场景提供了新的技术路径。它通过将高级语义理解与底层设备控制相结合,提升了自动化任务的灵活性和可靠性。开发者安装项目依赖后,即可快速运行体验,探索其在特定工作流中的应用潜力。


来源:黑洞资源笔记

相关标签

AutoGLMAndroid AutomationComputer VisionNatural Language ProcessingADB

继续阅读

较新文章

CocoIndex:Rust 与 Python 构建的高效数据处理框架

较早文章

Claude Code System Prompts 仓库解析

相关文章

查看更多

OpenPhone:开源的移动端视觉-语言基础模型

OpenPhone 是一个开源的 3 亿参数移动端视觉-语言基础模型,完全在手机本地运行,无需云调用,旨在解决 AI 手机应用的隐私、延迟和成本问题。

2025年12月27日
Mobile AIOn-Device AI

TRELLIS.2:微软开源图生 3D 模型

微软开源了 TRELLIS.2 模型,这是一个基于单张图片生成带纹理与 PBR 材质的 3D 模型的工具。它采用 4B 参数的 Transformer 架构和 O-Voxel 稀疏体素表示,支持高分辨率快速生成。

2025年12月27日
3D GenerationComputer Vision
DeepOCR:完全开源复现 DeepSeek-OCR 训练过程

DeepOCR:完全开源复现 DeepSeek-OCR 训练过程

DeepOCR 是由爱荷华州立大学和普林斯顿大学发起的开源项目,旨在提供完整的代码以复现 DeepSeek-OCR 的训练与评估流程,而不仅仅是权重和报告。

2025年11月09日
OCRComputer Vision

Parlant:开源LLM智能代理框架

Parlant 是一个专为落地应用设计的开源 LLM 智能代理框架,通过自然语言规则确保 AI 行为符合业务逻辑,支持对话管理、动态规则匹配和快速集成,适用于构建稳定可靠的智能客服与业务助手。

2025年11月05日
LLM FrameworkConversation Management
HyperAgent:基于自然语言的智能浏览器自动化框架

HyperAgent:基于自然语言的智能浏览器自动化框架

HyperAgent 是一个基于 Playwright 的智能浏览器自动化框架,通过自然语言指令驱动,提供简洁 API、反检测、云端扩展和多 LLM 支持,旨在提升自动化任务的构建效率与稳定性。

2025年09月21日
PlaywrightWeb Automation