Open-AutoGLM是一个基于AutoGLM构建的手机端智能助理框架,它利用视觉-语言模型(VLM)和ADB(AndroidDebugBridge)技术,实现了通过自然语言指令来自动化操作Android设备的功能。核心架构Open-AutoGLM采用模块化设计,主要由以
Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助理框架,它利用视觉-语言模型(VLM)和 ADB(Android Debug Bridge)技术,实现了通过自然语言指令来自动化操作 Android 设备的功能。
Open-AutoGLM 采用模块化设计,主要由以下几个核心组件构成:
视觉-语言模型(AutoGLM-Phone-9B):这是系统的核心AI模型,专门用于理解和处理移动设备的图形用户界面。它能够接收手机屏幕截图作为输入,并输出相应的操作指令。
PhoneAgent 类:负责管理任务执行的生命周期,协调各个组件的工作流程。
ADB 控制模块:通过 ADB 工具与 Android 设备进行通信,执行各种操作如点击、滑动、输入文本等。
模型客户端:提供了与视觉-语言模型交互的接口,支持 OpenAI 兼容的 API。

系统首先通过 ADB 获取当前设备屏幕的截图,并识别当前所在的 App。这些信息会被打包发送给视觉-语言模型。
视觉-语言模型接收到屏幕截图和用户任务描述后,会分析当前界面状态,理解用户需求,并决定下一步应该执行什么操作。模型的输出遵循特定的格式,包含思考过程和具体操作指令。
PhoneAgent 解析模型输出的操作指令,并通过 ADB 控制模块在设备上执行相应的操作。执行完成后,系统会获取新的屏幕状态,进入下一个循环,直到任务完成。

Open-AutoGLM 使用的 AutoGLM-Phone-9B 模型经过专门优化,能够处理移动设备的复杂界面。该模型支持通过 vLLM 或 SGLang 等推理框架部署,并提供 OpenAI 兼容的 API 接口。
系统通过 ADB 提供的各种命令来控制设备:
tap(x, y):在指定坐标点击swipe(start_x, start_y, end_x, end_y):从起点滑动到终点input text "内容":在焦点输入框中输入文本keyevent KEYCODE_BACK:模拟按下返回键为了处理文本输入,系统还会自动切换到 ADB Keyboard 输入法。
PhoneAgent 的任务执行遵循一个完整的生命周期:
Open-AutoGLM 内置了安全机制,对于敏感操作(如支付、隐私设置等)会要求用户确认。此外,在需要登录或验证码的场景下,系统支持人工接管功能。
Open-AutoGLM 通过结合先进的视觉-语言模型和成熟的 ADB 技术,实现了强大的移动端自动化能力。其模块化架构使得系统易于扩展和维护,为 Android 设备的智能化操作提供了有效的解决方案。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!