Open-AutoGLM 技术原理解析

King
发布于 2025-12-10 15:08
阅读 1302

Open-AutoGLM是一个基于AutoGLM构建的手机端智能助理框架，它利用视觉-语言模型(VLM)和ADB(AndroidDebugBridge)技术，实现了通过自然语言指令来自动化操作Android设备的功能。核心架构Open-AutoGLM采用模块化设计，主要由以

> Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助理框架，它利用视觉-语言模型(VLM)和 ADB(Android Debug Bridge)技术，实现了通过自然语言指令来自动化操作 Android 设备的功能。

# 核心架构

Open-AutoGLM 采用模块化设计，主要由以下几个核心组件构成：

1. **视觉-语言模型(AutoGLM-Phone-9B)**：这是系统的核心AI模型，专门用于理解和处理移动设备的图形用户界面。它能够接收手机屏幕截图作为输入，并输出相应的操作指令。

2. **PhoneAgent 类**：负责管理任务执行的生命周期，协调各个组件的工作流程。

3. **ADB 控制模块**：通过 ADB 工具与 Android 设备进行通信，执行各种操作如点击、滑动、输入文本等。

4. **模型客户端**：提供了与视觉-语言模型交互的接口，支持 OpenAI 兼容的 API。

![](https://fastly.jsdelivr.net/gh/bucketio/img5@main/2025/12/10/1765340721955-87157d44-c0fe-4084-b4ac-7ac7f7cb86df.png)

# 工作原理

### 1. 感知阶段(Perception)

系统首先通过 ADB 获取当前设备屏幕的截图，并识别当前所在的 App。这些信息会被打包发送给视觉-语言模型。

### 2. 推理阶段(Thinking)

视觉-语言模型接收到屏幕截图和用户任务描述后，会分析当前界面状态，理解用户需求，并决定下一步应该执行什么操作。模型的输出遵循特定的格式，包含思考过程和具体操作指令。

### 3. 执行阶段(Action)

PhoneAgent 解析模型输出的操作指令，并通过 ADB 控制模块在设备上执行相应的操作。执行完成后，系统会获取新的屏幕状态，进入下一个循环，直到任务完成。

![](https://fastly.jsdelivr.net/gh/bucketio/img5@main/2025/12/10/1765340832222-96027ff9-a513-4c23-a8f0-d781323211da.png)

# 关键技术细节

### 视觉-语言模型集成

Open-AutoGLM 使用的 AutoGLM-Phone-9B 模型经过专门优化，能够处理移动设备的复杂界面。该模型支持通过 vLLM 或 SGLang 等推理框架部署，并提供 OpenAI 兼容的 API 接口。

### ADB 自动化机制

系统通过 ADB 提供的各种命令来控制设备：

- `tap(x, y)`：在指定坐标点击
- `swipe(start_x, start_y, end_x, end_y)`：从起点滑动到终点
- `input text "内容"`：在焦点输入框中输入文本
- `keyevent KEYCODE_BACK`：模拟按下返回键

为了处理文本输入，系统还会自动切换到 ADB Keyboard 输入法。

### 任务执行生命周期

PhoneAgent 的任务执行遵循一个完整的生命周期：

1. 初始化：创建模型客户端和 ADB 控制实例
2. 接收任务：获取用户提供的自然语言任务描述
3. 循环执行：在每次迭代中捕获屏幕、调用模型、执行操作，直到任务完成或达到最大步数限制
4. 结束：返回最终结果

# 安全特性

Open-AutoGLM 内置了安全机制，对于敏感操作（如支付、隐私设置等）会要求用户确认。此外，在需要登录或验证码的场景下，系统支持人工接管功能。

# 总结

Open-AutoGLM 通过结合先进的视觉-语言模型和成熟的 ADB 技术，实现了强大的移动端自动化能力。其模块化架构使得系统易于扩展和维护，为 Android 设备的智能化操作提供了有效的解决方案。

Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助理框架，它利用视觉-语言模型(VLM)和 ADB(Android Debug Bridge)技术，实现了通过自然语言指令来自动化操作 Android 设备的功能。

核心架构

Open-AutoGLM 采用模块化设计，主要由以下几个核心组件构成：

视觉-语言模型(AutoGLM-Phone-9B)：这是系统的核心AI模型，专门用于理解和处理移动设备的图形用户界面。它能够接收手机屏幕截图作为输入，并输出相应的操作指令。
PhoneAgent 类：负责管理任务执行的生命周期，协调各个组件的工作流程。
ADB 控制模块：通过 ADB 工具与 Android 设备进行通信，执行各种操作如点击、滑动、输入文本等。
模型客户端：提供了与视觉-语言模型交互的接口，支持 OpenAI 兼容的 API。

工作原理

1. 感知阶段(Perception)

系统首先通过 ADB 获取当前设备屏幕的截图，并识别当前所在的 App。这些信息会被打包发送给视觉-语言模型。

2. 推理阶段(Thinking)

3. 执行阶段(Action)

关键技术细节

视觉-语言模型集成

ADB 自动化机制