从 ADB 到 AutoGLM，从手机到浏览器，深入理解 AI 如何"看懂"并"操控"图形界面

发表信息: January 04, 2026 by gc

文章分类:
AI 14
技术 30

2026 技术全景

GUI Agent

从 ADB 到 AutoGLM，从手机到浏览器，深入理解 AI 如何"看懂"并"操控"图形界面

应用场景

10+

开源项目

核心范式

一个公式理解 GUI Agent

无论是手机、浏览器还是桌面，所有 GUI Agent 都遵循同一个核心循环

🔄 截图 → 理解 → 决策 → 执行 → 循环

步骤 1

📸 截图

→

步骤 2
🧠 VLM 理解

→

步骤 3

🎯 输出动作

↓

步骤 4

⚡ 执行操作

→

步骤 5

🔁 重新截图

→

循环

直到完成

👁️

视觉感知层

通过截图获取当前界面状态，视觉语言模型（VLM）识别 UI 元素、按钮、输入框、文字等内容

🧠

规划决策层

理解用户意图，将复杂任务拆解为步骤，根据当前界面状态决定下一步操作

🔧

工具执行层

将决策转化为具体操作指令，通过 ADB / Playwright / 系统 API 执行点击、滑动、输入等动作

💡 关键洞察

这个范式的核心价值在于：不依赖任何 App 的内部 API，纯粹通过"看"界面来操作。这意味着它可以适用于任何图形界面，包括那些没有开放 API 的封闭系统。

底层工具

ADB：Android 的"后门"

Android Debug Bridge 是 Google 官方提供的调试工具，也是手机 Agent 的执行基础

📱

什么是 ADB？

ADB（Android Debug Bridge）是 Android 开发者调试工具，允许电脑通过 USB 或 WiFi 与手机通信，执行各种操作命令

🎮

能做什么？

模拟人手操作：点击、滑动、长按、输入文字、按物理键（返回、Home）、截图、录屏、安装应用等

🔓

如何开启？

手机进入开发者模式（连续点击版本号 7 次），开启 USB 调试，用数据线连接电脑即可

                    
                    ADB 常用命令
                
# 检查已连接设备
adb devices

# 点击屏幕坐标 (500, 800)
adb shell input tap 500 800

# 滑动：从 (100,500) 滑到 (100,100)
adb shell input swipe 100 500 100 100

# 输入文字（仅支持英文）
adb shell input text "hello"

# 按返回键
adb shell input keyevent KEYCODE_BACK

# 按 Home 键
adb shell input keyevent KEYCODE_HOME

# 截图并保存到电脑
adb shell screencap /sdcard/screenshot.png
adb pull /sdcard/screenshot.png

⚠️ ADB 的局限

ADB 本身是"盲"的，只能执行命令（如点击坐标 500,800），但不知道那个位置是什么。这就是为什么需要 VLM 来"看"屏幕——ADB 是手，VLM 是眼睛和大脑。

AutoGLM 操作	对应 ADB 命令	说明
`Tap`	`adb shell input tap x y`	点击指定坐标
`Swipe`	`adb shell input swipe x1 y1 x2 y2`	从起点滑到终点
`Long Press`	`adb shell input swipe x y x y 1000`	原地滑动1秒实现长按
`Type`	`adb shell am broadcast -a ADB_INPUT_TEXT`	通过 ADB Keyboard 输入中文
`Back`	`adb shell input keyevent KEYCODE_BACK`	按返回键
`Home`	`adb shell input keyevent KEYCODE_HOME`	回到桌面
`Launch`	`adb shell monkey -p 包名 ...`	启动应用

核心项目

Open-AutoGLM 深度解析

智谱 AI 开源的手机 Agent 框架，让 AI 像人一样操作手机

2024年10月

AutoGLM 首次发布

业界首个能够在真实设备上稳定完成完整操作链的 AI Agent

2024年11月

历史性时刻

AutoGLM 完成人类历史上首个 AI 自动化发送"红包"，通过银行界面一步步点击完成

2025年

AutoGLM 2.0 发布

引入 MobileRL、ComputerRL、AgentRL 算法，验证强化学习的 Scaling Laws

2025年12月

Open-AutoGLM 开源

完整开源手机 Agent 框架和 AutoGLM-Phone-9B 模型

📐 AutoGLM 架构设计

部署位置

☁️ 云端 / 服务器

↓ API 调用

视觉语言模型
🧠 AutoGLM-Phone-9B

↓ 返回动作指令

运行位置

💻 用户电脑

↓ ADB 命令

被控设备

📱 Android 手机

📍 重要说明：模型不在手机上！

AutoGLM-Phone-9B 是一个 9B 参数的视觉语言模型，需要约 20GB 显存。它运行在服务器或云端，手机只是被控端，只需开启 USB 调试和安装 ADB Keyboard。

                    
                    模型输出格式
                
<!-- 模型的输出包含思考过程和动作指令 -->

<think>
当前在系统桌面，需要先启动小红书应用
</think>

<answer>
do(action="Launch", app="小红书")
</answer>

<!-- 下一步 -->

<think>
小红书已打开，现在需要点击搜索框
</think>

<answer>
do(action="Tap", element=[500, 100])
</answer>

🔬

关键技术洞察

规划（Planning）和定位（Grounding）需要分离优化——规划追求灵活性，定位追求准确性，两者有不同的训练目标

📊

性能表现

在 AndroidLab 上达到 36.2% 成功率，在常用中文 App 上达到 89.7% 成功率，支持 50+ 款主流应用

🔧

本质是 Function Calling

Tap、Swipe 等操作就像给 LLM 定义的 Tools，模型决定调用哪个工具和参数，Agent 代码负责执行

应用场景

三大 GUI Agent 场景

同一个核心范式，不同的执行层实现

📱 手机 Agent

Android / iOS / 鸿蒙

✓ 执行层：ADB (Android) / WebDriverAgent (iOS) / HDC (鸿蒙)

✓ 代表项目：Open-AutoGLM

✓ 典型操作：Tap、Swipe、Type、Launch、Back

✓ 特点：需要开启开发者模式，手机只是被控端

✓ 应用：自动点外卖、发消息、刷视频、抢票

🌐 浏览器 Agent

Chrome / Firefox / WebKit

✓ 执行层：Playwright / Selenium / CDP

✓ 代表项目：Browser-Use、Playwright MCP

✓ 典型操作：Click、Type、Scroll、Navigate

✓ 特点：可用 DOM 结构辅助定位，不完全依赖视觉

✓ 应用：自动填表、数据采集、网页测试

🖥️ 桌面 Agent

Windows / macOS / Linux

✓ 执行层：PyAutoGUI / 系统 API / Virtual Display

✓ 代表项目：Claude Computer Use

✓ 典型操作：Mouse Move、Click、Keyboard、Screenshot

✓ 特点：纯视觉驱动，需要沙盒环境保证安全

✓ 应用：操作 Office、IDE、任意桌面软件

对比项	手机 Agent	浏览器 Agent	桌面 Agent
截图方式	adb screencap	page.screenshot()	系统截图 API
元素定位	纯视觉 + 坐标	DOM / 选择器 / 视觉	纯视觉 + 坐标
点击执行	adb shell input tap	element.click()	pyautogui.click()
中文输入	需要 ADB Keyboard	原生支持	系统输入法
安全性	需开发者权限	相对安全	建议沙盒环境

生态全景

开源项目一览

GUI Agent 领域的主要开源项目和工具

📱 手机端

Open-AutoGLM 官方开源

智谱 AI 的手机 Agent 框架，支持 50+ 中文应用，包含完整模型权重

GitHub →

🌐 浏览器端

Browser-Use 热门

让网站对 AI Agent 友好的框架，支持多种 LLM 提供商

GitHub →

Playwright MCP

微软官方的 MCP 服务器，让 LLM 通过结构化数据控制浏览器

GitHub →

Nanobrowser

开源 Chrome 扩展，多 Agent 协作完成复杂网页任务

GitHub →

Skyvern-AI

通过视觉语言模型自动化浏览器工作流的框架

GitHub →

Steel Browser

面向 AI Agent 的开源浏览器 API，电池全装型解决方案

GitHub →

Index

SOTA 开源浏览器 Agent，支持结构化输出和高级可观测性

GitHub →

🖥️ 桌面端

Claude Computer Use Anthropic

Anthropic 官方的桌面控制能力，通过截图 + 鼠标键盘操作完成任务

文档 →

OpenInterpreter

开源 CLI Agent，可以写代码、执行命令、控制浏览器

GitHub →

🔧 底层工具

Playwright

微软出品的浏览器自动化框架，支持 Chromium、Firefox、WebKit

GitHub →

Selenium

老牌浏览器自动化工具，支持多语言，生态成熟

官网 →

ADB Keyboard

让 ADB 支持中文输入的特殊输入法

GitHub →

总结

核心要点回顾

1️⃣

统一范式

所有 GUI Agent 都遵循「截图 → VLM 理解 → 输出动作 → 执行 → 循环」的核心模式

2️⃣

工具抽象

Tap、Click、Type 等操作本质是给模型定义的 Tools，类似 Function Calling

3️⃣

分层架构

VLM 在云端负责理解和决策，Agent 代码在本地负责截图和执行

4️⃣

场景适配

手机用 ADB，浏览器用 Playwright，桌面用 PyAutoGUI，执行层可替换

5️⃣

未来方向

端侧模型、多模态融合、安全机制是 GUI Agent 的重要演进方向

🚀 开始探索

现在你已经理解了 GUI Agent 的核心原理！可以从 Open-AutoGLM（手机）或 Browser-Use（浏览器）开始实践，体验 AI 操控图形界面的魅力。