清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制

IT之家 01月02日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

清华大学智能产业研究院发布AutoDroid-V2 AI模型，该模型利用设备端小型语言模型（SLM），通过生成多步骤脚本，显著提升了移动设备自然语言控制的自动化程度。相较于传统依赖云端大型语言模型（LLM）的方法，AutoDroid-V2在效率、隐私和安全性方面具有显著优势，大幅减少了查询频率和资源消耗。该模型在离线阶段构建应用程序文档，在线阶段生成脚本并执行，在23个移动应用上的226项任务测试中，任务完成率显著提升，资源消耗和推理延迟也大幅降低。AutoDroid-V2的推出为移动设备自动化控制带来了新的解决方案。

📱AutoDroid-V2 采用设备端小型语言模型（SLM），通过生成多步骤脚本，实现移动设备自然语言控制的自动化，避免了对云端大型模型的依赖，从而保护用户隐私和数据安全。

⚙️该模型在离线阶段构建应用程序文档，包含AI引导的GUI状态压缩、元素XPath自动生成和GUI依赖分析，为脚本的生成奠定基础，用户提交任务请求后，本地LLM生成多步骤脚本，由特定域解释器执行，确保可靠高效的运行。

🚀在性能测试中，AutoDroid-V2在23个移动应用上测试226项任务，与多个基线模型相比，任务完成率提高10.5%-51.7%，同时输入和输出token消耗分别减少至43.5分之1和5.8分之1，LLM推理延迟降低至5.7~13.4分之1。

IT之家 1 月 2 日消息，清华大学智能产业研究院（AIR）于 2024 年 12 月 24 日发布论文，介绍推出 AutoDroid-V2 AI 模型，在移动设备上利用小语言模型，显著提升了自然语言控制的自动化程度。

该系统采用基于脚本的方法，利用设备端小型语言模型（SLM）的编码能力，高效执行用户指令。相比依赖云端大型语言模型（LLM）的传统方法，AutoDroid-V2 在效率、隐私和安全性方面均有显著优势。

项目背景

大型语言模型（LLMs）和视觉语言模型（VLM）通过自然语言命令，彻底改变了移动设备控制的自动化，为复杂的用户任务提供了解决方案。

自动化控制设备主流采用“逐步 GUI 智能体”（Step-wise GUI agents）方式，通过在每个 GUI 状态查询，LLM 进行动态决策和反思、持续处理用户的任务，并观察 GUI 状态直至完成来进行操作。

但这种方式严重依赖基于云端的模型，在分享个人 GUI 页面时，还存在隐私和安全风险，此外还存在大量的用户端流量消耗以及高昂的服务器端集中服务成本等严重问题，阻碍大规模部署 GUI 智能体。

项目简介

不同于传统的逐步操作，AutoDroid-V2 根据用户指令生成多步骤脚本，一次性执行多个 GUI 操作，大幅减少了查询频率和资源消耗。

利用设备上的小型语言模型进行脚本生成和执行，避免了对强大云端模型的依赖，有效保护了用户隐私和数据安全，并降低了服务器端成本。

该模型在离线阶段会构建应用程序文档，包含 AI 引导的 GUI 状态压缩、元素 XPath 自动生成和 GUI 依赖分析，为脚本生成奠定基础。

此外用户提交任务请求后，本地 LLM 生成多步骤脚本，由特定域解释器执行，确保可靠高效的运行。

性能

基准测试上，在 23 个移动应用上测试 226 项任务，与 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基线相比，任务完成率提高 10.5%-51.7%。

在资源消耗方面，输入和输出 token 消耗分别减少至 43.5 分之一和 5.8 分之一，LLM 推理延迟降低至 5.7~13.4 分之一。

跨 LLM 测试中，在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 上表现一致，成功率 44.6%-54.4%，反向冗余比 90.5%-93.0%。

IT之家附上参考地址

AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation

项目背景

项目简介

性能

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签