AndroidGen：无需人工标注，构建安卓智能体

智谱技术团队 2025-03-24 11:56 北京

AutoGLM 项目

将大模型以 Agent 形式更好地应用于移动设备，一直是智谱探索的重要方向之一。

然而，高质量数据源的匮乏是这一方向的核心挑战。由于场景多样、复杂任务数据收集困难以及数据过滤等问题，目前在真实环境中大规模收集高质量移动设备 Agent 数据仍是一大难题。

为解决这一问题，我们在 AutoGLM 项目中开发了 AndroidGen 框架。该框架能够在数据稀缺的情况下，增强基于大语言模型的 Agent 能力，同时可收集人类任务轨迹，并基于这些轨迹训练语言模型，从而开发出无需人工标注轨迹的 Agent。

在 AndroidWorld、AitW 等主流的评测集上进行的测试表明， AndroidGen 框架可以显著提升 LLM 执行复杂任务的能力。

图｜AndroidWorld 上流行 Agent和人类的成功率。

一、AndroidGen 框架

与传统对话数据集相比，移动设备 Agent 的数据收集有挑战：

场景多样性：不同场景差异显著，对大语言模型（LLM）的泛化能力要求极高。因此，任务收集需覆盖多种场景与功能。

复杂任务数据收集：复杂任务涉及多步骤与多要求，数据收集需强大规划与精准执行能力，这不仅增加成本，还降低完成率。

数据过滤：为确保数据质量，需细致检查环境与操作，确保完全符合任务描述，这一过程既具挑战性又耗时，进一步增加了总支出。

为了应对这些挑战，我们在 AndroidGen 中引入了四个模块：ExpSearch、ReflectPlan、AutoCheck 和 StepCritic：

ExpSearch：通过检索已完成的类似轨迹，使 LLM 能够进行上下文学习，从而提升 Agent 的能力，并助力其实现从简单任务到复杂任务的泛化。

ReflectPlan：对当前环境进行自我反思并更新计划状态，增强 Agent 的长期推理能力。

AutoCheck：主动验证每个 Agent 操作的有效性，降低因操作失误导致任务失败的风险。

StepCritic：将任务分解为多个子目标，并提供逐步轨迹评估，为模型优化提供细粒度标签。

图 | AndroidGen 框架概述。

整个流程分为三个阶段：

准备阶段（preliminary）：ExpSearch 从数据库中检索最相关的类似任务和轨迹，并将其输入 Agent。

任务执行阶段（task execution）：ReflectPlan 评估进度并更新计划。随后，Agent 根据环境、计划和检索示例生成操作。AutoCheck 对这些操作进行验证，成功则执行，失败则重新生成。

更新阶段（update）：StepCritic 对轨迹进行精细评估，并根据评估结果更新数据库。

二、构建 Android Agent

AndroidGen 框架集成了现有的 LLM，无需提前训练即可直接作为 Android Agent 使用。

1、数据收集

为了高效生成大量高质量的 Android 浏览轨迹，我们利用 AndroidGen 构建了数据构建管道。整个数据收集流程包括以下阶段：

图｜AndroidGen 数据构建流程

第一步：任务制定。我们利用 GPT-4o，根据 AndroidWorld 中的指令生成了约 300 条任务指令。为了防止数据泄露，我们在训练过程中没有使用奖励信号或黄金标签。

第二步：Agent 采样。我们利用 AndroidWorld 和 GPT-4o 对每个任务的轨迹进行采样。

第三步：轨迹记录。在采样过程中，我们部署了一个记录器，用于记录每一步的环境和操作信息。这一步骤对于构建可复现的 Android 导航轨迹至关重要。

第四步：轨迹评估。完成每项任务后，我们使用 StepCritic 对记录的轨迹进行评估。StepCritic 列出了任务的每个子目标以及为实现这些目标所采取的相应步骤。如果每个子目标都已完成，则认为任务已完成。

第五步：轨迹增强。其主要目的是扩充高质量数据集。

通过整合不同来源的原始任务和增强任务，我们构建了一个包含 1000 多个轨迹的数据集。

2、模型训练

在训练阶段，我们采用了 LoRA 技术，针对自动构建的数据集，对 GLM-4-9B 和 Llama-3-70B 进行了微调，得到一个 Android Agent 模型。

值得注意的是，这种方法无需人工标注轨迹。我们通过将轨迹中的每一步作为独立样本进行训练，充分利用了数据集中的信息。

为了提高部署效率，我们还将规划和执行步骤混合起来进行微调，这使得 LLM 能够同时具备规划和执行的能力。

3、实验结果

我们选择两个基准以及主流应用来测试 AndroidGen的效果，

AndroidWorld是一个用于模拟 Android 设备交互环境的基准测试平台，旨在评估 Agent 在 Android 生态系统中执行任务的能力，通过模拟真实用户操作场景来测试和提升模型的导航、决策和任务完成性能。

在 AndroidWorld 基准测试中：

AndroidGen 显著提升了相同基础模型 Agent 的能力。与 M3A 和 SeeAct 相比，其性能提升更为显著。

AndroidGen + GPT-4o 的平均得分达到了 46.8，远超其他组合。

值得一提的是，模型参数更小且开源的 GLM-4-9B + AndroidGen 的平均得分，甚至超过了模型参数更大且闭源的 GPT-4o + M3A。

在AitW 和主流应用的评测中，也可以看到类似的大幅度性能提升：

AitW（Android in the Wild）是基于谷歌发布的同名大规模数据集进行的性能评估。AitW 数据集包含 715,142 个操作序列，涵盖 30,378 个独特指令，覆盖四个 Android 版本（v10-v13）和八种设备类型，旨在测试 Agent 对自然语言指令的理解和在真实设备环境中的交互能力。评测任务包括多步任务（如使用 Google 应用、安装应用、网络购物等）和单步任务，挑战模型在不同设备、不同版本和未见过的指令下的鲁棒性。

我们还选择了八款全球流行的移动应用程序进行评估，包括 Google Maps、X、YouTube、Spotify、Chrome 等。我们在模拟器上预先安装了这些应用程序。对于需要登录的应用程序，我们使用统一的预注册账号提前完成登录操作。

三、不足与展望

尽管 AndroidGen 在实际应用中表现出色，但仍有很大的改进空间。在后续的工作中，我们将在性能、效率和安全性等方面继续完善 AndroidGen。

1、性能

尽管 AndroidGen 的任务完成率较高，但其性能仍有提升空间。语言 Agent在处理视觉相关任务时表现欠佳，这凸显了整合视觉模型来增强其能力的必要性。

此外， Agent在处理复杂交互场景（如跨应用任务和计数场景）时仍面临挑战。在推理过程中引入大规模自适应推理搜索策略，可能是提升其复杂规划能力的有效途径。

2、效率

尽管 AndroidGen 能够完成许多用户委托的任务，但由于系统和模型规模较大，其执行效率仍有待提升。

未来，我们将专注于提高小模型在特定环境中的运行效率。小模型作为执行器表现良好，因为它们只需按照既定指令完成操作。然而，作为规划器时，模型需要更强的推理和泛化能力，这通常需要更大规模的模型。

3、安全性

安全是人工 Agent 系统在实际部署中面临的关键挑战。随着 LLM 能力的拓展，其可执行任务已超出文本输出范畴，涵盖处理用户账户信息、发表声明甚至进行交易等高风险操作。因此，防范这些操作中的潜在风险至关重要。

目前，我们正在开发一个更全面的自动检查模块。该模块作为分类器，能够识别并防止错误操作，并在用户明确许可的情况下，对高风险操作进行验证。

阅读原文

跳转微信打开

一、AndroidGen 框架

二、构建 Android Agent

1、数据收集

2、模型训练

3、实验结果

三、不足与展望

1、性能

2、效率

3、安全性

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签