GLM大模型 03月24日
AndroidGen:无需人工标注,构建安卓智能体
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱团队开发的AndroidGen框架,旨在解决移动设备上高质量Agent数据源匮乏的难题。通过AndroidGen,团队在数据稀缺的情况下增强了基于大语言模型的Agent能力,并实现了无需人工标注轨迹的Agent开发。在AndroidWorld和AitW等主流评测集中,AndroidGen框架显著提升了LLM执行复杂任务的能力。

📱AndroidGen 框架通过ExpSearch模块,利用检索已完成的类似轨迹,增强LLM的上下文学习能力,从而提升Agent性能,并帮助其泛化。

🔄ReflectPlan模块能够对当前环境进行自我反思并更新计划状态,提升Agent的长期推理能力,确保Agent在复杂任务中的稳定表现。

✅AutoCheck模块负责主动验证Agent的每个操作的有效性,降低因操作失误导致任务失败的风险,从而提高任务完成的可靠性。

📊StepCritic模块将任务分解为多个子目标,并提供逐步轨迹评估,为模型优化提供细粒度标签,有助于模型在不同任务中的持续改进。

🚀通过LoRA技术,AndroidGen 在无需人工标注轨迹的情况下,对GLM-4-9B和Llama-3-70B进行了微调,显著提升了Agent在AndroidWorld和AitW等评测集上的表现。

智谱技术团队 2025-03-24 11:56 北京

AutoGLM 项目


将大模型以 Agent 形式更好地应用于移动设备,一直是智谱探索的重要方向之一。


然而,高质量数据源的匮乏是这一方向的核心挑战。由于场景多样、复杂任务数据收集困难以及数据过滤等问题,目前在真实环境中大规模收集高质量移动设备 Agent 数据仍是一大难题。


为解决这一问题,我们在 AutoGLM 项目中开发了 AndroidGen 框架。该框架能够在数据稀缺的情况下,增强基于大语言模型的 Agent 能力,同时可收集人类任务轨迹,并基于这些轨迹训练语言模型,从而开发出无需人工标注轨迹的 Agent


在 AndroidWorld、AitW 等主流的评测集上进行的测试表明, AndroidGen 框架可以显著提升 LLM 执行复杂任务的能力。


图|AndroidWorld 上流行 Agent和人类的成功率。


一、AndroidGen 框架

与传统对话数据集相比,移动设备 Agent 的数据收集有挑战:


为了应对这些挑战,我们在 AndroidGen 中引入了四个模块:ExpSearch、ReflectPlan、AutoCheck 和 StepCritic:


图 | AndroidGen 框架概述。


整个流程分为三个阶段:



二、构建 Android Agent

AndroidGen 框架集成了现有的 LLM,无需提前训练即可直接作为 Android Agent 使用。


1、数据收集

为了高效生成大量高质量的 Android 浏览轨迹,我们利用 AndroidGen 构建了数据构建管道。整个数据收集流程包括以下阶段:


图|AndroidGen 数据构建流程


第一步:任务制定。我们利用 GPT-4o,根据 AndroidWorld 中的指令生成了约 300 条任务指令。为了防止数据泄露,我们在训练过程中没有使用奖励信号或黄金标签。


第二步:Agent 采样。我们利用 AndroidWorld 和 GPT-4o 对每个任务的轨迹进行采样。


第三步:轨迹记录。在采样过程中,我们部署了一个记录器,用于记录每一步的环境和操作信息。这一步骤对于构建可复现的 Android 导航轨迹至关重要。


第四步:轨迹评估。完成每项任务后,我们使用 StepCritic 对记录的轨迹进行评估。StepCritic 列出了任务的每个子目标以及为实现这些目标所采取的相应步骤。如果每个子目标都已完成,则认为任务已完成。


第五步:轨迹增强。其主要目的是扩充高质量数据集。

通过整合不同来源的原始任务和增强任务,我们构建了一个包含 1000 多个轨迹的数据集。


2、模型训练

在训练阶段,我们采用了 LoRA 技术,针对自动构建的数据集,对 GLM-4-9B 和 Llama-3-70B 进行了微调,得到一个 Android Agent 模型。


值得注意的是,这种方法无需人工标注轨迹。我们通过将轨迹中的每一步作为独立样本进行训练,充分利用了数据集中的信息。


为了提高部署效率,我们还将规划和执行步骤混合起来进行微调,这使得 LLM 能够同时具备规划和执行的能力。


3、实验结果

我们选择两个基准以及主流应用来测试 AndroidGen的效果,

AndroidWorld是一个用于模拟 Android 设备交互环境的基准测试平台,旨在评估 Agent 在 Android 生态系统中执行任务的能力,通过模拟真实用户操作场景来测试和提升模型的导航、决策和任务完成性能。

在 AndroidWorld 基准测试中:

在AitW 和主流应用的评测中,也可以看到类似的大幅度性能提升:

AitW(Android in the Wild)是基于谷歌发布的同名大规模数据集进行的性能评估。AitW 数据集包含 715,142 个操作序列,涵盖 30,378 个独特指令,覆盖四个 Android 版本(v10-v13)和八种设备类型,旨在测试 Agent 对自然语言指令的理解和在真实设备环境中的交互能力。评测任务包括多步任务(如使用 Google 应用、安装应用、网络购物等)和单步任务,挑战模型在不同设备、不同版本和未见过的指令下的鲁棒性。

我们还选择了八款全球流行的移动应用程序进行评估,包括 Google Maps、X、YouTube、Spotify、Chrome 等。我们在模拟器上预先安装了这些应用程序。对于需要登录的应用程序,我们使用统一的预注册账号提前完成登录操作。


三、不足与展望

尽管 AndroidGen 在实际应用中表现出色,但仍有很大的改进空间。在后续的工作中,我们将在性能、效率和安全性等方面继续完善 AndroidGen。


1、性能

尽管 AndroidGen 的任务完成率较高,但其性能仍有提升空间。语言 Agent在处理视觉相关任务时表现欠佳,这凸显了整合视觉模型来增强其能力的必要性。


此外, Agent在处理复杂交互场景(如跨应用任务和计数场景)时仍面临挑战。在推理过程中引入大规模自适应推理搜索策略,可能是提升其复杂规划能力的有效途径。


2、效率

尽管 AndroidGen 能够完成许多用户委托的任务,但由于系统和模型规模较大,其执行效率仍有待提升。


未来,我们将专注于提高小模型在特定环境中的运行效率。小模型作为执行器表现良好,因为它们只需按照既定指令完成操作。然而,作为规划器时,模型需要更强的推理和泛化能力,这通常需要更大规模的模型。


3、安全性

安全是人工 Agent 系统在实际部署中面临的关键挑战。随着 LLM 能力的拓展,其可执行任务已超出文本输出范畴,涵盖处理用户账户信息、发表声明甚至进行交易等高风险操作。因此,防范这些操作中的潜在风险至关重要。


目前,我们正在开发一个更全面的自动检查模块。该模块作为分类器,能够识别并防止错误操作,并在用户明确许可的情况下,对高风险操作进行验证。




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AndroidGen Agent 大语言模型 移动设备
相关文章