UIUC与阿里通义实验室推出新型多层级手机智能体攻克复杂任务场景可自我进化

52CV 2025-02-05 20:32 江苏

会自我进化的手机智能体

关注公众号，发现CV技术之美

项目主页：https://x-plug.github.io/MobileAgent/

在如今的智能手机时代，手机的使用已然成为人们日常生活的重要组成部分。除了娱乐，用户还需要应对许多繁琐耗时的任务，例如跨购物平台比价、检索和记录信息等。

尽管现有的移动智能助手在简单指令和单个应用上已有不错的表现，但面对复杂推理、多步规划及跨应用操作的任务，往往难以胜任。此外，这些助手通常没有自我学习提升的能力，每次任务都如“从零开始”。

针对上述挑战，伊利诺伊大学香槟分校（UIUC）与阿里巴巴通义实验室联合推出了一种全新的智能体框架：Mobile-Agent-E。它采用分层多智能体架构，结合长期记忆与自我进化模块，不仅提升了复杂任务的解决能力，还能够通过反思过往经验不断改进交互效率。

我们先来看一个例子，用户想要购买一个全新的任天堂Switch手柄，并要求在三个不同的网购App上对比价格并找到最便宜的选项。Mobile-Agent-E成功完成了这一复杂长流程任务，而以往SOTA仅达到了约50%的完成度。

Mobile-Agent-E：全新层次化多智能体框架

层次化多智能体架构

Mobile-Agent-E 的第一个核心创新在于采用层次化多智能体协同框架，显式区分高层规划与低层动作执行，极大增强了长远规划能力与错误修复能力。

Mobile-Agent-E 由一个高层管理智能体和四个执行智能体组成：

管理者（Manager）：负责高层次推理与任务规划，基于用户请求分解子目标，并参考长期记忆中的捷径（Shortcuts）优化规划。当低层任务失败时，管理者会接手调整策略。

感知者（Perceptor）：由视觉感知模块组成，用于识别截图中的细粒度文本和图标信息，包括 OCR、图标识别和描述生成功能。

操作员（Operator）：根据管理者提供的计划，执行具体操作（如点击、滑动）。操作员同时利用提示（Tips）和捷径（Shortcuts）优化操作效率。

动作反思者（Action Reflector）：通过对比动作前后的状态，判断操作是否成功，并生成反馈。

记录员（Notetaker）：在任务中记录关键信息，例如价格、电话号码等，为后续任务提供参考。

通过这种分工协作的架构，Mobile-Agent-E 实现了在复杂任务中的高效运作，例如在多个购物平台间比价并找到最优选项。

下图展现了具体任务执行过程中，各个智能体的输入和输出：

自我进化模块

Mobile-Agent-E 独创了自我进化模块，赋予智能体类似人类逐渐熟练使用手机的能力。该模块包括两种知识形式：

提示（Tips）：从过往任务中总结出的交互指导和经验教训，类似于人类的情景记忆。

捷径（Shortcuts）：由多个原子操作组成的技能，适用于重复性子任务，类似程序性知识。

提示和捷径被存储在长期记忆中，并在每次任务完成后通过经验反思优化更新。例如，“点击输入框-输入文本-回车”的操作仅在页面有输入框时可用，反思模块会验证其适用性并优化使用条件。

基准测试与实验结果

Mobile-Eval-E Benchmark

为验证 Mobile-Agent-E 的性能，研究团队设计了新的基准测试集 Mobile-Eval-E，专注于多步骤、多应用交互任务。相比现有测试集，其任务平均操作步骤翻倍，且超 76% 涉及跨应用场景。

评价指标

研究团队提出了全新的评价指标——满意度得分（Satisfaction Score, SS），综合评估关键步骤完成度与探索行为。此外，还设计了满意度-步骤曲线（SSS 曲线），直观展示不同模型在效率上的差异。

实验结果

实验显示，Mobile-Agent-E 在多种基础模型上均超越现有 SOTA，尤其是启用自我进化模块后，满意度得分提高了 33.9% 。

SSS 曲线表明，Mobile-Agent-E 能以更少的步骤实现更高满意度，展现了卓越的效率。

案例研究

当模型在执行大量任务和应对多种场景时，积累的提示（Tips）和捷径（Shortcuts）可能会多到无法全部纳入决策上下文。

为了解决这一问题，作者引入了两个经验检索代理（Experience Retriever），从经过优化的长期记忆中提取与新任务最相关的提示和捷径。

如下图案例研究所示，Mobile-Agent-E 能够高效检索并利用高度相关的提示和捷径，从而成功完成一个具有挑战性的全新任务。这一探索为未来构建完全闭环的自我进化手机智能体开辟了新的可能性。

实机演示

以下视频展示了更多Mobile-Agent-E操作真实安卓手机的例子：

* 视频经过加速处理

展望

Mobile-Agent-E 的推出标志着移动智能体从简单场景应用迈向更多真实世界中的复杂任务。尤其其自我进化能力为未来发展提供了广阔空间，后续研究可聚焦于更强的自主进化能力、个性化优化及安全性提升等。

END

欢迎加入「CV」交流群?备注：CV

阅读原文

跳转微信打开

Mobile-Agent-E：全新层次化多智能体框架

层次化多智能体架构

自我进化模块

基准测试与实验结果

Mobile-Eval-E Benchmark

评价指标

实验结果

更多分析

案例研究

实机演示

展望

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签