我爱计算机视觉 02月06日
UIUC与阿里通义实验室推出新型多层级手机智能体 攻克复杂任务场景 可自我进化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Mobile-Agent-E是由伊利诺伊大学香槟分校与阿里巴巴通义实验室联合推出的全新智能体框架,旨在解决现有移动智能助手在复杂推理、多步规划及跨应用操作任务上的不足。该框架采用分层多智能体架构,结合长期记忆与自我进化模块,提升了复杂任务的解决能力,并通过反思过往经验不断改进交互效率。Mobile-Agent-E由高层管理智能体和四个执行智能体组成,各司其职,协同完成任务。自我进化模块赋予了智能体类似人类逐渐熟练使用手机的能力,通过提示和捷径不断优化。

📱Mobile-Agent-E采用层次化多智能体架构,由管理者、感知者、操作员、动作反思者和记录员组成,实现高层规划与低层动作执行的显式区分,增强了长远规划能力与错误修复能力。

💡Mobile-Agent-E 独创了自我进化模块,包含从过往任务中总结出的交互指导“提示(Tips)”和由多个原子操作组成的技能“捷径(Shortcuts)”,存储在长期记忆中,并在每次任务完成后通过经验反思优化更新。

📊研究团队设计了新的基准测试集 Mobile-Eval-E,专注于多步骤、多应用交互任务,并提出了全新的评价指标——满意度得分(Satisfaction Score, SS),实验结果表明,Mobile-Agent-E 在多种基础模型上均超越现有 SOTA,尤其启用自我进化模块后,满意度得分显著提高。

52CV 2025-02-05 20:32 江苏

会自我进化的手机智能体




关注公众号,发现CV技术之美




在如今的智能手机时代,手机的使用已然成为人们日常生活的重要组成部分。除了娱乐,用户还需要应对许多繁琐耗时的任务,例如跨购物平台比价、检索和记录信息等。

尽管现有的移动智能助手在简单指令和单个应用上已有不错的表现,但面对复杂推理、多步规划及跨应用操作的任务,往往难以胜任。此外,这些助手通常没有自我学习提升的能力,每次任务都如“从零开始”。

针对上述挑战,伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了一种全新的智能体框架:Mobile-Agent-E。它采用分层多智能体架构,结合长期记忆与自我进化模块,不仅提升了复杂任务的解决能力,还能够通过反思过往经验不断改进交互效率。


我们先来看一个例子,用户想要购买一个全新的任天堂Switch手柄,并要求在三个不同的网购App上对比价格并找到最便宜的选项。Mobile-Agent-E成功完成了这一复杂长流程任务,而以往SOTA仅达到了约50%的完成度。

Mobile-Agent-E:全新层次化多智能体框架

层次化多智能体架构

Mobile-Agent-E 的第一个核心创新在于采用层次化多智能体协同框架,显式区分高层规划与低层动作执行,极大增强了长远规划能力与错误修复能力。

Mobile-Agent-E 由一个高层管理智能体和四个执行智能体组成:

    管理者(Manager):负责高层次推理与任务规划,基于用户请求分解子目标,并参考长期记忆中的捷径(Shortcuts)优化规划。当低层任务失败时,管理者会接手调整策略。


    感知者(Perceptor):由视觉感知模块组成,用于识别截图中的细粒度文本和图标信息,包括 OCR、图标识别和描述生成功能。


    操作员(Operator):根据管理者提供的计划,执行具体操作(如点击、滑动)。操作员同时利用提示(Tips)和捷径(Shortcuts)优化操作效率。


    动作反思者(Action Reflector):通过对比动作前后的状态,判断操作是否成功,并生成反馈。


    记录员(Notetaker):在任务中记录关键信息,例如价格、电话号码等,为后续任务提供参考。

通过这种分工协作的架构,Mobile-Agent-E 实现了在复杂任务中的高效运作,例如在多个购物平台间比价并找到最优选项。

下图展现了具体任务执行过程中,各个智能体的输入和输出:

自我进化模块

Mobile-Agent-E 独创了自我进化模块,赋予智能体类似人类逐渐熟练使用手机的能力。该模块包括两种知识形式:

提示和捷径被存储在长期记忆中,并在每次任务完成后通过经验反思优化更新。例如,“点击输入框-输入文本-回车”的操作仅在页面有输入框时可用,反思模块会验证其适用性并优化使用条件。

基准测试与实验结果

Mobile-Eval-E Benchmark

为验证 Mobile-Agent-E 的性能,研究团队设计了新的基准测试集 Mobile-Eval-E,专注于多步骤、多应用交互任务。相比现有测试集,其任务平均操作步骤翻倍,且超 76% 涉及跨应用场景。

评价指标

研究团队提出了全新的评价指标——满意度得分(Satisfaction Score, SS),综合评估关键步骤完成度与探索行为。此外,还设计了满意度-步骤曲线(SSS 曲线),直观展示不同模型在效率上的差异。

实验结果

实验显示,Mobile-Agent-E 在多种基础模型上均超越现有 SOTA,尤其是启用自我进化模块后,满意度得分提高了 33.9%

SSS 曲线表明,Mobile-Agent-E 能以更少的步骤实现更高满意度,展现了卓越的效率。

更多分析

案例研究

当模型在执行大量任务和应对多种场景时,积累的提示(Tips)和捷径(Shortcuts)可能会多到无法全部纳入决策上下文。

为了解决这一问题,作者引入了两个经验检索代理(Experience Retriever),从经过优化的长期记忆中提取与新任务最相关的提示和捷径。

如下图案例研究所示,Mobile-Agent-E 能够高效检索并利用高度相关的提示和捷径,从而成功完成一个具有挑战性的全新任务。这一探索为未来构建完全闭环的自我进化手机智能体开辟了新的可能性。

实机演示

以下视频展示了更多Mobile-Agent-E操作真实安卓手机的例子:




* 视频经过加速处理

展望

Mobile-Agent-E 的推出标志着移动智能体从简单场景应用迈向更多真实世界中的复杂任务。尤其其自我进化能力为未来发展提供了广阔空间,后续研究可聚焦于更强的自主进化能力、个性化优化及安全性提升等。


END




欢迎加入「CV交流群?备注:CV




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Mobile-Agent-E 智能体 自我进化 多智能体架构
相关文章