AI科技评论 01月06日
华为与哈工深等最新研究成果:SPA-Bench,手机操控智能体评估新标准
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为诺亚方舟实验室与哈工大(深圳)联合推出了SPA-Bench,一个全新的手机操控智能体评估框架。该框架旨在解决现有基准测试的局限性,通过覆盖340个任务、支持中英双语和第三方应用操作,提供自动化评估流程和多维度指标。SPA-Bench包含单应用和跨应用任务,并对任务难度进行了分级。它还支持多种智能体模型的快速集成,并提供了一套自动化的任务验证流程。实验结果表明,SPA-Bench能够有效评估智能体的性能,并为未来研究提供了明确的方向。

📱SPA-Bench框架的提出:旨在解决现有手机智能体评估的不足,提供更全面、灵活的评估标准,涵盖340个任务,支持中英双语和第三方应用。

🗂️任务设计的多样性:框架包含单应用和跨应用任务,并根据任务复杂性进行分级,确保对智能体在不同场景下的能力进行全面评估,并支持58个常用第三方应用。

🤖智能体框架的灵活性:支持快速集成现有智能体模型,并进行横向对比,已集成11种现有手机智能体,方便研究者进行快速测试和模型对比。

✅自动化验证流程:提供全面的自动化任务验证流程,通过多维度指标(如成功率、步骤比、终止原因、执行时间、API成本等)衡量智能体表现,确保评估的高效性和准确性。

2024-12-13 18:05 广东

华为诺亚方舟实验室与哈工大(深圳)联合提出的手机操控智能体评估框架。


该研究解决了现有手机智能体基准测试的局限性,为手机操控智能体的研究与评估提供标准。

随着智能手机成为人们日常生活中不可或缺的工具,手机操控智能体(smartphone control agent)的研究逐渐成为大模型领域的重要方向。通过自然语言指令,这些智能体能够高效地完成复杂任务,从简单的应用打开到多步骤的跨应用操作,甚至包括多语言支持。然而,如何全面、精确地评估这些智能体的能力却始终是一个没有解决的关键问题。

近日,华为诺亚方舟实验室与哈尔滨工业大学(深圳)联合提出了一个全新的评估框架——SPA-Bench(SmartPhone Agent Benchmark)。这一框架旨在解决现有手机智能体基准测试的局限性,通过覆盖 340 个任务、支持中英双语和第三方应用操作,以及提供自动化评估流程和多维度指标,重新定义了手机操控智能体的研究与评估标准。

论文地址:arXiv:2410.15164


1


为什么需要 SPA-Bench

现有基准测试的局限性

SPA-Bench与其他手机Agent Benchmark的对比



2


SPA-Bench 的核心设计

SPA-Bench整体框架图

SPA-Bench 旨在提供一个全面、灵活且贴近实际使用场景的评估框架,通过以下三个方面解决当前基准测试的痛点:

任务设计:覆盖真实场景

SPA-Bench 提供了一个多样化任务集,涵盖了 340 个任务,分为单应用任务和跨应用任务两大类。

单应用任务根据复杂性被分为三个等级:

单应用任务成组出线,每个任务组内含有一、二、三级任务,任务设计相似,但通过使用不同的实体(如创建具有不同名称的文件夹)避免智能体受到早期任务的影响,确保评估的独立性和全面性。

跨应用任务基于涉及的应用数量进行难度划分:

这些任务涵盖了多种类型,包括通用工具、信息管理、网络购物、媒体娱乐、社交分享和多应用协作等。跨应用任务的设计借鉴了 GUI Odyssey 的分类方法,并通过任务数量和操作复杂性进一步细化。

这些任务不仅涵盖了 58 个常用第三方应用,还支持中英双语,使得任务设计更加贴近真实世界的用户需求。

智能体框架:高度灵活的集成

SPA-Bench 的框架设计允许研究者快速集成现有的智能体模型,并支持对不同模型进行横向对比。

    模块化设计
    框架采用模块化架构,包括任务模拟器、验证流程和资源监控模块。任务模拟器可以快速恢复任务的初始环境,例如应用的登录状态、用户设置等,从而确保实验环境的一致性。

    多智能体支持
    研究团队在 SPA-Bench 中已经集成了 11 种现有手机智能体。七种基于闭源专有模型的智能体:AppAgent、AutoDroid、MobileAgent、MobileAgentV2、M3A、T3A、SeeAct;和四种基于开源模型的智能体:Auto-UI、CogAgent、DigiRL、OdysseyAgent。

    快速扩展
    研究者可以通过 SPA-Bench 快速测试新智能体,只需要做一些简单的修改即可集成。

自动化流程:高效的任务验证

SPA-Bench 提供了一套全面自动化的任务验证流程,通过针对单应用任务和跨应用任务的不同设计,实现高效且精准的评估。此外,框架引入了七个关键指标,用于全面衡量智能体的表现,从完成任务的准确性到执行效率和资源消耗,为智能体的性能评价提供了多维度支持。

在评估任务完成情况时,成功信号是核心指标,用于判断智能体是否成功完成任务。结合操作和状态信息,这一指标能够适应多种有效路径,避免固定逻辑的局限性。步骤比衡量智能体的执行效率,通过对比智能体执行步骤与人工预定义的“黄金步骤”,揭示冗余操作的存在情况。终止原因进一步记录任务的结束方式,包括智能体主动终止、达到步骤限制或发生错误,同时还通过过早终止信号与超时终止信号捕捉智能体在判断任务是否完成中的逻辑偏差,反映其准确性与效率问题。此外,SPA-Bench 还从资源消耗的角度,通过执行时间和API 成本两个指标评估智能体的时间与经济开销,特别针对依赖大模型 API 的智能体进行直观的成本分析。

成功信号的设计在单应用任务和跨应用任务中采用了两种不同的流程,以适应任务场景的复杂性。在单应用任务中,验证流程以粗到细的检测方式为主。首先,通过关键 UI 元素的状态匹配实现初步筛选;随后引入大模型评估器(MLLM Evaluator),对关键步骤进行语义层面的深度检测,从而判断任务是否完成。这种方法兼顾了评估的精确性与成本效率,在英文和中文任务上的 F1 分数分别达到 0.926 和 0.884,展现了出色的可靠性。

对于跨应用任务,验证流程因涉及多个应用间的交互而更为复杂。SPA-Bench 采用了一种基于子任务分解的验证方法,首先通过大模型将任务轨迹根据应用来分割为多个子任务,并逐一进行验证。每个子任务的结果相互依赖,若任一子任务失败,后续验证即告终止。实验结果表明,该流程在复杂任务场景下的表现与人工评估高度一致,F1 分数达到 0.845,为跨应用任务的评估提供了强有力的支持。


3


实验结果与分析

任务成功率概览

实验结果显示,不同智能体在任务成功率上的表现差异显著。M3A 是整体表现最优的智能体,在所有任务组中均取得了最高的成功率。总体来看,智能体在单应用任务中的成功率高于跨应用任务,而在语言方面,英文任务的成功率也显著优于中文任务。此外,采用基于专有模型(GPT-4o)的智能体,其表现明显优于基于开源模型的智能体。

单应用任务

在单应用英文任务中,M3A、T3A 和 MobileAgentV2 表现最佳,成功率从 0.640 到 0.433 不等。这些智能体配备了反思模块,有效减少了任务执行中的停滞现象。相比之下,AppAgent 和 AutoDroid 的表现较差,但如果它们能够访问外部知识库,其表现可能会有所提升。

在单应用中文任务中,MobileAgentV2 的表现优于 T3A,且与 M3A 相当。这可能与 T3A 使用的可访问性(a11y)树结构过于复杂有关。中文任务的复杂性进一步凸显,尤其是更复杂的 UI 布局、频繁的动画以及干扰性元素(如广告和弹窗),这显著增加了任务执行难度。此外,由于多模态大模型在中文处理能力上的局限性,智能体在中文任务中的成功率整体低于英文任务。

跨应用任务

跨应用任务的挑战更为显著。除 M3A 外,大多数智能体在 40 项跨应用任务中的总完成数不超过 4 项。M3A 的表现相对较好,完成了 6 项任务,但整体成功率仍然偏低。这类任务不仅要求智能体完成更多步骤,还需要具备在多应用间切换时保持上下文记忆的能力。然而,即使是专为跨应用任务设计的 OdysseyAgent 也未能成功完成这些任务。虽然其在单个应用中的子任务表现良好,但在应用间切换时常常失去上下文或逻辑推理能力。实验表明,跨应用任务的低成功率反映了智能体在多步骤任务中的记忆保留与跨环境推理能力的不足。

完成效率与资源消耗

任务完成效率和资源消耗是衡量智能体性能的重要方面。在单应用任务中,M3A 的平均步骤比为 0.92,显示出其在完成任务时的高效性。相比之下,面对较高难度任务的智能体往往会因错误操作而导致更多的无效步骤,尽管它们可能最终完成任务。例如,M3A 能够通过组合动作(如在搜索框中输入并按下“回车”)以及策略性捷径(如直接点击推荐项)减少任务步骤,从而提升效率。

任务终止的原因也与成功率密切相关。较高的任务成功率通常伴随着更高的自报告完成率(Self-Reported Completion,SRC)和较低的最大步骤终止率(Maximum Steps Reached,MSR)。然而,智能体并非总能准确判断任务是否完成,导致成功率与 SRC 之间存在差异。例如,过早终止率(Premature Termination Rate,PTR)与超时终止率(Overdue Termination Rate,OTR)之间往往呈现权衡关系。PTR 较低的智能体通常表现出较高的 OTR,例如 SeeAct 的 PTR 为 0.100,但 OTR 达到 0.276。这种权衡反映了智能体内部成功检测机制的灵敏度问题,平衡任务提前终止和延迟结束的能力是优化方向之一。

错误处理机制与成本效率

智能体在任务执行中的错误处理能力对其成功率有显著影响。缺乏错误处理机制的智能体更容易因解析错误或输入缺失而中途终止任务。例如,部分智能体在解析模型输出为有效动作时遇到困难,或因无法访问必要的 XML 文件而导致失败。这些问题表明,更强大的错误检测与恢复机制对于提高智能体的任务可靠性至关重要。

在资源消耗方面,不同智能体的表现存在显著差异。AutoDroid 是成本最低的智能体,每步消耗仅为 0.008 美元,但其成功率较低(0.327)且执行时间较长(平均每步 34 秒)。M3A 和 T3A 的每步成本接近 0.10 美元,但它们具有更高的成功率和更快的执行时间(不到 20 秒)。MobileAgentV2 的每步成本为 0.067 美元,但由于视觉感知流程的复杂性,其每步平均执行时间长达 56.1 秒。结果显示,智能体在效率与成本之间存在明显的权衡,高成功率的智能体往往需要更高的计算资源和时间成本,而这一点限制了其在实际应用中的可用性。


4


未来研究方向


5


总结

SPA-Bench 的提出为手机操控智能体研究提供了一个强大的工具。通过其全面的任务设计、灵活的智能体框架和高效多元的验证流程,SPA-Bench 不仅填补了现有基准测试的空白,还为未来手机智能体技术的优化与发展提供了全新视角。随着社区的广泛参与和任务范围的不断扩展,SPA-Bench 有望进一步推动手机智能体技术的普及与实际应用。

如需了解更多信息,请点击文末【阅读原文】访问

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SPA-Bench 手机智能体 评估框架 人工智能 多模态大模型
相关文章