机器之心 01月07日
手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文对基于大模型的手机GUI智能体进行综述,涵盖其发展历程、框架、模型、数据集、挑战与未来方向等,探讨了该领域的研究成果及面临的问题。

🎈手机自动化发展历程,包括传统方法的挑战及LLM的推动作用。

📱手机GUI智能体框架,如基本框架、多智能体框架和计划-然后-行动框架。

💻用于手机自动化的大语言模型,包括提示工程和基于训练的方法。

📊数据集和基准,包含相关数据集及评估方法和指标。

🚀挑战与未来方向,如数据集开发、设备端部署、用户中心适应等。

2025-01-07 13:12 新加坡

基于大模型的手机 GUI 智能体有望在复杂任务中实现更高自主性。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


1. 导言


你是否想过,手机能像电影钢铁侠中的智能管家贾维斯那般,一句话就能顺畅自如地完成各种复杂任务。


最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品,让曾经的幻想逐渐有了可行性。


vivo 作为行业领跑者,在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT",能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢,被网友们称作 “i 人救星”。


图 1 vivo PhoneGPT订座(蓝心小V对话或小V主界面下滑探索-智能体广场体验)


与此同时,各大厂家似乎提前约好一样,都瞄准了一句话订咖啡的场景,颇有当年乔布斯使用初代 iPhone 订星巴克的即视感。更有坊间戏称,今年秋天第一杯咖啡是手机智能体帮你点的。


图 2 vivo PhoneGPT订咖啡(蓝心小V对话或小V主界面下滑探索-智能体广场体验)


尽管行业发展迅速,最近关于手机 AI 智能体的论文井喷,相关技术路线迭代发展迅速,但这一领域仍缺少系统性的综述。此次 vivo AI Lab 联合香港中文大学 MMLab 等团队发布了 “大模型驱动的手机 AI 智能体” 综述论文,该论文长达 48 页,覆盖 200 余篇文献,对基于大模型的手机自动操作智能体相关技术展开了全面且深入的研究,希望给学界和产业界作为参考,共同推进行业发展。




1.1 研究背景



1.2 研究目的



1.3 主要贡献

图 3  大模型驱动的手机 GUI 智能体文献分类



2. 手机自动化的发展历程


2.1 LLM 时代之前的手机自动化



2.2 传统方法的挑战



2.3 LLM 推动手机自动化


图 4  大模型驱动的手机 GUI 智能体发展里程碑



2.4 新兴商业应用



3. 手机 GUI 智能体框架


3.1 基本框架


图 5  大模型驱动的手机 GUI 智能体基础框架






3.2 多智能体框架


图 6  多智能体框架分类



3.3 计划 - 然后 - 行动框架(Plan-Then-Act Framework)



4. 用于手机自动化的大语言模型


图 7  模型分类


4.1 提示工程(Prompt Engineering)


图 8  提示词设计


4.2 基于训练的方法(Training-Based Methods)



图 9  不同的 UI 理解任务





5. 数据集和基准


5.1 相关数据集


表1  数据集



5.2 基准


表 2  Benchmarks



6. 挑战与未来方向


6.1 数据集开发与微调可扩展性



6.2 轻量级和高效的设备端部署



6.3 用户中心适应:交互与个性化



6.4 模型定位、推理等能力提升



6.5 标准化评估基准



6.6 确保可靠性和安全性



7. 总结



展望未来,随着模型架构改进、设备端推理优化和多模态数据集成,基于大模型的手机 GUI 智能体有望在复杂任务中实现更高自主性,融合更多 AI 范式,为用户提供无缝、个性化和安全的体验。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com






阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

手机GUI智能体 大语言模型 数据集 未来方向 自动化
相关文章