PaperAgent 2024年11月14日
一篇GUI Agent技术最新全面综述
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文全面综述了基于基础模型(特别是大型语言模型和多模态大型语言模型)的图形用户界面(GUI)代理。这些智能体能够通过模拟人类交互(点击、键入等)自主执行用户指令,完成复杂任务。文章介绍了GUI代理的通用框架,包括GUI感知器、任务规划器、决策者、记忆检索器和执行器等五个部分。此外,文章还根据输入模态(LLM或MLLM)和学习模式(基于提示、SFT等)对现有工作进行了分类,并介绍了Google Assistant、Apple Intelligence、New Bing等基于(M)LLM的GUI代理的工业应用,例如利用语音命令控制应用、智能搜索和提高生产力等。

🤔 **GUI代理的通用框架:** GUI代理通常接收用户查询和设备UI状态作为输入,并通过GUI感知器、任务规划器、决策者、记忆检索器和执行器等模块,模拟人类交互,最终完成用户指令,例如自动控制设备执行任务。

🖥️ **不同输入模态的GUI代理:** 早期的GUI代理主要基于LLM,需要将GUI转换为文本输入,而近期研究则利用MLLM的多模态能力,直接理解和处理GUI信息,例如使用图像编码器-文本解码器架构进行UI理解。

💡 **不同学习模式的GUI代理:** GUI代理的学习模式包括基于提示、基于监督微调(SFT)等。基于提示的代理通过设计动作定位技术,将截图作为输入生成可执行动作,而SFT则允许LLM适应特定领域,更有效地执行定制任务。

🤖 **基于(M)LLM的GUI代理工业应用:** 文章介绍了多个基于(M)LLM的GUI代理的工业应用,例如Google Assistant for Android、Apple Intelligence、New Bing、Microsoft Copilot等,这些应用利用人工智能技术提高用户体验,例如通过语音控制应用、智能搜索和提高生产力等。

📱 **MagicOS 9.0 YOYO:** 作为GUI代理的典型应用案例,MagicOS 9.0 YOYO具备自然语言和视觉处理、用户行为学习、意图识别和应用集成等功能,能够自主完成用户请求,例如通过语音命令订购咖啡、导航应用等。

2024-11-14 15:16 湖北

基础模型,特别是大型语言模型(LLMs)和多模态大型语言模型(MLLMs),使得Agent能够执行复杂任务。这些智能体利用(M)LLMs处理和解释GUI的能力,通过模拟人类交互(如点击和键入)自主执行用户指令。

GUI Agent领域中基础模型增长趋势的示意图

基于(M)LLM的GUI Agent 框架

Agent的目标是自动控制设备以完成任务。它们通常接收用户查询和设备UI状态作为输入,并提供一系列类似人类的操作来完成任务。GUI Agent的构建包括五个部分:GUI感知器、任务规划器、决策者、记忆检索器和执行器

基于(M)LLM的GUI Agent的通用框架

    GUI代理的构建包括五个主要部分:

基于(M)LLM的GUI Agent分类法

通过不同维度对现有工作进行分类,包括输入模态和学习模式的差异。通过这两个维度,包括了当前的主要工作,并帮助新研究者全面了解GUI代理。

    不同输入模态的GUI代理

不同学习模式的GUI代理

基于(M)LLM的GUI Agent工业应用

介绍了基于(M)LLM的GUI代理的最新工业应用,这些应用具有重大的商业潜力。包括Google Assistant for Android、Apple Intelligence、New Bing、Microsoft Copilot、Anthropic Claude 3.5和AutoGLM等。

    Google Assistant for Android

Apple Intelligence

New Bing

Microsoft Copilot

Anthropic Claude 3.5

AutoGLM

MagicOS 9.0 YOYO

https://arxiv.org/pdf/2411.04890GUI Agents with Foundation Models: A Comprehensive Survey

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GUI代理 基础模型 大型语言模型 多模态 人工智能
相关文章