2024-10-27 11:06 湖北
自Anthropic深夜发布重大更新,带来超级Agent:computer use,一时间带来了一股“像人一样操控电脑”的热潮,像智谱也发布一句指令自动操作电脑、手机的AutoGLM。
近日微软OmniParser开源,专为电脑、手机屏幕UI解析而生,据称其效果在相关屏幕理解评测基准上超过GPT-4V。
OmniParser是一个通用的屏幕解析工具,它将用户界面(UI)的屏幕截图解释/转换为结构化格式,以提高基于现有大型语言模型(LLM)的用户界面代理的性能。训练数据集包括:
一个可交互图标检测数据集,该数据集从流行的网页中收集并自动标注,以突出可点击和可操作的区域;
一个图标描述数据集,旨在将每个用户界面元素与其相应的功能关联起来。
这个模型中心包括一个在上述数据集上微调过的 YOLOv8 版本和一个微调过的 BLIP-2 模型。
OmniParser 解析的屏幕截图图像和局部语义的示例。OmniParse 的输入是用户任务和 UI 屏幕截图,它将生成:1) 带有叠加边框和数字 ID 的解析屏幕截图图像,以及 2) 包含提取文本和图标描述的局部语义。
OmniParser 在 ScreenSpot 基准测试中显著提高了 GPT-4V 的性能。而在 Mind2Web 和 AITW 基准测试中,仅使用屏幕截图输入的 OMNIPARSER 优于需要屏幕截图之外额外信息的 GPT-4V 基线。
来自 SeeAssign 评估的示例。可以看到,细粒度的局部语义提高了 GPT-4V 为所指图标分配正确标签的能力。
https://huggingface.co/microsoft/OmniParser
OmniParser for Pure Vision Based GUI Agent
https://arxiv.org/abs/2408.00203
https://github.com/microsoft/OmniParser
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。