PaperAgent 02月23日
微软开源OmniParser V2,直接将DeepSeek-R1变成使用电脑的 AI Agents~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软开源OmniParser V2,旨在将任何大型语言模型转变为能够操作计算机的智能Agent。该工具能够解析UI屏幕截图,将其转换为结构化格式,从而提升基于LLM的UI Agent的性能。OmniParser V2通过训练数据集,包括可交互图标检测数据集和图标描述数据集,来识别屏幕上的可点击和可操作区域,并将UI元素与其功能关联起来。相较于V1版本,V2在图标标题清晰度、数据集规模以及延迟方面均有所提升,平均延迟在A100上为0.6秒/帧,在单个4090上为0.8秒。OmniParser V2支持多种大型语言模型,如GPT-4o、DeepSeek R1和Qwen等。

💻OmniParser V2是一款通用屏幕解析工具,由微软开源,旨在将UI屏幕截图转换为结构化格式,从而改进基于LLM的UI Agent,使LLM能够理解屏幕内容并执行相关操作。

🖼️其训练数据集包括可交互图标检测数据集(来自热门网页,自动注释可点击区域)和图标描述数据集(将UI元素与其功能关联)。模型中心包含基于这些数据集微调的YOLOv8和Florence-2基础模型。

🚀OmniParser V2相比V1,拥有更大、更清晰的图标标题和基础数据集,延迟也降低了60%,在A100上的平均延迟为0.6秒/帧,单个4090上为0.8秒,性能在ScreenSpot Pro上的平均准确率达到39.6%。

🤖OmniTool是OmniParser V2的应用实例,它结合视觉模型来控制Windows 11虚拟机,并开箱即用地支持多种大型语言模型,包括OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL)和Anthropic Computer Use。

PaperIdea 2025-02-20 19:26 湖北

微软在其官网上发布并开源OmniParser V2它可以将任何 LLM 变成能够使用计算机的Agent。可以启用 GPT-4o、DeepSeek R1、Sonnet 3.5、Qwen等来了解屏幕上的内容并采取相关操作。


OmniParser 是一款通用屏幕解析工具,可将 UI 屏幕截图解释/转换为结构化格式,以改进现有的基于 LLM 的 UI Agent。

训练数据集包括:

该模型中心分别包含基于上述数据集的 YOLOv8 微调版本和 Florence-2 微调基础模型。

OmniParserV2 有什么新功能?

https://huggingface.co/microsoft/OmniParser-v2.0https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/https://github.com/microsoft/OmniParser/tree/masterdemo: http://hf.co/spaces/microsoft/OmniParser-v2

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OmniParser V2 LLM Agent 屏幕解析 人工智能 微软
相关文章