微软开源OmniParser V2，直接将DeepSeek-R1变成使用电脑的 AI Agents~

PaperAgent 02月23日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

微软开源OmniParser V2，旨在将任何大型语言模型转变为能够操作计算机的智能Agent。该工具能够解析UI屏幕截图，将其转换为结构化格式，从而提升基于LLM的UI Agent的性能。OmniParser V2通过训练数据集，包括可交互图标检测数据集和图标描述数据集，来识别屏幕上的可点击和可操作区域，并将UI元素与其功能关联起来。相较于V1版本，V2在图标标题清晰度、数据集规模以及延迟方面均有所提升，平均延迟在A100上为0.6秒/帧，在单个4090上为0.8秒。OmniParser V2支持多种大型语言模型，如GPT-4o、DeepSeek R1和Qwen等。

💻OmniParser V2是一款通用屏幕解析工具，由微软开源，旨在将UI屏幕截图转换为结构化格式，从而改进基于LLM的UI Agent，使LLM能够理解屏幕内容并执行相关操作。

🖼️其训练数据集包括可交互图标检测数据集（来自热门网页，自动注释可点击区域）和图标描述数据集（将UI元素与其功能关联）。模型中心包含基于这些数据集微调的YOLOv8和Florence-2基础模型。

🚀OmniParser V2相比V1，拥有更大、更清晰的图标标题和基础数据集，延迟也降低了60%，在A100上的平均延迟为0.6秒/帧，单个4090上为0.8秒，性能在ScreenSpot Pro上的平均准确率达到39.6%。

🤖OmniTool是OmniParser V2的应用实例，它结合视觉模型来控制Windows 11虚拟机，并开箱即用地支持多种大型语言模型，包括OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL)和Anthropic Computer Use。

PaperIdea 2025-02-20 19:26 湖北

微软在其官网上发布并开源OmniParser V2，它可以将任何 LLM 变成能够使用计算机的Agent。可以启用 GPT-4o、DeepSeek R1、Sonnet 3.5、Qwen等来了解屏幕上的内容并采取相关操作。

OmniParser 是一款通用屏幕解析工具，可将 UI 屏幕截图解释/转换为结构化格式，以改进现有的基于 LLM 的 UI Agent。

训练数据集包括：

可交互图标检测数据集，该数据集来自热门网页，并自动注释以突出显示可点击和可操作区域；

图标描述数据集，旨在将每个 UI 元素与其相应的功能关联起来。

该模型中心分别包含基于上述数据集的 YOLOv8 微调版本和 Florence-2 微调基础模型。

OmniParserV2 有什么新功能？

更大、更清晰的图标标题 + 基础数据集与 V1 相比，延迟改善了 60%。

平均延迟：A100 上为 0.6 秒/帧，单个 4090 上为 0.8 秒。

性能强劲： ScreenSpot Pro上的平均准确率为 39.6

Agents只需要一个工具：OmniTool。使用 OmniParser + 选择的视觉模型控制 Windows 11 VM。OmniTool 开箱即用地支持以下大型语言模型 - OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。

https://huggingface.co/microsoft/OmniParser-v2.0https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/https://github.com/microsoft/OmniParser/tree/masterdemo： http://hf.co/spaces/microsoft/OmniParser-v2

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签