PaperAgent 2024年09月15日
微软让Agent迈入Window操作系统时代!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软发布了WindowsAgentArena,一个开源基准测试平台,用于开发、测试和比较适用于Windows的AIAgent。该平台允许研究人员在真实的操作系统环境中评估各种任务的模型,例如预订假期、编辑文档或提交费用报告。WindowsAgentArena扩展了OSWorld平台,提供了154项涵盖浏览器、文档、视频、编码和应用程序的任务,并支持云并行化,可以加速评估过程。

😊 **WindowsAgentArena:开源基准测试平台** WindowsAgentArena是一个开源基准测试平台,旨在为研究人员提供一个标准化环境,用于开发、测试和比较适用于Windows的AIAgent。该平台允许研究人员在真实的Windows操作系统环境中评估各种任务的模型,例如预订假期、编辑文档或提交费用报告。

🤖 **丰富的任务和云并行化** WindowsAgentArena扩展了OSWorld平台,提供了154项涵盖浏览器、文档、视频、编码和应用程序(记事本、画图、文件资源管理器、时钟和设置)的任务。该平台还支持云并行化,允许研究人员将数百个智能体并行部署,将结果评估时间从几天缩短到几分钟。

🧭 **Navi:Windows导航智能体** 微软研究人员开发了Navi,一个Windows导航智能体,它使用思路链(CoT)提示来指示智能体推理计算机的当前状态、它自己的过去操作,并决定最合适的下一步操作。Navi使用多种方法来处理智能体的屏幕表示作为输入,包括UIA树解析、DOM树解析、OCR和图标检测,并利用Omniparser来检测文本、图标和图像,并提供图标字幕。

📊 **实验结果** 研究人员对几种最先进的视觉语言模型智能体配置进行了基准测试,发现所有现有模型与人类行为相比都表现不佳,且不同领域之间存在很大差异。标记集的质量对智能体的性能至关重要。仅依赖基于像素的OCR和图标检测的智能体的性能低于同时使用UIA树的智能体,还发现Omniparser的图标字幕功能可以提高性能。

2024-09-15 00:01 湖北

微软正式推出Windows Agent Arena,这是一个开源基准,可让学术界和业界的研究人员开发、测试和比较适用于WindowsAI Agent。可以使用相同的应用程序、工具和Web浏览器在真实操作系统中评估各种任务的模型。

像Copilot和ChatGPT这样的人工智能助手已经成为数百万用户在工作和家庭中使用的有用工具,它们使用大型语言模型(LLMs)来帮助我们完成从调试代码到头脑风暴、晚餐食谱等各种任务。随着LLMs的能力越来越强,我们应该对我们的AI助手有什么期待?在微软,正在研究开发下一代模型所需的条件,这些模型不仅能推理,还能规划和行动来帮助我们。他们对AI Agent通过能够预订假期、编辑文档或提交费用报告等方式提高生产力和软件可访问性的潜力感到兴奋。

什么是计算机Agent?

从最广泛的意义上讲,Agent是指能够感知环境、推理并对其采取行动的任何事物。对于计算机Agent而言,这意味着理解当前屏幕,然后点击、键入并打开可能帮助用户实现其目标的应用程序。计算机Agent是多模态的,可以使用大型语言和视觉模型来理解图像和文本。

一张打开的Google Chrome浏览器截图,显示的是Google搜索引擎的首页,截图底部叠加了一段文字说明:“任务:当我在互联网上查找内容时,您能让 Bing 成为主要搜索引擎吗?”

Windows Agent Arena 基准测试

许多横跨工业界和学术界的倡议正在积极研究创建能够代表人类完成任务的自主智能体的策略。例如,微软最近也发布了UFO,这是一个能够在Windows中控制用户界面的智能体。原型化智能体并不容易,因为它需要一个可重复、健壮且安全的基准测试。发现了不同的例子,包括针对网络任务(Visual Web Arena)、移动设备(Android World)和计算机(OS World)的基准测试。

Windows Agent Arena扩展了主要关注Linux系统的OS World平台,面向Windows操作系统上的广泛任务。总共提供了154项任务,涵盖浏览器、文档、视频、编码和应用程序(记事本、画图、文件资源管理器、时钟和设置)。

左图:Windows Agent Area 在真实的 Windows 操作系统环境中运行。图标显示了该区域内使用的应用程序示例。中图:Windows Agent Arena 中的一些任务示例。右图:Agent推理循环。Agent输出键盘和鼠标消息以发送到环境。然后,环境观察结果被发送回Agent,供循环的下一次迭代使用。

Windows Agent Arena基准测试的另一个主要特点是云并行化。与在开发机器上串行运行任务并花费数天时间评估智能体不同,允许与Azure云的轻松集成。研究人员可以并行部署数百个智能体,将结果加速到几分钟,而不是几天。

开始使用Windows智能体竞技场很简单:你可以克隆开源的仓库,首先在本地测试你的智能体,然后再扩大你的实验规模。

Windows Agent Arena 的云并行化:Windows 11 快照、日志和 Azure 存储 blob 链接到多个 Azure Compute 实例。每个实例都有自己的 Docker 容器和 Windows VM。Windows VM 包含一个 VM 控制器来控制Agent、基准测试的任务和任务评估器。

Navi,Windows导航Agent工作原理

使用思路链(CoT)提示来指示Agent Navi推理计算机的当前状态、它自己的过去操作,并决定最合适的下一步操作。Agent接收当前前台窗口的标题、当前打开的所有其他窗口或浏览器选项卡的标题以及当前屏幕的表示作为输入。考虑了几种方法来处理Agent的屏幕表示作为输入并创建标记集 (SoM):

下面可以看到 Navi 在执行任务过程中的推理过程和屏幕解析的分步示例:

实验评测结果

对几种最先进的视觉语言模型Agent配置进行了基准测试。发现所有现有模型与人类行为相比都表现不佳,且不同领域之间存在很大差异。

标记集的质量对Agent的性能至关重要。仅依赖基于像素的 OCR 和图标检测的Agent的性能低于同时使用UIA树的Agent,还发现Omniparser的图标字幕功能可以提高性能。

https://www.microsoft.com/applied-sciences/projects/windows-agent-arenahttps://microsoft.github.io/WindowsAgentArena/https://microsoft.github.io/WindowsAgentArena/static/files/windows_agent_arena.pdf

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

WindowsAgentArena AIAgent 基准测试 开源 人工智能
相关文章