2024-09-15 00:01 湖北
微软正式推出Windows Agent Arena,这是一个开源基准,可让学术界和业界的研究人员开发、测试和比较适用于Windows的AI Agent。可以使用相同的应用程序、工具和Web浏览器在真实操作系统中评估各种任务的模型。
像Copilot和ChatGPT这样的人工智能助手已经成为数百万用户在工作和家庭中使用的有用工具,它们使用大型语言模型(LLMs)来帮助我们完成从调试代码到头脑风暴、晚餐食谱等各种任务。随着LLMs的能力越来越强,我们应该对我们的AI助手有什么期待?在微软,正在研究开发下一代模型所需的条件,这些模型不仅能推理,还能规划和行动来帮助我们。他们对AI Agent通过能够预订假期、编辑文档或提交费用报告等方式提高生产力和软件可访问性的潜力感到兴奋。
什么是计算机Agent?
从最广泛的意义上讲,Agent是指能够感知环境、推理并对其采取行动的任何事物。对于计算机Agent而言,这意味着理解当前屏幕,然后点击、键入并打开可能帮助用户实现其目标的应用程序。计算机Agent是多模态的,可以使用大型语言和视觉模型来理解图像和文本。
一张打开的Google Chrome浏览器截图,显示的是Google搜索引擎的首页,截图底部叠加了一段文字说明:“任务:当我在互联网上查找内容时,您能让 Bing 成为主要搜索引擎吗?”
Windows Agent Arena 基准测试
许多横跨工业界和学术界的倡议正在积极研究创建能够代表人类完成任务的自主智能体的策略。例如,微软最近也发布了UFO,这是一个能够在Windows中控制用户界面的智能体。原型化智能体并不容易,因为它需要一个可重复、健壮且安全的基准测试。发现了不同的例子,包括针对网络任务(Visual Web Arena)、移动设备(Android World)和计算机(OS World)的基准测试。
Windows Agent Arena扩展了主要关注Linux系统的OS World平台,面向Windows操作系统上的广泛任务。总共提供了154项任务,涵盖浏览器、文档、视频、编码和应用程序(记事本、画图、文件资源管理器、时钟和设置)。
左图:Windows Agent Area 在真实的 Windows 操作系统环境中运行。图标显示了该区域内使用的应用程序示例。中图:Windows Agent Arena 中的一些任务示例。右图:Agent推理循环。Agent输出键盘和鼠标消息以发送到环境。然后,环境观察结果被发送回Agent,供循环的下一次迭代使用。
Windows Agent Arena基准测试的另一个主要特点是云并行化。与在开发机器上串行运行任务并花费数天时间评估智能体不同,允许与Azure云的轻松集成。研究人员可以并行部署数百个智能体,将结果加速到几分钟,而不是几天。
开始使用Windows智能体竞技场很简单:你可以克隆开源的仓库,首先在本地测试你的智能体,然后再扩大你的实验规模。
Windows Agent Arena 的云并行化:Windows 11 快照、日志和 Azure 存储 blob 链接到多个 Azure Compute 实例。每个实例都有自己的 Docker 容器和 Windows VM。Windows VM 包含一个 VM 控制器来控制Agent、基准测试的任务和任务评估器。
Navi,Windows导航Agent工作原理
使用思路链(CoT)提示来指示Agent Navi推理计算机的当前状态、它自己的过去操作,并决定最合适的下一步操作。Agent接收当前前台窗口的标题、当前打开的所有其他窗口或浏览器选项卡的标题以及当前屏幕的表示作为输入。考虑了几种方法来处理Agent的屏幕表示作为输入并创建标记集 (SoM):
UIA 树解析:从 Windows UI 自动化树中提取可见元素
DOM 树解析:从 DOM 树中提取可见元素(仅限浏览器)
OCR:专有和开放模型(Tesseract)
图标和图像检测:专有和开放模型(Grounding DINO)
OmniParser:专有模型,可检测文本、图标和图像并提供图标字幕
下面可以看到 Navi 在执行任务过程中的推理过程和屏幕解析的分步示例:
实验评测结果
对几种最先进的视觉语言模型Agent配置进行了基准测试。发现所有现有模型与人类行为相比都表现不佳,且不同领域之间存在很大差异。
标记集的质量对Agent的性能至关重要。仅依赖基于像素的 OCR 和图标检测的Agent的性能低于同时使用UIA树的Agent,还发现Omniparser的图标字幕功能可以提高性能。
https://www.microsoft.com/applied-sciences/projects/windows-agent-arena
https://microsoft.github.io/WindowsAgentArena/
https://microsoft.github.io/WindowsAgentArena/static/files/windows_agent_arena.pdf
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。