哈里斯、特朗普首次直面辩论,市场最关心什么?
预计辩论将聚焦在国内经济政策上,哈里斯和特朗普可能会在通胀、关税、税收等方面产生冲突。
🎯UFO是专为WindowsOS交互设计、面向UI的智能体框架,可在单或多个应用程序中操作,由多团队打造。它能理解自然语言要求,分解子任务,操作用户界面以实现目标。
💪UFO在WindowsBench上成功率达86%,远超GPT-4。其完成率最佳,完成任务步骤最少,安全度最高。它在9个常用Windows应用程序上进行了测试,涵盖多种场景。
🧩UFO的架构是双Agent框架,主要有三个模块:应用智能体AppAgent选择应用程序,行动智能体ActAgent负责执行任务,交互控制实现全自动执行。
🌟UFO的研究团队多数为华人,成员来自多个领域,所在单位DKI组致力于多项研究,并与微软产品深度合作。
下一代 Windows 系统「UFO」曝光:首个 Windows Agent 来袭?
「UFO」是专为 Windows OS 交互设计、面向 UI 的智能体框架,由 MSRA、微软 AI 等团队等共同打造。
撰文:白交、衡宇,凹非寺
来源:量子位
下一代 Windows 操作系统提前曝光了??
微软首个为 Windows 而设的智能体(Agent)亮相:
基于 GPT-4V,一句话就可以在多个应用中无缝切换,完成复杂任务。整个过程无需人为干预,其执行成功率和效率是 GPT-4 的两倍,GPT-3.5 的四倍。
比如,删除 PPT 演示文稿上的所有备注,几个简单步骤就可完成。
还有像利用多个来源文本,比如 word 文档、图像文本内容,撰写电子邮件。
网友表示:这才是 Windows 级别应有的创新能力
这样一个智能体叫做 UFO,全名「UI-Focused」,是一个专为 Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架,可以在单个或者多个应用程序中操作,由 MSRA、微软 AI 与应用研究团队等共同打造。
用户就可以通过自然语言指令,来操作 App 的用户界面。
据介绍,UFO 是第一个专为 Windows OS 环境中的任务完成量身定制的 UI Agent。
就拿删除 PPT 上的所有注释为例。传统方式需要一页一页手动删除注释。如果 PPT 巨长无比,这个过程就会又久又无聊,让人瞬间暴躁。
但 UFO 得到指令后,简化了整个过程。
它先是提议用「删除所有演示笔记」功能,这个功能因为按钮位置藏得很深,经常被用户忽视。
而后,UFO 导航到「File」选项,对后台视图进行访问;然后,再平滑地切换到「info」菜单,单击「检查问题」按钮,并选择「检查文档」,开始检查文档中所有包含的注释。
紧接着,UFO 识别到菜单地步的「删除所有演示笔记」,向下滚动定位到其位置,启动单击功能。
考虑到误删的可能性,UFO 这里有一道保护功能,需要用户再次确定是否真的要删除所有注释。
用户一旦确认,所有笔记就「图片」的一下都没有了~
如 PowerPoint 这般,文章中对其它几个场景进行了图文并茂的展示。
比如读一篇 PDF:
设计 PPT 格式:
下载 Docker 拓展:
发条推文:
搜索总结:
读篇 paper:
以及怎么利用 UFO 在 Word 文档里提取文本、描述图像、撰写然后发送电子邮件等。
研究团队在 9 个常用的 Windows 应用程序上对 UFO 进行了测试,包括 Outlook、Photos、PPT、Word 等,涵盖了 Windows 用户的高频使用场景,能够测试工作、交流、编码、阅读、网页浏览等目的。
对于每个应用程序,团队设计了 5 个不同的请求,共 45 个;另外还设计了 5 个设计跨多个交互应用程序的请求。
也就是说,共产生了 50 个请求,每个应用程序至少有一个请求链接到另一个后续请求,提供全面评估 UFO 的互动模式。
在评估指标方面,则从成功度、步骤、完成率和保障率这几个角度来评估 UFO。
为了全面评估 UFO 的性能,团队开发了名为 WindowsBench 的测试基准。
考虑到没有现成的 Windows Agent,团队选择 GPT-3.5 和 GPT-4 作为基座模型,并且指示它们提供一步一步的指导来完成用户请求。
值得注意的是,UFO 在 WindowsBench 上成功率达到了 86%,成倍超过了 GPT-4——因此 UFO 可以被定位为一个高效的 Agent。
而 UFO 的完成率也是最好的,这表明它有能力采取更精确的动作;此外,UFO 完成任务的步骤也是最少的,安全度也是最高的。
最后,9 个场景从 4 个角度在 WindowsBench 的详细得分如下:
既然如此,这样一个操作系统级别的 Agent,究竟是如何实现的呢?
首先,它理解用户的自然语言要求,然后将其分解为一系列子任务。然后观察用户界面,并对其控制元素进行操作,以实现总体目标。
既然如此,又是如何实现的呢?
架构上看,UFO 是个双 Agent 框架,主要有三个模块:
在收到用户请求后,AppAgent 会对需求进行分析。除此之外,还有这些信息作为输入:桌面截图、App 信息、记忆以及示例。
其中,UFO 为 AppAgent 提供了完整的桌面截图和可用应用程序列表以供参考。
然后从当前激活的应用程序中选择一个合适的应用程序,并制定一个全局实现计划,将其传递给 ActAgent。
一旦找到合适的应用程序,App 就会出现在桌面上。随后 ActAgent 启动操作。
在每个操作选择之前,UFO 都会捕获当前应用程序用户界面窗口的屏幕截图,并标注所有可用控件。此外,UFO 还记录了每个控件的相关信息,供 ActAgent 观察。
ActAgent 的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。
这一决定是基于 ActAgent 的观察结果、先前计划和操作记忆做出的。
这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此,用户请求的一个阶段结束。
如果需要跨越多个应用程序,那么在 ActAgent 完成当前任务之后,ActAgent 将把任务委托给 AppAgent,以便切换到不同的应用程序,从而启动请求的第二阶段。
用户可以选择提出新的请求,促使 UFO 通过重复上述过程来处理新任务。
研究团队依据日常鼠标操作,还开发了自定义操作,比如单击、选择文本、滚动等,以此来完成对于控件的操作。
主要有这些控制类型:
最后介绍一下 UFO 的研究团队,其中大多数都为华人。
通讯作者 Chaoyun Zhang,是微软 DKI(Data、Knowledge、Intelligence,数据 / 知识 / 情报)小组的高级研究员。
他于 2020 年,在爱丁堡大学获得硕士和博士学位,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps 的可解释机器学习。
Chaoyun Zhang 还是华中科技大学校友,出国前在华中科技大学电子信息与通信学院取得学士学位。
作者 Liqun Li,现为微软 DKI 组首席研究员。
他先毕业于清华大学计算机科学与技术系,取得学士学位;而后又在 2012 年获得中国科学院软件研究所博士学位。期间,Liqun Li 曾作为访问学者前往密歇根州立大学。
作者 Saravan Rajmohan,Miceosoft 365 的 AI 及应用研究的合作伙伴总监。
他领导应用研究团队与 Microsoft 的各个研究小组进行深入协作,将算法研究与 AI/ML 技术和硬件创新相结合
作者张冬梅,MSRA(微软亚洲研究院)常务副院长,微软杰出首席科学家。
她从 2004 年起加入 MSRA,从事和领导 DKI 领域的研究工作,近几年,团队将研究扩大到商业智能领域。
作者张祺,微软全球资深副总裁。
此前,张祺曾任微软(亚洲)互联网工程院常务副院长,兼任微软移动联新互联网服务有限公司董事长,负责微软互联网业务及人工智能平台在亚洲的团队。
同时,他也是微软中国首位「全球杰出工程师」。
最后,简单介绍一下多位作者的工作单位:MSRA 的 DKI 组。
DKI 是 Data、Knowledge、Intelligence 的简写。
该小组致力于 AI、数据分析、数据交互、数据可视化的研究,探索全新的数据分析、展示、交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。
团队与微软产品如 Excel,PowerPoint 等深度合作,常年在各个领域的顶会和期刊上发表论文。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
哈里斯、特朗普首次直面辩论,市场最关心什么?
预计辩论将聚焦在国内经济政策上,哈里斯和特朗普可能会在通胀、关税、税收等方面产生冲突。
英伟达重挫 9.5%,市值抹去 2789 亿美元创美股之最,发生了什么?
有分析称英伟达正在「消化成长的烦恼」,未来前景仍光明,也有人称英伟达财报令市场怀疑 AI 硬件巨额投资的可持续性。
惊人千亿估值、三大巨头争夺!Sam Altman 不愧「史上融资最强」
OpenAI 新一轮融资估值将超过 1000 亿美元,比年初估值高出 16%,甚至可能达到 1250 亿美元,全球市值 Top 3 公司微软、苹果、英伟达都参与其中。
特朗普再借币圈拉票:要让美国成为「全球加密货币之都」
一个月前特朗普向币圈抛出多个承诺,包括让美国成为首个将比特币列为战略储备资产的国家。
著名社交平台 Telegram 创始人法国被捕,面临洗钱、恐怖主义等多项指控
由于杜罗夫被捕,对 Telegram 及其加密货币项目潜在监管合规性的担忧激增,投资者大幅抛售持有的相关代币,Toncoin 一度暴跌逾 20%。
比特币期货遭遇激进做空,ETF 资金却流入加速,逼空行情一触即发?
最近几周比特币的永续掉期资金费率为负,同时未平仓合约量激增。与此同时,美国现货比特币 ETF 在过去十个交易日中的八天都保持了正流入。
反弹机会?比特币或迎「空头挤压」
近期,比特币永续掉期的融资利率平均为负值,各大交易所比特币、以太坊等空头头寸激增,表明市场看跌情绪浓厚。加密货币专家警告,「空头挤压」的风险正在上升,或为比特币带来一波强劲反弹。
美股重回 KTV,比特币却没有
CryptoQuant 的数据显示,Binance 交易所比特币永续期货的资金费率已降至 2022 年以来的最低水平。分析认为,这表明快钱交易者的热情正在减退。
2024 TON 生态全景观察及安全研究报告
面对不断演化的安全威胁,如何有效防范和应对成为了 TON 生态的重要课题。
稳定币市场报告:创新、趋势和增长潜力
稳定币在推动加密货币成为主流支付解决方案,满足当前金融体系和消费者需求上至关重要。
F2Pool 联创王纯:我为什么不买私人飞机
SpaceX 将于今年年底发射 Fram2 首次载人飞往地球两极地区,而 F2Pool 联创王纯将担任指挥官。本文将带你了解,这位被称作「万币侯」的王纯是个什么样的人?
OpenAI 有麻烦了?核心团队「分崩离析」,GPT-5「10 月难见」
联合创始人之一 Greg Brockman 今日宣布休长假,预计缺席今年 10 月的开发者日。公司官宣,今年将不会发布其下一个主要旗舰型号 GPT-5。
「1987 版黑色星期一」重演:抱团交易逆转、流动性冲击,之后发生了什么?
美联储紧急降息 50 个基点,并采取量化宽松注入流动性「救市」,最后 1987 年的大跌逐渐平息,且风险没有向更大范围蔓延,但危险在于暴跌可能自我强化,演变成信贷紧缩。
比索贬值、日元和人民币飙升,全球套利交易「大溃败」!
融资货币的突然升值损害了套利策略。分析认为,套利交易头寸大量抛售最初是由日本央行加息引发的,但全球经济增长担忧在过去几天进一步火上浇油,走势变得激烈。
OpenAI 的「生存困境」:想要存活超过两年,必须做到这五点
分析认为,OpenAI 必须重塑与微软的复杂关系,未来一年筹集 100 亿美元的历史性规模,实现技术突破以降低成本,开拓新的应用领域,创造和自动化工作岗位。
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑