微软研究院AI头条 07月08日 14:33
UI-Evol: 让智能体“知行合一”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软亚洲研究院提出UI-Evol方法,通过回溯与批判阶段进化智能体知识,有效弥合知识-执行鸿沟,显著提升Computer Use Agent在真实世界中的任务完成率、稳定性和可靠性。实验证明,UI-Evol使智能体行为更稳定可预测,为AI实用性提供新路径。

🔍UI-Evol通过“回溯阶段”记录智能体有效动作序列,再经“批判阶段”与外部知识比对修正,确保知识既正确又可执行,有效解决知识-行动脱节问题。

📈实验显示,在OSWorld基准测试中,UI-Evol配合Agent S2使任务成功率显著提升,并大幅降低行为标准差,证明智能体行为更稳定、可预测。

🚀UI-Evol作为即插即用模块,适用于GUI知识进化,为AI在办公自动化、虚拟助理等场景中的实际应用提供可靠性保障,推动AI实用性发展。

🧠该方法揭示当前智能体虽拥有90%正确知识,但执行成功率仅41%的深层问题,强调知识转化为实际能力的重要性,为AI进化提供新思路。

🔧UI-Evol通过轨迹更新外部知识,使其更符合实际交互环境,解决智能体高行为标准差问题,为提升AI智能体实际应用能力和稳定性提供有效方案。


(本文阅读时间:6分钟)


编者按:当 AI 智能体走出实验室,在真实世界中执行任务时,只有知识还远远不够。但如今的许多智能体即使拥有正确的信息,可在实际操作中仍频频失误,任务完成率令人堪忧。微软亚洲研究院的研究员对此提出了一个新方法 UI-Evol,旨在帮助计算机使用智能体(Computer Use Agent)进化知识,使智能体不仅“知道该怎么做”,还要真正“做得到”。在该方法的加持下,智能体在实际执行能力、稳定性和可靠性方面均得到显著提升。相关论文被 ICML 2025 Computer Use Workshop 接收。

在当前计算机使用智能体(Computer Use Agent)的开发中,外部知识扮演着至关重要的角色。然而,微软亚洲研究院的研究员们发现了一个关键的“知识-执行”鸿沟,即所检索到的知识往往未能有效地转化为实际的任务执行。调查分析显示,即使提供给智能体(agent)90%的正确知识,其执行任务的成功率也只有41%。这一差距暴露出一个深层问题:尽管智能体拥有相关知识,但在真实的计算机使用环境中,这些知识却难以被有效应用,导致任务完成率低下,知识与行动之间存在明显的脱节。也就是说,智能体虽“知其然”,却未必能“行其是”。


通过实验,研究员们进一步发现,现阶段 Computer Use Agent 执行任务的成功率存在较强的随机性,严重影响用户的实际体验。这种不稳定行为既降低了任务的成功率,还阻碍了智能体在真实环境中的部署与应用。


为了弥合“知识-执行”差距,研究员们提出了 UI-Evol 方法。作为一个即插即用的模块,UI-Evol 可用于自主的图形用户界面(GUI)知识进化,从而提升 Computer Use Agent 在真实世界任务中的执行力与可靠性。在 OSWorld 测试基准上,UI-Evol 以同等的基础模型刷新了最高成功率。相关论文已被 ICML 2025 Computer Use Workshop 接收。


UI-Evol: Automatic Knowledge Evolving for Computer Use Agents


论文链接:

https://arxiv.org/abs/2505.21964





图1:尽管外部知识理论上是正确的,但并不能被有效利用到实际环境中(左上和右上部分)。经过 UI-Evol 后的知识更加符合实际环境(左下和右下部分)。


回溯与批判:知识进化的两个关键阶段


UI-Evol 模块包含两个核心阶段。第一个阶段是“回溯阶段”(retrace stage),其主要功能是从实际的智能体与环境交互中提取“忠实客观的动作序列”。这意味着 UI-Evol 能够记录并理解智能体在执行任务时所采取的具体、有效的步骤。


第二个阶段是“批判阶段”(critique stage)。在此阶段,系统会将回溯阶段提取出的动作序列与外部参考进行比对分析,从而修正、完善现有知识。这种“回溯+批判”的两阶段方法可以确保智能体所获得的知识不仅是理论上正确的,而且能够在实际交互中有效执行。


图2:UI-Evol 分为两个阶段,通过实际的智能体与环境交互的轨迹来更新外部知识,使其符合实际交互环境。


实验验证:让智能体更稳定、更可预测


研究员们在 OSWorld 基准测试上对 UI-Evol 进行了全面的实验,并使用了最先进的智能体 Agent S2。实验结果显示,UI-Evol 既显著提升了任务性能,更重要的是,它还解决了一个之前被忽视的问题——Computer Use Agent 存在“高行为标准差”。这意味着在 UI-Evol 的帮助下,智能体在执行任务时的行为模式变得更加稳定且可预测。


由此可见,UI-Evol 大幅提高了智能体的可靠性,带来了计算机使用任务上卓越的性能表现。这些成果验证了 UI-Evol 在提升智能体实际应用能力和稳定性方面的有效性。


表1:在复现实验中,基于 GPT-4o 和 OpenAI-o3 的 Computer Use Agent 出现了较大的随机性。加入经过 UI-Evol 后的知识不仅提高了性能,而且提高了稳定性和可复现性。


为智能体打开“用得上”的新局面


UI-Evol 的提出,解决了长期困扰智能体任务执行中“知识-行动”脱节的问题,为提升 AI 在真实世界中的实用性提供了有效路径。未来,随着智能体在办公自动化、虚拟助理、软件操控等场景中的深入应用,UI-Evol 有望成为其稳定性与可靠性的重要保障模块。




微软亚洲研究院新书《无界》上市


当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。


包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。


本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。


现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!


立即点击下方链接,开启你的专属阅读之旅!













你也许还想看:




文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

UI-Evol 人工智能 知识进化 智能体 计算机使用
相关文章