(本文阅读时间:6分钟)
编者按:当 AI 智能体走出实验室,在真实世界中执行任务时,只有知识还远远不够。但如今的许多智能体即使拥有正确的信息,可在实际操作中仍频频失误,任务完成率令人堪忧。微软亚洲研究院的研究员对此提出了一个新方法 UI-Evol,旨在帮助计算机使用智能体(Computer Use Agent)进化知识,使智能体不仅“知道该怎么做”,还要真正“做得到”。在该方法的加持下,智能体在实际执行能力、稳定性和可靠性方面均得到显著提升。相关论文被 ICML 2025 Computer Use Workshop 接收。
在当前计算机使用智能体(Computer Use Agent)的开发中,外部知识扮演着至关重要的角色。然而,微软亚洲研究院的研究员们发现了一个关键的“知识-执行”鸿沟,即所检索到的知识往往未能有效地转化为实际的任务执行。调查分析显示,即使提供给智能体(agent)90%的正确知识,其执行任务的成功率也只有41%。这一差距暴露出一个深层问题:尽管智能体拥有相关知识,但在真实的计算机使用环境中,这些知识却难以被有效应用,导致任务完成率低下,知识与行动之间存在明显的脱节。也就是说,智能体虽“知其然”,却未必能“行其是”。
通过实验,研究员们进一步发现,现阶段 Computer Use Agent 执行任务的成功率存在较强的随机性,严重影响用户的实际体验。这种不稳定行为既降低了任务的成功率,还阻碍了智能体在真实环境中的部署与应用。
为了弥合“知识-执行”差距,研究员们提出了 UI-Evol 方法。作为一个即插即用的模块,UI-Evol 可用于自主的图形用户界面(GUI)知识进化,从而提升 Computer Use Agent 在真实世界任务中的执行力与可靠性。在 OSWorld 测试基准上,UI-Evol 以同等的基础模型刷新了最高成功率。相关论文已被 ICML 2025 Computer Use Workshop 接收。
论文链接:
https://arxiv.org/abs/2505.21964图1:尽管外部知识理论上是正确的,但并不能被有效利用到实际环境中(左上和右上部分)。经过 UI-Evol 后的知识更加符合实际环境(左下和右下部分)。
回溯与批判:知识进化的两个关键阶段
UI-Evol 模块包含两个核心阶段。第一个阶段是“回溯阶段”(retrace stage),其主要功能是从实际的智能体与环境交互中提取“忠实客观的动作序列”。这意味着 UI-Evol 能够记录并理解智能体在执行任务时所采取的具体、有效的步骤。
第二个阶段是“批判阶段”(critique stage)。在此阶段,系统会将回溯阶段提取出的动作序列与外部参考进行比对分析,从而修正、完善现有知识。这种“回溯+批判”的两阶段方法可以确保智能体所获得的知识不仅是理论上正确的,而且能够在实际交互中有效执行。
图2:UI-Evol 分为两个阶段,通过实际的智能体与环境交互的轨迹来更新外部知识,使其符合实际交互环境。
实验验证:让智能体更稳定、更可预测
研究员们在 OSWorld 基准测试上对 UI-Evol 进行了全面的实验,并使用了最先进的智能体 Agent S2。实验结果显示,UI-Evol 既显著提升了任务性能,更重要的是,它还解决了一个之前被忽视的问题——Computer Use Agent 存在“高行为标准差”。这意味着在 UI-Evol 的帮助下,智能体在执行任务时的行为模式变得更加稳定且可预测。
由此可见,UI-Evol 大幅提高了智能体的可靠性,带来了计算机使用任务上卓越的性能表现。这些成果验证了 UI-Evol 在提升智能体实际应用能力和稳定性方面的有效性。
表1:在复现实验中,基于 GPT-4o 和 OpenAI-o3 的 Computer Use Agent 出现了较大的随机性。加入经过 UI-Evol 后的知识不仅提高了性能,而且提高了稳定性和可复现性。
为智能体打开“用得上”的新局面
UI-Evol 的提出,解决了长期困扰智能体任务执行中“知识-行动”脱节的问题,为提升 AI 在真实世界中的实用性提供了有效路径。未来,随着智能体在办公自动化、虚拟助理、软件操控等场景中的深入应用,UI-Evol 有望成为其稳定性与可靠性的重要保障模块。
当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。
包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。
本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。
现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!
立即点击下方链接,开启你的专属阅读之旅!
你也许还想看:
文章原文