UI-Evol: 让智能体“知行合一”

（本文阅读时间：6分钟）

编者按：当 AI 智能体走出实验室，在真实世界中执行任务时，只有知识还远远不够。但如今的许多智能体即使拥有正确的信息，可在实际操作中仍频频失误，任务完成率令人堪忧。微软亚洲研究院的研究员对此提出了一个新方法 UI-Evol，旨在帮助计算机使用智能体（Computer Use Agent）进化知识，使智能体不仅“知道该怎么做”，还要真正“做得到”。在该方法的加持下，智能体在实际执行能力、稳定性和可靠性方面均得到显著提升。相关论文被 ICML 2025 Computer Use Workshop 接收。

在当前计算机使用智能体（Computer Use Agent）的开发中，外部知识扮演着至关重要的角色。然而，微软亚洲研究院的研究员们发现了一个关键的“知识-执行”鸿沟，即所检索到的知识往往未能有效地转化为实际的任务执行。调查分析显示，即使提供给智能体（agent）90%的正确知识，其执行任务的成功率也只有41%。这一差距暴露出一个深层问题：尽管智能体拥有相关知识，但在真实的计算机使用环境中，这些知识却难以被有效应用，导致任务完成率低下，知识与行动之间存在明显的脱节。也就是说，智能体虽“知其然”，却未必能“行其是”。

通过实验，研究员们进一步发现，现阶段 Computer Use Agent 执行任务的成功率存在较强的随机性，严重影响用户的实际体验。这种不稳定行为既降低了任务的成功率，还阻碍了智能体在真实环境中的部署与应用。

为了弥合“知识-执行”差距，研究员们提出了 UI-Evol 方法。作为一个即插即用的模块，UI-Evol 可用于自主的图形用户界面（GUI）知识进化，从而提升 Computer Use Agent 在真实世界任务中的执行力与可靠性。在 OSWorld 测试基准上，UI-Evol 以同等的基础模型刷新了最高成功率。相关论文已被 ICML 2025 Computer Use Workshop 接收。

UI-Evol: Automatic Knowledge Evolving for Computer Use Agents

论文链接：

https://arxiv.org/abs/2505.21964

图1：尽管外部知识理论上是正确的，但并不能被有效利用到实际环境中（左上和右上部分）。经过 UI-Evol 后的知识更加符合实际环境（左下和右下部分）。

回溯与批判：知识进化的两个关键阶段

UI-Evol 模块包含两个核心阶段。第一个阶段是“回溯阶段”（retrace stage），其主要功能是从实际的智能体与环境交互中提取“忠实客观的动作序列”。这意味着 UI-Evol 能够记录并理解智能体在执行任务时所采取的具体、有效的步骤。

第二个阶段是“批判阶段”（critique stage）。在此阶段，系统会将回溯阶段提取出的动作序列与外部参考进行比对分析，从而修正、完善现有知识。这种“回溯+批判”的两阶段方法可以确保智能体所获得的知识不仅是理论上正确的，而且能够在实际交互中有效执行。

图2：UI-Evol 分为两个阶段，通过实际的智能体与环境交互的轨迹来更新外部知识，使其符合实际交互环境。

实验验证：让智能体更稳定、更可预测

研究员们在 OSWorld 基准测试上对 UI-Evol 进行了全面的实验，并使用了最先进的智能体 Agent S2。实验结果显示，UI-Evol 既显著提升了任务性能，更重要的是，它还解决了一个之前被忽视的问题——Computer Use Agent 存在“高行为标准差”。这意味着在 UI-Evol 的帮助下，智能体在执行任务时的行为模式变得更加稳定且可预测。

由此可见，UI-Evol 大幅提高了智能体的可靠性，带来了计算机使用任务上卓越的性能表现。这些成果验证了 UI-Evol 在提升智能体实际应用能力和稳定性方面的有效性。

表1：在复现实验中，基于 GPT-4o 和 OpenAI-o3 的 Computer Use Agent 出现了较大的随机性。加入经过 UI-Evol 后的知识不仅提高了性能，而且提高了稳定性和可复现性。

为智能体打开“用得上”的新局面

UI-Evol 的提出，解决了长期困扰智能体任务执行中“知识-行动”脱节的问题，为提升 AI 在真实世界中的实用性提供了有效路径。未来，随着智能体在办公自动化、虚拟助理、软件操控等场景中的深入应用，UI-Evol 有望成为其稳定性与可靠性的重要保障模块。

微软亚洲研究院新书《无界》上市

当面对集体性的难题时，思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书，正是献给这个时代的探索指南。

包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作，他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展，分享了前沿的展望、观点以及宝贵的科研经验。

本书已获得十余位全球顶尖学者的推荐，其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者，以及微软亚洲研究院的杰出院友。

现在，《无界——透视微软创新研究之境》已全平台火爆开售！首批读者将获得限量版微软50周年书签，书签上的文章作者亲笔签名将随机呈现，盲盒式惊喜等你开启！

立即点击下方链接，开启你的专属阅读之旅！

你也许还想看：

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签