机器之心 前天 15:34
SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海交通大学与香港中文大学联合提出SEAgent,一个颠覆性的智能体自主学习与进化框架。该框架无需任何人工标注数据,通过与环境交互实现自我驱动的学习和能力提升。核心在于其闭环的自主进化框架、优化的世界状态评判模型以及“专才-通才”融合策略。SEAgent通过课程生成器提供递进式任务,智能体执行探索,世界状态模型进行细致评估,形成高效学习闭环。尤其在评判模型上,通过分析交互轨迹和高质量数据蒸馏,显著提升了对复杂操作的理解能力。此外,“专才-通才”融合策略先培养单一软件的专家模型,再将其知识蒸馏并进化为更强大的通用智能体,在多软件环境中展现出优越性能,为智能体在复杂软件中的应用打开新局面。

💡 **SEAgent的自主进化闭环**:该框架的核心在于其“三位一体”的自主进化机制。由课程生成器(导师)根据智能体能力生成任务,执行者-智能体(Actor-CUA)在软件环境中执行,评判者-世界状态模型(裁判)则评估每一步操作。这种闭环设计使得智能体能够持续、自我驱动地学习和进化,无需外部人工干预。

⚖️ **世界状态模型的优化与革新**:为了克服现有大语言模型在评估长序列操作时的不足,SEAgent构建了优化的世界状态模型。该模型革新了评判范式,从仅看结果转变为分析整个交互轨迹,捕捉关键成败节点,提供更精准的步骤级奖励。同时,通过使用GPT-4o生成高质量评判数据对Qwen2.5-VL-7B模型进行微调,并引入截图变化描述协同训练,显著增强了对GUI细微变化的感知能力,使其评判准确率大幅提升。

🚀 **“专才-通才”融合策略的创新**:为了构建能操作多种软件的“通才”模型,SEAgent提出了“专才到通才”的融合策略。首先,在不同软件上分别训练独立的“专才”智能体;接着,将这些专才模型的成功轨迹数据进行知识蒸馏,注入到一个新的通用模型中;最后,再对这个具备良好基础的“通才”模型进行多软件环境下的强化学习和进化。实验证明,此策略显著优于直接训练通才模型,并能超越专才模型的总体性能。

📈 **系统赋能与实证验证**:通过消融实验,SEAgent验证了其核心算法设计的必要性,包括高质量世界状态模型、基于探索的强化学习(GRPO)以及对抗性模仿机制。这些算法被整合在一个更大的系统框架中,课程生成器提供递进任务,而“专才-通才”策略则融合了多软件的专家能力。最终,SEAgent在OSWorld基准测试中取得了显著的性能提升,充分证明了其先进性和有效性。

2025-08-17 12:26 北京

一个闭环的自主进化框架、一个经过深度优化的评判模型,一套高效的 「专才 - 通才」融合策略。

当前计算机使用智能体(CUA)的发展,主要依赖于大量昂贵的人工标注数据 。这极大地限制了它们在缺少现成数据的新颖或专业软件中的应用能力 。为了打破这一瓶颈,来自上海交通大学和香港中文大学的学者们提出了 SEAgent,一个全新的、无需任何人类干预,即可通过与环境交互来自主学习和进化的智能体框架。

SEAgent 的核心创新在于其环的自主进化框架、一个经过深度优化的评判模型,以及一套高效的 「专才 - 通才」 融合策略。

SEAgent 的核心:三位一体的自主进化框架

图 2. 总体算法概览

SEAgent 的自主进化能力,源于其内部三大核心组件的协同工作,形成了一个可持续的、自我驱动的学习闭环。

图 3:自动课程学习构建细节

构建更好的 「裁判」:世界状态模型的优化之路

一个精准的 「裁判」 是自主进化的基石。我们发现,现有的开源大视觉语言模型在评判智能体长序列操作时能力不足,当输入过多的历史截图时,其判断准确率甚至会下降 。为了解决这一核心问题,我们着手构建了一个更强大的评判模型 ——

世界状态模型 (World State Model)

我们的优化策略主要有两点:

经过优化,我们的世界状态模型在性能上大幅缩小了与 GPT-4o 等商业模型的差距,为 SEAgent 框架提供了可靠、稳定的评判能力 。

图 4:算法流程伪代码

「专才 - 通才」 融合:超越个体极限的训练策略

在单个智能体的进化之上,我们探索了如何构建一个能操作多种软件的 「通才」 模型。我们发现,直接在多软件环境中训练一个 「通才」,效果并不理想,其性能甚至不如在单一软件上训练的 「专才」 模型 。

为此,我们提出了一套高效的 「专才到通才」(Specialist-to-Generalist)融合策略。该策略分为三步:

图 5:主要实验结果与多轮训练提升

实验结果证明,这一策略取得了巨大的成功。最终得到的 「通才」 智能体,其综合成功率达到了 34.5%,不仅远超直接训练的通才模型(30.6%),甚至超越了所有 「专才」 模型的性能总和(32.2%),展示了 「先专后通,融合进化」 的强大潜力。

系统赋能与实证

严谨的消融实验证明了这套算法设计的必要性。结果显示,高质量的 世界状态模型 是有效学习的前提;基于探索的 强化学习(GRPO) 显著优于单纯模仿;而能够从错误中学习的 对抗性模仿 机制则带来了关键的性能提升。

这套核心算法被置于一个更大的系统框架中,由 课程生成器 提供循序渐进的任务,并通过 「从专家到通才」 的策略,将多个单一软件的 「专家」能力融合成一个更强大的 「通才」 模型。最终,SEAgent 在 OSWorld 基准测试中取得了显著的性能飞跃,将基线模型的成功率大幅提升,充分验证了其算法框架的先进性与有效性。

本文第一作者是上海交通大学和上海人工智能实验室的联培博士生孙泽一,在 CVPR, ICCV, NeurIPS 上发表多篇论文,Google scholar citation 400 多次,目前的研究的兴趣是 GUI-Agent,多模态学习和强化学习。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SEAgent 自主进化 智能体 无需标注 强化学习
相关文章