量子位 18小时前
网页智能体新突破!引入协同进化世界模型,腾讯AI Lab提出新框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯AI Lab的WebEvolver框架通过引入协同进化的世界模型,显著提升了网页智能体的性能,突破了基于大语言模型的智能体自我迭代瓶颈。该框架利用世界模型模拟网页交互,生成多样化的训练轨迹,并作为“想象引擎”进行推理,从而在真实网页环境中实现10%的性能提升。实验表明,世界模型具备知识迁移和多样化轨迹生成能力,即使存在轻微“幻觉”,也能有效提升Agent的训练效果,为构建持续进化的通用网络智能体提供了新范式。

🧠 WebEvolver框架的核心在于协同进化的世界模型。该模型扮演着“虚拟服务器”和“想象引擎”的双重角色,通过生成多样化的合成训练轨迹和多步前瞻推演,增强智能体在网页环境中的探索能力。

💡 世界模型具有知识迁移能力,即使未专门训练过特定操作,也能准确生成相关结果,这表明LLM内建的网页结构常识知识具有可迁移性。

🌐 WebEvolver框架采用协同自演进的学习方式,包括基础架构、数据集、框架支持、基座模型等关键组件,通过多轮自演进,在WebVoyager和Mind2web-live数据集上取得了显著的性能提升。

📊 团队对世界模型的网页建模能力进行了评估,评估标准包括结构正确性、内容相似度和整体功能评估,验证了世界模型对网页状态变化的预测能力,为模型优化提供了量化依据。

关注前沿科技 2025-06-16 12:50 北京

世界模型扮演虚拟服务器+​​想象引擎

腾讯AI Lab 投稿量子位 | 公众号 QbitAI

让网页智能体自演进突破性能天花板!

腾讯AI Lab提出WebEvolver框架,通过引入进化的世界模(World Model),让智能体在真实网页环境中实现10%的性能提升

由此突破现有基于大语言模型(LLM的网页智能体“自我迭代演进的性能最终会停滞”的瓶颈。

下面的案例展示了世界模型在GitHub搜索界面中的合成轨迹生成能力:

研究指出,世界模型具有知识迁移能力,尽管世界模型未专门训练过GitHub中“点击排序菜单”这类操作,却能准确生成GitHub搜索的排序选项(如“最佳匹配”、“最多星标”等),这表明LLM内建的网页结构常识知识具有可迁移性。

另外研究还指出世界模型具有多样化轨迹生成能力,世界模型生成的菜单项与真实网站高度吻合,证明其能有效提升与未见过网站的交互多样性,这种能力源于LLM预训练阶段吸收的海量网页知识。

团队认为,该发现验证了世界模型作为“虚拟网页引擎”的核心价值——即使存在轻微幻觉,其生成的多样化轨迹仍能显著提升Agent的训练效果。

以下是论文详情。

引入协同进化的世界模型

最近,世界模型迎来了一波热潮:Yann Lecun推出了全新的世界模型V-JEPA 2,谷歌也发布了理论成果,证明General agents need world models,这些进展都凸显了世界模型在智能体发展中的重要性。

论文指出,当前智能体自我迭代的瓶颈源于两大核心问题:

就像人类需要想象力来规划行动,智能体也可以使用一个’大脑模拟器’来预演不同操作的结果。

研究团队创新性地引入了协同进化的世界模型LLM。

在网页Agent场景中,世界模型被定义为这样一种LLM:

其输入为(当前网页观测、待执行的操作),输出则是执行该操作后的网页观测。

尽管在此过程中可能会出现“幻觉”问题,例如LLM无法输出实时信息,或其内部存储的网页知识可能存在错误,但这并不影响整体框架的有效性。因为本文的核心目标是让智能体在多样化的网站环境中进行稳健推理,而非要求世界模型完美预测下一页面。

(注:未来研究可聚焦于细粒度的下一页面预测,具体可通过在生成过程中对实时信息进行占位符掩码处理,等待外部工具填充真实数据来实现。)

这个世界模型扮演着双重角色:

1、虚拟服:生成多样化的合成训练轨迹

通过世界模型模拟与未见网页的交互。具体操作为,将原本网页智能体系统中的网页服务器直接替换为世界模型LLM来进行交互、采集生成的轨迹,作为额外的训练数据(图2上半部分)

2、想象引擎:推理时多步前瞻推演

使用类似WebDreamer的基于LLM对未来预测进行action筛选的方法,在每一步action生成时生成多个候选,利用世界模型来对每个action未来1~3步的结果进行预测。使用GPT-4o对候选动作评估潜在收益后执行最佳操作(图2下半部分)

协同自演进实验技术方案详解

本研究构建了一个完整的自演进学习框架,其核心组件包括:

基础架构

数据采集流程

双模型协同训练机制

技术突破点

重复多轮(3轮)自演进之后,在WebVoyager和Mind2web-live数据集上进行测试,自演进结果:

结果:

在GAIA和SimpleQA (前100条数据,和bing.com进行交互搜索) 这两个有标准答案的数据上进行out-of-domain测试,也能显著提升结果。

团队对世界模型的网页建模能力也进行了一些评估,在测试的轨迹里采样了一些轨迹,让世界模型根据上一步观测和执行的action预测下一步的观测。

评估标准为:

评估重点特别关注交互元素(按钮/输入框等)的功能完整性、动态内容(如搜索结果)的逻辑合理性、网页核心功能的可操作性。

该评估体系有效验证了世界模型对网页状态变化的预测能力,为模型优化提供了量化依据。发现世界模型的能力随着自演进的步骤提升而上升。

总之,WebEvolver框架通过世界模型与智能体的协同进化,成功突破传统自演进智能体的性能天花板。该技术为构建持续进化的通用网络智能体提供了新范式,为后续无环境RL的实现提供引导。

论文网址:https://arxiv.org/pdf/2504.21024

GitHub:https://github.com/Tencent/SelfEvolvingAgent/tree/main/WebEvolver

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

WebEvolver 世界模型 网页智能体 腾讯AI
相关文章