MIT 科技评论 - 本周热榜 2024年07月22日
南洋理工团队打造任务数据集和测试基准,提高网页智能体的任务完成能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

南洋理工大学实习生张子牛和团队针对现有网页智能体能力不足的问题,打造了一个多跳多模态任务数据集并进行基准测试,旨在提高智能体在网页上的操作能力。他们发现智能体在处理多跳任务时存在记忆缺陷,并提出了一种记忆模块来改善这个问题。这项研究成果将为网页智能体的研究提供新的测试基准,并推动其进一步发展。

🎯 **多跳多模态任务数据集的打造**:为了更贴近真实用户在网页上的操作,该团队创建了一个包含多跳多模态任务的数据集。该数据集要求智能体处理网页上的文字和图片信息,并通过在不同网页上的操作完成任务,例如旅行规划。

🧠 **智能体记忆缺陷的解决**: 该团队发现智能体在处理多跳任务时存在记忆缺陷,这会严重影响任务的准确率。他们针对这个问题提出了一种记忆模块,通过增强智能体的记忆能力来提高其在多跳任务中的表现。

📊 **新型评价方式的提出**: 针对多跳任务的特点,该团队提出了一种新的评价方式,以更好地评估智能体在多跳任务中的表现。

🚀 **未来研究方向**: 该团队正在探索将整个网页截图作为输入提供给智能体,以进一步提高其理解和操作网页的能力。

近日,通过使用GPT-4v、Gemini-pro等大模型,南洋理工大学实习生张子牛和所在团队发现,目前网页智能体的能力还非常欠缺,尤其是在完成多个子任务混合的任务时。

为了提高智能体在网页上的操作能力,该课题组打造了一个任务数据集并进行基准测试。

在这个数据集的帮助之下,智能体需要处理多模态的网页信息,并通过在不同网页上的操作完成任务,从而更加贴近真实情况之下人们在网页上的操作。

同时,该团队发现智能体存在较大的记忆缺陷,严重影响了多跳问题的准确率,针对此他们提出一种记忆模块,借此改善了上述问题。

总的来说,本次成果将能改进智能体的任务完成能力并为后续工作提供测试基准。

据介绍,本次成果是一系列工作中的其中一个。最初,针对美国卡内基梅隆大学团队打造的单跳单模态测试基准Webarena,张子牛,田淑琳,陈亮宇等人对其进行了复现。

后来,通过仔细分析Webarena的任务能力、以及智能体完成任务的情况,他们发现还有很多值得继续挖掘的内容。

比如,为什么任务不够贴近现实情况?为什么智能体能力比较欠缺等?

通过阅读其他与网页智能体相关的论文。该团队考虑将任务从单模态扩展到多模态。

此前,当网页智能体在网页上处理信息的时候,通常不会只看文字。为此,他们尝试从一些包含图片的在线网站,比如从一些美术馆的官网中提取图片信息。

但是,由于自身的保护措施,很多网页都不能从其HTML文件中提取图片信息。

后来,他们转而从购物网站和维基百科中提取图片信息,并为网页智能体制作了一些多模态任务。

接着,该团队将任务拓展到多跳任务上,并决定以旅行任务为例来开展研究。随后,他们将智能体在数据集上进行测试。

在视觉信息的处理上,他们也使用了多种方法:比如直接将图片作为prompt提供给智能体,或者先将图片提供给多模态大模型进行处理、再把处理结果合并给智能体等。

期间,他们发现:此前使用的针对任务整体的评价方式,在对多跳任务中并不合适。于是,他们提出了一种针对于多跳任务的新型评价方式。

而在分析智能体的实验结果时,其发现智能体的记忆能力非常欠佳,于是提出了一个记忆增强模块,以用于提高智能体的能力,并针对此做了消融实验。

日前,相关论文以《MMInA:多跳多模态互联网代理基准测试》(MMInA: Benchmarking Multihop Multimodal Internet Agents)为题发在arXiv。

图 | 相关论文(来源:arXiv)

与此同时,该团队也正在关注网页智能体的最新进展。后续,课题组或打算将整个网页的截屏作为输入来提供给智能体。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

网页智能体 多跳多模态 基准测试 记忆模块
相关文章