机器之心 2024年11月13日
首个多模态连续学习综述,港中文、清华、UIC联合发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文对多模态连续学习(MMCL)进行了全面概述,包括其结构化分类、基本背景知识、数据集和基准总结。MMCL旨在让AI系统能够从多模态数据中持续学习,同时避免灾难性遗忘。文章详细阐述了MMCL面临的挑战,如模态失衡、复杂模态交互、高计算成本和预训练零样本能力退化等,并介绍了四种主要解决方法:基于正则化、基于架构、基于重放和基于提示。此外,文章还总结了现有MMCL数据集和基准,并展望了未来研究方向,包括增加模态数量、改进模态交互策略、参数高效微调、维护预训练知识等,旨在推动MMCL领域的发展,最终实现通用人工智能的目标。

🤔**挑战1:模态失衡**:多模态数据中不同模态的数据可用性可能存在差异,导致学习过程不平衡,例如某些模态数据缺乏或参数学习速度不一致。

🤝**挑战2:复杂模态交互**:多模态数据之间的交互给MMCL带来了挑战,包括模态对齐(特征分散)和模态融合(不同融合技术效果不同)。

💰**挑战3:高计算成本**:增加模态会增加模型参数和计算量,尤其是在持续微调大型预训练模型时。

📉**挑战4:预训练零样本能力退化**:在连续学习过程中,预训练模型的零样本能力可能会下降,导致未来任务性能下降。

💡**MMCL方法分类**:文章将MMCL方法分为四类:基于正则化、基于架构、基于重放和基于提示,每种方法都有其优缺点和适用场景。

2024-11-13 13:24 北京

本文全面阐述了多模态连续学习方法的结构化分类、基本背景知识、数据集和基准总结。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文作者来自于港中文、清华和UIC。主要作者包括:余甸之,港中文博士生;张欣妮,港中文博士生;陈焱凯,港中文博士;刘瑷玮,清华大学博士生;张逸飞,港中文博士;Philip S. Yu,UIC教授;Irwin King,港中文教授。




多模态连续学习的最新进展


连续学习(CL)旨在增强机器学习模型的能力,使其能够不断从新数据中学习,而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘:当任务按顺序训练时,新的任务训练会严重干扰之前学习的任务的性能,因为不受约束的微调会使参数远离旧任务的最优状态。尽管连续学习取得了重大进展,但大多数工作都集中在单一数据模态上,如视觉,语言,图,或音频等。这种单模态的关注忽略了现实世界环境的多模态本质,因为现实世界环境本身就很复杂,由不同的数据模态而不是单一模态组成。


随着多模态数据的快速增长,发展能够从多模态来源中连续学习的 AI 系统势在必行,因此出现了多模态连续学习(MMCL)。这些 MMCL 系统需要有效地集成和处理各种多模态数据流,同时还要在连续学习中设法保留以前获得的知识。



尽管传统的单模态 CL 与多模态 CL 之间存在联系,但多模态 CL 所面临的挑战并不仅仅是简单地将 CL 方法用于多模态数据。这种直接的尝试已被证明会产生次优性能。具体而言,如图所示,除了现有的 CL 灾难性遗忘这一挑战外,MMCL 的多模态性质还带来了以下四个挑战。




MMCL 算法汇总



为了应对上述挑战,研究人员越来越关注 MMCL 方法。作者将 MMCL 方法分为四类主要方法,即基于正则化、基于架构、基于重放和基于提示的方法。



这些方法主要集中用于视觉和语言模态,同时也有其他方法关注图、音频等其他模态。下图中展示了 MMCL 方法的代表性架构。



以下两张表总结了 MMCL 方法的详细属性。




数据集和基准


大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的,研究人员通常会利用多个数据集或将单个数据集划分为多个子集,以模拟 MMCL 环境中的任务。此外,也存在一些专门用于 MMCL 的数据集,例如 P9D 和 UESTC-MMEA-CL。下表总结了涵盖各种连续学习场景、模态和任务类型的 MMCL 基准。



未来方向


多模态连续学习已成为一个活跃且前景广阔的研究主题。以下是几个未来进一步探索和研究的方向。



总结


本文呈现了一份最新的多模态连续学习(MMCL)综述,提供了 MMCL 方法的结构化分类、基本背景知识、数据集和基准的总结。作者将现有的 MMCL 工作分为四类,即基于正则化、基于架构、基于重放和基于提示的方法,还为所有类别提供了代表性的架构示意图。此外,本文讨论了在这一快速发展的领域中有前景的未来研究方向。希望 MMCL 的发展进一步增强模型使其展现出更多人类的能力。这种增强包括在输入层面处理多模态的能力以及在任务层面获取多样化技能,从而使人们更接近于在这个多模态和动态世界中实现通用智能的目标。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com



跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态连续学习 MMCL 连续学习 灾难性遗忘 人工智能
相关文章