机器之心 2024年11月04日
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种名为模态融合率(MIR)的评估指标,用于有效评估多模态大模型(MLLM)的预训练质量。研究发现,传统的损失函数、困惑度和上下文评估等指标并不适用于多模态预训练的评估,而MIR能够准确反映预训练配置对模型性能的影响,无需进行有监督微调(SFT)和下游测试。研究者通过实验验证了MIR在扩大预训练数据规模、超参数调整和预训练策略选择上的有效性,并提出了一个可学习的模态校准模块MoCa,以促进跨模态对齐。MIR的提出为多模态大模型的预训练提供了更可靠的评估手段,有助于提升模型性能和效率。

🤔**多模态大模型预训练评估的挑战:**传统评估指标如损失函数、困惑度和上下文评估等,在多模态预训练中并不稳定和可靠,无法准确反映预训练质量。这是因为多模态预训练的目标是缩小不同模态之间的差距,而传统指标主要关注语言建模。例如,在LLaVA-v1.5模型的预训练过程中,这些指标与下游任务性能之间缺乏明显的对应关系,无法有效指导预训练过程。 此外,传统的评估方法通常需要进行有监督微调(SFT)并在下游测试基准上进行评估,这会带来巨大的计算成本和复杂性。因此,研究者们迫切需要一种更有效、更便捷的评估指标来衡量多模态预训练的质量。

💡**模态融合率(MIR)的提出:**为了解决上述问题,研究者们提出了模态融合率(MIR)这一新的评估指标。MIR能够准确反映各种预训练配置(如数据、策略、训练配方和架构选择)对模型性能的影响,而无需再进行有监督微调SFT并于下游测试基准上评估。它通过计算多模态大模型在不同层中视觉和文本特征之间的距离来衡量模态对齐程度。具体来说,MIR的计算过程包括文本中心归一化、离群值筛除和模态间距离计算等步骤。 MIR的数值越低,表示模态对齐程度越高,预训练质量越好。通过MIR,研究者可以快速评估不同预训练配置的效果,并选择最优的配置,从而提高模型性能。

🚀**MIR的有效性验证:**研究者们通过一系列实验验证了MIR的有效性。例如,在扩大预训练数据规模时,MIR能够准确地反映预训练质量的变化,并指导选择合适的预训练策略。在超参数调整和预训练策略选择方面,MIR也展现出了良好的效果,能够帮助研究者选择最优的超参数和策略。 此外,研究者们还提出了一个可学习的模态校准模块MoCa,它可以进一步促进跨模态对齐,降低MIR,并提升下游任务的性能。MoCa是一个轻量级的模块,可以很容易地集成到现有的多模态大模型中。

🔄**可学习模态校准(MoCa):**研究者们观察到,在多模态大模型的训练过程中,底座大模型会逐渐缩小不同模态之间的差距。这启发了他们思考,是否有一些继承自大型语言模型的设计不利于跨模态对齐。因此,他们提出了MoCa,一个可插拔轻量级的可学习模块,用于促进跨模态对齐。 MoCa通过对每一层的视觉token特征进行可学习的缩放和偏移,来调整视觉特征的分布,使其与文本特征更加匹配。MoCa的引入可以有效地提升模型的跨模态对齐能力,降低MIR,并提高模型在下游任务上的性能。

📊**实验结果与未来方向:**研究者们通过实验验证了MIR和MoCa的有效性,并展示了MIR在指导多模态大模型预训练过程中的作用。例如,MIR可以指导选择合适的预训练数据规模、超参数和策略,以及设计更有效的视觉语言投影模块。 未来,研究者们可以进一步探索MIR在其他多模态任务中的应用,例如图像生成、视频理解和跨语言理解等。此外,还可以研究如何进一步提高MoCa的效率和效果,以及如何将MIR与其他评估指标结合起来,构建更加完善的多模态大模型评估体系。

2024-11-04 12:32 北京

是否还在苦恼如何评估自己预训练好的多模态 LLM 的性能?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文作者来自于中国科学技术大学,上海人工智能实验室以及香港中文大学。其中第一作者黄启栋为中国科学技术大学三年级博士生,主要研究方向包括多模态大模型(MLLM)和可信 / 高效 AI,师从张卫明教授。


是否还在苦恼如何评估自己预训练好的多模态 LLM 的性能?是否还在使用并不靠谱的损失 Loss,困惑度 Perplexity(PPL),上下文 In-Context 评估,亦或是一遍遍地通过有监督微调(SFT)之后下游测试基准的分数来判断自己的预训练是否有效?


来自中科大等单位的研究团队共同提出了用来有效评估多模态大模型预训练质量的评估指标 Modality Integration Rate(MIR),能够快速准确地评估多模态预训练的模态对齐程度。




研究背景


预训练(Pre-training)是现有多模态大模型(MLLM)在训练过程中一个不可或缺的阶段。不同于大型语言模型(LLM)的预训练,多模态预训练的主要目标聚焦于不同模态之间的对齐。随着近两年的发展,多模态预训练已经从轻量级图像 - 文本对的对齐,发展为基于广泛多样的多模态数据进行深层次模态集成,旨在构建更通用的多模态大模型。


然而,多模态预训练的评估对于业界仍然是一个未被充分解决的挑战。现有最常用的评估手段为通过进一步的有监督微调(SFT)来测试在下游基准上的模型能力,但是其伴随的计算成本和复杂性不容忽视。另外有一些方法通过借用 LLM 的预训练评估指标,包括损失值 Loss、困惑度 PPL 和上下文 In-Context 评估等方式,在多模态预训练评估中都被证明是不稳定和不可靠的。


研究者们通过在不同规模的高质量预训练数据上预训练 LLaVA-v1.5 的 7B 模型,用上述不同的方法评估其预训练质量,并与有监督微调之后在下游测试基准上的得分进行对照。如下图所示,损失值 Loss、困惑度 PPL、以及上下文 In-Context 评估都无法准确的对应 SFT 之后在下游测试基准上的模型性能,而本文提出的模态融合率 MIR 则能完美对应。



实际上,PPL 等指标的不适用主要由于 LLM 与 MLLM 在预训练目标上的差异。LLM 预训练主要学习建模语言的基本模式,而 MLLM 预训练则侧重于缩小不同模态之间的差距。如果用多个不同来源的图像和文本数据,并在 LLaVA-v1.5 的大模型输入层去可视化它们的特征分布,会发现尽管图像或文本内容多样,但在每种模态内,它们的分布相对均匀,而模态之间则存在明显的分布差距,如下图(左)所示。



如上图(右)所示,通过进一步计算现有 MLLM 的在大模型不同层中的模态差距,会观察到浅层的时候仍然有较大差距,但当到越来越深的层,这一差距逐渐缩小,这表明 MLLM 在训练过程中仍需要学习对齐不同分布,以理解新引入的模态。


技术方案


本文提出模态融合率 MIR,能够用于评估多模态预训练的跨模态对齐质量。该指标能准确反映各种预训练配置(如数据、策略、训练配方和架构选择)对模型性能的影响,而无需再进行有监督微调 SFT 并于下游测试基准上评估。


对于一个预训练的多模态大模型 M = (E, P, D),其中 E 表示视觉编码器,P 表示视觉语言映射模块,D = (D_t, F) 表示包含分词器 D_t 和 K 层 transformer 的底座大模型 F。当输入一组 “图像 - 文本” 对 {v_n, t_n}, n = 1,..., N 给模型,会从大模型第 k 层 F_k 得到该层关于数据对 {v_n, t_n} 的视觉 token 特征 f_k^{v_n} 和文本 token 特征 f_k^{t_n},即



研究者们将多个样本的特征 f_k^{v_n} 合并到一起得到 f_k^v,同理 f_k^{t_n} 可以合并得到 f_k^t,并且定义 f_{k, i}^v 为第 i 个视觉 token 特征,f_{k, j}^t 为第 j 个语言 token 特征。


文本中心归一化


由于越深层的 token 特征在数值绝对尺度上明显比浅层的大,并且不同模态特征间在绝对尺度上存在差异,直接使用 Frechet 距离等度量函数、或是把所有 token 特征统一归一化后再使用度量函数都是不合适的。为此,研究者们设计了一种文本中心的归一化方法,对于 f_k^t 中的总共 s 个文本 token 特征,计算尺度因子:



然后对第 k 层对应的视觉特征和文本特征都使用该因子进行放缩,在保证跨层对比合理性的同时,保持模态间绝对尺度带来的差异。


离群值筛除


许多工作如 StreamLLM [1]、Massive Activations [2] 都提到,有极少部分绝对数值异常大的 token 会用来在注意力模块的 SoftMax 计算中使总和填充到 1。为了避免此类离群值对整体统计分布的影响,这里使用 “3-sigma” 的准则对于所有 f_k^v 和 f_k^t 中的离群值进行筛除。以下用 omega 表示这个操作。


模态融合率


在经过文本中心归一化以及离群 token 筛除之后,模态融合率 MIR 可以通过累和大模型逐层的模态域间距离来得到:



其中,mu_{v, k} 和 mu_{t, k} 分别是处理后视觉 token 特征和文本 token 特征的均值,而



对应于各自的协方差计算。最后的平方根项通常在 PyTorch 中计算缓慢,这是由于大模型的特征维度普遍较高。因此研究者们使用 Newton-Schulz 迭代近似的方式估计该项,在大大提高计算速度的同时,保证实践中误差不超过 1%。总体上来看,越低的 MIR 代表着越高的预训练模态对齐质量。


可学习模态校准


在对 MIR 的探究推导过程中,证明了底座大模型在训练过程中展现出的在浅层逐渐缩小模态间差距的倾向。这促使研究者们重新思考多模态大模型中一些继承自大型语言模型的设计是否不利于促进跨模态对齐。为此,研究者们提出了 MoCa,一个可插拔轻量级的可学习模块,来促进跨模态对齐。简单来说,即对于每一层的视觉 token 特征单独进行一个可学习的缩放和偏移:



其中缩放向量 u 初始化为全一向量,偏移向量 v 初始化为全 0 向量,两者随着模型一起训练,但是基本不增加额外参数量。


实验探究


研究者们首先展示了 MIR 在在扩大预训练数据规模时衡量预训练质量的有效性。这里采用两种预训练策略:1) 仅训练 MLP 投影模块;2) 解锁视觉编码器后半部分和整个 LLM。在第一种策略下,SFT 后的性能在 800K∼1M 数据规模时逐渐改善但趋于饱和。而在使用第二种策略时,即使在 1.8M 数据规模下,性能仍持续显著提升。该结果说明了了 MIR 在扩大预训练数据时的有效性,也说明了适当地放开视觉编码器或 LLM 在大规模数据上有持续改善预训练的效果。



研究者们也探究了 MIR 在超参数调整、预训练策略选择上的有效性。在超参数调整方面,研究者们发现 MIR 与 SFT 后下游测试基准性能之间存在正相关,这说明 MIR 直接反映不同训练超参数对于在预训练质量的影响,以后对照 MIR 就可以实现预训练调参炼丹!



在训练策略方面,研究者们探讨了 MIR 如何指导选择有效的预训练放开策略。结果显示,放开 LLM 显著降低了 MIR,且显著增强下游基准上的表现。



同时,MIR 也可以帮助选择一些有利于跨模态对齐的模块设计。如下图所示,当使用不同的视觉语言投影模块结构时,MIR 可以很准确的对应到 SFT 之后的测试基准性能。


同样,所提出的可学习模态校准 MoCa 也可以有效帮助不同模型在下游测试基准上涨点,并取得更低的 MIR。



本文仍有较多其他方面的实验和探索,有兴趣的同学可以参考原文!


参考文献:

[1] Xiao et al. Efficient Streaming Language Models with Attention Sinks. ICLR, 2024. 

[2] Sun et al. Massive Activations in Large Language Models. COLM, 2024.


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态大模型 预训练 模态融合率 跨模态对齐 MLLM
相关文章