ACL 2025 | MMUnlearner解耦视觉-文本知识，多模态大模型遗忘进入细粒度时代

PaperWeekly 06月03日 14:42

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文聚焦于多模态大模型（MLLM）的“遗忘”问题，旨在解决模型训练中潜藏的隐私和版权风险。由于重新训练MLLM成本高昂，机器遗忘（MU）成为有效方案。研究提出了MMUnlearner，一种针对MLLM的细粒度遗忘任务定义，并基于重要性约束下的选择性梯度上升策略。实验结果表明，MMUnlearner在遗忘视觉概念的同时，保留了通用视觉感知和文本生成能力，在多模态遗忘基准上表现优越。未来研究方向包括构建更强的benchmark、更精准的遗忘度量指标以及跨模态知识定位与剪辑机制。

👁️‍🗨️ 传统MLLM遗忘方案的局限性：现有方法通常仅针对VQA数据采用LLM遗忘损失，忽略了视觉模态中文本-图像关联的关键点。

💡 MMUnlearner的核心思想：提出细粒度的遗忘任务定义，包括视觉遗忘、通用感知和文本知识的保留，并采用基于重要性约束的选择性梯度上升策略。

📊 实验结果的优势：MMUnlearner在遗忘视觉概念的同时，保留了通用视觉感知和流畅的文本生成能力，在多个维度展现出优越的遗忘-保留权衡能力。

🚀 未来研究方向：包括构建更强benchmark、更精准的遗忘度量指标、跨模态知识定位与剪辑机制以及适配更多模态的遗忘任务。

让你更懂AI的 2025-06-03 13:46 北京

告别LLM阴影！

LLM Unlearning“阴影”下的多模态Unlearning

多模态大模型（MLLM）的兴起极大拓展了AI系统在视觉语言理解、生成等领域的能力。然而，这些模型训练过程中往往利用了大规模未经筛选的多模态数据，潜藏着严重的的隐私与版权风险。由于重新训练 MLLM 成本高昂且不可行，机器遗忘（Machine Unlearning, MU）成为解决该问题的有效方案。

MU 的目标是：在不重训的前提下，使模型有效忘记某些特定数据的影响，同时保留其余知识的完整性。尽管面向文本大模型的 MU 已有诸多进展，但直接套用其策略到 MLLM，无法充分考虑视觉模态的特殊性，因此成效有限。

同时，将纯文本的遗忘 loss 直接迁移到 VQA 数据，也使得 MLLM Unlearning 任务始终处于 LLM 遗忘算法的“阴影”下，不利于发展针对多模态模型的遗忘算法。

MLLM Unlearning：重新定义针对MLLM的多模态遗忘任务

论文标题：

MMUnlearner: Reformulating Multimodal Machine Unlearning in the Era of Multimodal Large Language Models

论文链接：

https://arxiv.org/abs/2502.11051

代码地址：

https://github.com/Z1zs/MMUnlearner

作者单位：

港科大（广州）、港科大、同济大学

传统的 MLLM Unlearning 方案通常仅针对 VQA 格式的数据采用 LLM 原有的遗忘损失函数，忽略了视觉模态中文本概念-图像特征关联这一关键点——即 MLLM 本质上是在视觉模式（如特朗普面部特征）与 LLM 原有文本知识（如特朗普百科知识）之间建立了关联。

为此，MMUnlearner 提出一种细粒度的针对 MLLM 的遗忘任务定义：

视觉遗忘：去除与特定实体相关的视觉图样（Visual Pattern）；

通用感知：保留通用及无关视觉概念的感知能力。

文本知识：保留 LLM 模块本身的文本知识，这部分知识并非从 Visual Instruction Tuning 中获得。

上述任务可以形式化定义为：

I. 视觉模态中的目标遗忘（Forgetting ）

模型应无法识别图像中与概念相关的内容，即：

其中是图像中关于的提问，为其正确答案。

II. 通用视觉感知能力的保留

模型应保留其关于的文本知识，即：

其中是关于的文本问题，为其正确答案。

III. 模型内部 LLM 知识的保留

模型应保留其关于的文本知识，即：

其中是关于的文本问题，为其正确答案。

MMUnlearner：基于重要性约束的选择性梯度上升方案

MMUnlearner 的核心是基于重要性约束下的选择性梯度上升（Geometry-Constrained Gradient Ascent）策略，其核心思想如下：

1. 选择性更新目标函数：

其中是一个基于参数重要性的掩码，表示逐元素乘法。

2. 重要性评估 - 基于梯度的重要性矩阵：

通过梯度的平方衡量每个参数在不同数据集（遗忘集与保留集）中的重要性。

3. 目标与保留数据集定义：

为实现精细的选择性更新，我们首先定义目标概念的遗忘数据集以及需被保留的参考数据集如下：

目标数据集（Forget Set）：

表示包含概念的图像、与其相关的视觉提问及其答案的组合。

保留数据集（Preserve Set）：

包括三部分：

1. 关于的文本问答对，用于保留 LLM 中的文本知识；

2. 无关概念的视觉问答对，用于保留非目标视觉感知；

3. 的文本问答对，用于保留其他文本知识。

4. 掩码生成：

表示当某参数对目标知识（遗忘集）更为敏感时才更新，从而最大程度保护非目标参数。

此策略确保仅更新与目标视觉概念强关联的参数，避免破坏模型对保留内容的记忆。

实验结果：传统方法的困境与MMUnlearner的优势

在 MLLMU-Bench 和 CLEAR 两个多模态遗忘基准上，MMUnlearner 在两类主流 MLLM（LLaVA-1.5-7B 与 Qwen2-VL-7B）上表现显著优越：

Forget VQA Accuracy 降低最多：遗忘视觉概念最彻底；

Retain QA / VQA 保留性强：较小的精度下降，证明其保留能力；

Forget QA 准确度保持高水平：有效保留了 LLM 模块中的文本知识；

事实上，将针对 LLM 的遗忘算法迁移到 VQA 数据上往往只能有效消除文本知识，对视觉模式的遗忘则效果平平。

示例对比：对于一张“建筑师”的照片，传统方法仍回答 “architect”，而 MMUnlearner 成功“遗忘”为 “marine biologist”。

更多案例：相比于基于 LLM 的遗忘算法，MMUnlearner 在遗忘目标视觉知识的同时，也保留了通用的视觉感知和流畅的文本生成能力。

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签