量子位 04月21日
多模态大模型改造人脸防伪检测,厦大腾讯优图等研究入选CVPR 2025
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

该研究提出了一种创新的视觉语言伪造检测方法,通过构建高质量的文本生成流程,提升了模型的可解释性和泛化能力。研究团队开发了FFTG标注流程,结合伪造掩码指导和结构化提示策略,生成高精度的文本标注,解决了现有标注方法容易出现“幻觉”的问题。实验结果表明,该方法在多个数据集上表现优异,并提供了开源代码和数据集,方便社区复现和研究。

🎭研究的核心在于引入语言模态,增强人脸伪造检测模型的可解释性。通过让模型不仅能识别真假,还能说明“假在哪里”,从而提升模型的分析溯源能力和辅助下游任务的能力。

💡FFTG标注流程是该研究的关键。该流程分为原始标注生成和标注优化两个阶段,利用伪造掩码和结构化提示,生成高精度的文本标注,避免了现有标注方法中容易出现的“幻觉”问题。

🔄研究采用双路模型训练策略,分别针对CLIP架构和多模态大语言模型(MLLM)进行微调。针对CLIP架构,设计了三分支联合训练框架;针对MLLM,则采用更为直接的微调方法,并设计简洁有效的提示模板。

📊实验结果表明,FFTG标注方法在标注质量、跨数据集泛化能力和注意力可视化分析上均优于现有方法。模型能够更精确地关注真正的伪造区域,证明了该研究的有效性。

关注前沿科技 2025-04-21 21:23 北京

为方便复现,团队已经将标注流程和生成数据集开放

skjack 投稿
量子位 | 公众号 QbitAI

近年来,人脸合成技术在快速发展,相关检测任务也逐渐从“看得出来”向“说明白为什么”演进。除了判断一张脸是真还是假,更需要模型能“说出个所以然”。

在CVPR 2025的工作《Towards General Visual-Linguistic Face Forgery Detection》中,研究团队尝试从视觉+语言的多模态视角来改进伪造检测方法。

本文提出了一种简单有效的训练范式,并围绕数据标注问题,构建了一个高质量的文本生成流程。

为什么要引入语言模态?

在伪造检测任务中加入语言,有两个直接的好处:

因此,团队提出了如图所示的一个新的多模态训练框架:

图1:视觉语言伪造检测训练范式

该方法的关键在于:不再直接用图像做二分类判断,而是先为伪造图像生成文本描述,再通过这些图文对来联合微调多模态模型,比如CLIP或mLLM。这样训练后的模型不仅能判断伪造,还能在语言中“指出问题所在”。

但问题也随之而来——

数据从哪里来?

多模态任务的关键是高质量标注数据。而伪造检测任务相比于传统的图文匹配,难度在于:

目前社区主流的做法大概有两类:

但实验发现,两种方式都存在较明显的问题,尤其在高质量伪造图像中,容易出现“看花眼”的情况——模型或者标注人可能会误判没有问题的区域,产生所谓的“语言幻觉”。

如下图所示,仅嘴部被修改的伪造图,GPT和人工标注都错误地指出了鼻子区域:

图2:现有伪造文本标注容易出现幻觉

此外,真实图像该怎么标注?要不要也写一段文字描述?怎么写才不误导模型?这些问题都说明:需要一个系统化的、高可信度的标注流程

FFTG伪造文本生成流程

针对上述挑战,研究团队提出了FFTG(人脸伪造文本生成器),这是一种新颖的标注流程,通过结合伪造掩码指导和结构化提示策略,生成高精度的文本标注。

图3:FFTG标注流程

FFTG 标注流程主要分为两个核心阶段:原始标注生成 (Raw Annotation Generation) 和 标注优化 (Annotation Refinement)。

第一阶段:原始标注生成

在这一阶段,FFTG利用真实图像和对应的伪造图像,通过精确的计算分析生成高准确度的初始标注:

1、掩码生成 (Mask Generation):

2、伪造区域提取 (Forgery Region Extraction):

3、伪造类型判定 (Forgery Type Decision): 设计了五种典型的伪造类型判断标准:

4、自然语言描述转换:

此阶段生成的原始标注虽然结构相对固定,但准确度极高,为后续优化提供了可靠基础。

第二阶段:标注优化

为增加标注的多样性和自然流畅性,FFTG 使用多模态大语言模型(如 GPT-4o-mini)进行标注优化,同时设计了全面的提示策略防止幻觉:

1、视觉提示 (Visual Prompt):

2、指导提示 (Guide Prompt):

3、任务描述提示 (Task Description Prompt):

4、预定义提示 (Pre-defined Prompt):

下游微调:双路模型训练策略

有了高质量的图文标注数据,接下来的问题是:如何充分利用这些数据来训练模型?研究团队提出了两种不同的训练策略,分别针对CLIP架构和多模态大语言模型(MLLM),注意本文的目的主要是验证数据的有效性,所以才去了相对简单的微调方式:

CLIP三分支训练架构

对于CLIP这类经典的双塔结构模型,团队设计了一种三分支联合训练框架,如图4所示。

这种训练方法结合了单模态和多模态的学习目标:

1、图像特征分类(Image Feature Classification):直接使用图像编码器提取的特征进行真伪二分类,保证模型在纯视觉输入下的基本检测能力。

2、多模态特征对齐(Multimodal Feature Alignment):通过对比学习,使图像特征和对应的文本特征在表示空间中对齐,并且激活CLIP预训练时获得的跨模态理解能力。

3、多模态特征融合分类(Multimodal Feature Classification):通过注意力机制融合视觉和文本特征,引导模型学习跨模态的伪造证据整合能力

这三个分支的损失函数共同优化,使模型既能独立运行,又能充分利用文本信息来增强检测能力。

MLLM微调方法

对于如LLaVA这类多模态大语言模型,采用了一种更为直接的微调方法:

图4:MLLM微调架构

MLLM通常由三部分组成:视觉编码器、对齐投影器和大语言模型。策略是:

    固定预训练好的视觉编码器参数,专注于微调对齐投影器和大语言模型部分

    设计简洁有效的提示模板:”Do you think this image is of a real face or a fake one? Please provide your reasons.”

    这种双部分提示不仅引导模型做出二分判断,还要求提供可解释的理由。

实验:多维度验证FFTG的有效性

为了全面评估提出的方法,团队在多个伪造检测基准数据集上进行了广泛实验,包括FaceForensics++、DFDC-P、DFD、CelebDF等。

标注质量评估

首先,比较了不同标注方法的质量:

表1:不同标注方法的质量对比

结果表明,FFTG在所有指标上都显著优于现有方法。特别是在精度上,FFTG比人工标注高出27个百分点,比直接使用GPT-4o-mini高出28个百分点,证明了该研究的掩码引导和结构化提示策略能有效减少”幻觉”问题。

跨数据集泛化能力评估

在FF++数据集上训练模型,并在其他四个未见过的数据集上测试,评估方法的泛化能力:

表2:跨数据集泛化性能对比

在所有未见过的数据集上,该研究的方法都取得了性能提升。

可视化分析

团队对模型的注意力机制进行了可视化分析,进一步验证了FFTG的有效性:

图5:不同方法的注意力可视化对比

可以看到,使用FFTG标注训练的模型能够更精确地关注真正的伪造区域,而基线方法的注意力更为分散或错位。例如,在NeuralTextures的例子中,该方法准确聚焦在嘴部区域的微妙变化,而其他方法则在未被篡改的区域产生错误激活。

总结

语言模态让伪造检测任务不止停留在“看得见”,更能“讲得清”。

如果你也关注伪造检测的可解释性和泛化性,欢迎进一步了解。为了方便社区复现与研究,团队已经将标注流程和生成数据集开放:https://github.com/skJack/VLFFD

文章链接:
https://arxiv.org/pdf/2502.20698

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你



🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人脸伪造 多模态 FFTG 伪造检测
相关文章