机器之心 07月31日 14:22
把指纹焊死在频率上:抗微调神经网络指纹的硬核方案来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期一项研究提出了一种创新的神经网络指纹技术,旨在为大模型提供“抹不掉”的身份标识,以应对日益严峻的模型抄袭和纠纷问题。与传统方法依赖“贴标签”不同,该技术深入挖掘神经网络内部的固有特征。研究发现,卷积核的特定频率成分对模型微调具有天然的鲁棒性。通过拓展离散傅里叶变换,论文找到了这些“焊死”在频谱上的特征点,并证明在特定输入条件下,这些频率成分在微调过程中能保持稳定,从而成为可靠的神经网络指纹。实验结果表明,该方法在模型溯源任务上表现优异,尤其在高学习率的微调下优势更为显著,为保护模型所有权提供了理论和实践上的有力支持。

💡 创新指纹技术:研究提出了一种新的神经网络指纹技术,旨在为模型提供不可磨灭的身份标识,以解决模型抄袭问题。该技术不同于传统方法,而是从神经网络内部的固有特征入手,寻求对微调操作具有鲁棒性的标识。

🔬 理论基础:研究的核心在于发现神经网络卷积核的某些频率成分对微调具有天然的稳定性。通过拓展离散傅里叶变换,研究人员将模型参数转换到频率域,识别出这些“焊死”在频谱上的特征点,并证明了其在微调过程中的稳定性。

🚀 实验验证:通过一系列实验,该神经网络指纹方法在模型溯源任务上取得了最优表现。尤其是在高学习率的微调条件下,该方法展现出显著的优势,证明了其在实际应用中的有效性和鲁棒性。

🌐 解决痛点:这项技术有望解决当前大模型领域普遍存在的抄袭和所有权纠纷问题。通过为模型“刻上”独一无二的数字DNA,可以更有效地追踪模型来源,保护知识产权。

📈 技术优势:相较于现有主流的模型指纹和溯源方法,该技术在对微调的鲁棒性方面表现突出,为模型安全和版权保护提供了更可靠的解决方案。


论文第一作者唐灵,张拳石老师课题组的博二学生。


今天要聊的是个硬核技术 —— 如何给神经网络刻上抹不掉的 "身份证"。现在大模型抄袭纠纷不断,这事儿特别应景。


所谓神经网络指纹技术,是指使用神经网络内部如同人类指纹一样的特异性信息作为身份标识,用于判断模型的所有权和来源。传统方法都在玩 "贴标签":往模型里塞各种人造指纹。但问题是,模型微调(fine-tuning)就像给整容 —— 参数一动,"整张脸" 就变了,指纹自然就糊了。


面对神经网络微调训练的威胁,现有方案都在修修补补,而我们上升到理论层面重新思考:神经网络是否先天存在某种对微调鲁棒的特征?如果存在,并将该固有特征作为网络指纹,那么无论对模型参数如何微调,该指纹就能始终保持不变。在这一视角下,前人的探索较为有限,没有从理论上证明出神经网络内部对微调天然鲁棒的特征。



论文地址:https://arxiv.org/pdf/2505.01007

论文标题:Towards the Resistance of Neural Network Watermarking to Fine-tuning


方法介绍


这里我们发现了一个颠覆性事实:卷积核的某些频率成分根本不怕微调。就像给声波做 DNA 检测,我们把模型参数转换到频率域,找到了那些 "焊死" 在频谱上的特征点 —— 我们拓展了离散傅里叶变换,从而定义了神经网络一个卷积核所对应的频谱,并进一步证明:当输入特征仅包含低频成分时,卷积核的某些特定频率成分在微调过程中能够保持稳定。


理论框架。我们证明,通过对卷积核 W 进行拓展后的离散傅里叶变换 (不是传统的傅里叶变换)所获得的特定频率成分 ,在训练过程中保持稳定。因此,我们使用这些特定的频率成分作为对于微调鲁棒的神经网络指纹。


首先,我们发现神经网络时域上的前向传播过程可以写为频域当中的向量乘法。具体而言,给定一个卷积核 W 和偏置项 b,以及对应的输入特征 X,我们通过对卷积核进行扩展的离散傅里叶变换得到频率成分 ,同时对输入特征进行离散傅里叶变换得到频域成分 ,其中不同的  代表不同的频率点。可以证明,空间域中的卷积操作  严格等价于在频率域中各频率成分之间的向量点积 。



在此基础上,我们进一步证明了当输入特征 X 仅包含基频成分时(除了基频成分 外,其他频率成分  取值为 0),并且频率坐标取值连续的理想情况下,卷积核频谱中特定频率 上频率成分  在微调过程中能够严格保持不变。其中,M 和 N 为特征图长和宽,K 为卷积核大小。



然后,我们将上述理论推广到实际场景中,这时输入特征 X 通常包含低频成分,且频率坐标必须为整数。在这样的条件下,前述特定频率坐标取整后的频率位置处的卷积核频率成分 在微调过程中变化极小,近似为零,从而表现出较高的稳定性。



(a) 图中展示了卷积核 W 单个通道的频谱特征,(b) 图展示了卷积核频谱中特定频率坐标上的频率成分 在微调过程中表现出良好的稳定性。


因此,我们使用这些特定频率成分  作为具备理论保障的对于微调鲁棒的神经网络指纹。


实验


最后,我们开展了一系列实验,以评估所提出神经网络指纹方法对微调操作的鲁棒性。实验结果表明,相较于现有主流的模型指纹与模型溯源方法,在所有数据集和微调使用的学习率设置下,我们的方法在模型溯源任务中均取得了最优表现,尤其在高学习率条件下展现出显著优势。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

神经网络指纹 模型溯源 AI安全 微调鲁棒性 卷积核频率
相关文章