新智元报道
新智元报道
概念控制术如何定位AI的认知模块?研究团队实现概念的定位和权重调整主要依赖于两大关键技术。SAMD的灵感来自一个简单而深刻的洞察:Transformer中的每个概念,都对应着一组特定的注意力头组合。这是一种无需预设标签的通用方法,能将任意概念(例如「狗」或者「法语」)编码成向量,并通过与每个注意力头计算余弦相似度,找到高度相关的top-K模块。
给AI「调参」精确控制模型行为
另外一个是SAMI(Scalar Attention Module Intervention)。这是团队提出的大模型「概念控制术」的核心。SAMI方法简洁而高效,仅通过一个标量参数,就能放大或减弱特定概念的影响,无需修改模型权重或重新训练。只需对上一步SAMD中定位到的这些注意力头的输出加一个系数(如×0.1或×10),即可放大或抹除某一概念在模型输出中的作用。
让大模型忘记指定概念的「失忆手术」流程可拆解为三步。首先,研究者使用Supervised Autoencoder(SAE)对模型的中间层特征空间进行编码,提取出某一语义概念的向量表示。这个过程可以理解为,给出一个概念,用一组神经特征刻画它。接着,SAMD(Scalable Attention Module Discovery)方法将概念向量与每一个注意力头输出进行余弦相似度计算,找出最相关的top-K模块。这一过程的目的是在模型中「定位知识的存储位置」。例如,下图中「French」概念对应的是第15-26层的5个 attention head。最后,SAMI(Scalar Attention Module Intervention)直接对上述模块的输出进行干预。只需乘以一个缩放因子(如×0.1或×10),即可有效「抹除」或「放大」该概念的表达。这一干预效果立竿见影,除了忘记「狗会叫」外,还能让模型在「忘记San Francisco」后胡乱生成与地理无关的城市名。通过这三步,研究者验证了概念模块的存在性和AI可控记忆的可行性。更颠覆的是,团队发现:一个复杂概念,往往只由3-10个注意力头承载。这个发现把Transformer的可解释性推向了新的高度:大模型的知识存储高度稀疏、具备极强的可干预性。可以用类似「调音台」的方式,精确控制每一个语义模块的「响度」。
实验结果
研究团队在四种典型场景中验证了方法的有效性,覆盖从简单概念到复杂能力,从语言模型到视觉模型。稀疏自编码器(SAE)特征
利用SAE提取的可解释特征,研究人员测试了「狗」「旧金山」等四个概念。通过SAMD定位的模块在干预后表现出一致规律:负干预(s=-1)会显著减少概念出现频率,甚至导致模型错误识别(如将「会汪汪叫的动物」回答为「蜂鸟」);正干预(s=10⁴)则会引发概念重复,如 「旧金山」模块被放大后,模型会连续四次重复「旧金山以金门大桥闻名」。如此灵活的「调音效果」令人惊喜,但也让人「细思恐极」。这给个性化微调大模型、提高模型特定维度能力打开了全新的思路。增强数学推理能力
在GSM8K数学推理数据集上,研究人员通过SAMD定位了LLAMA-3.1-8B-INSTRUCT和GEMMA-7B-BASE的推理模块。当用s=1.4和s=1.2进行正干预后,前者准确率从84.61%提升至85.44%,后者从54.36%提升至56.71%。
通过对比有害和无害提示数据集,研究团队在Llama-2-Chat-7B等对齐模型中定位了「安全模块」。该模块主要分布在模型的中间层(11-18层),包含10个关键注意力头。当对安全模块施加负干预时,模型的越狱率显著提升。在HarmBench基准测试中,Llama-2的攻击成功率飙升至71.1%,超过了GCG(34.5%)等现有攻击方法。
ViT-B/32视觉模型上的实验进一步证明了方法的跨模态能力。研究人员成功定位了200 个ImageNet 类别的识别模块,每个模块仅由3个注意力头组成。当调整「打火机」类别的模块参数时,模型对该类别的识别错误率飙升至100%,而对其他类别的平均错误率仅上升约15%。这意味着未来可能实现精准失能,例如让自动驾驶系统暂时忽略特定干扰物,同时保持对其他物体的识别能力。未来,AI或许不再是一个神秘的黑箱,而是由无数可理解、可调控的模块组成的智能系统。
文章原文