报告主题:Llama see, llama do:大模型的上下文趋同与干扰信息的机制解析

报告日期:0813日(本周三)15:30-16:30

报告要点:
该论文获ACL 2025 Outstanding Paper Award

我们观察到一种新的现象。我们把它称为上下文趋同 (contextual entrainment),并从机制层面提出了语言模型为何会受到输入提示中“无关”干扰信息影响的新视角。具体来说,语言模型会显著提高对任何在上下文中曾出现过的token(即使是随机token)的logit(或概率)。这表明,上下文趋同是一种机制性现象,它的发生与这些token是否与问题或句子语义相关无关。与此同时,我们也发现上下文趋同的强度受语义因素调节,且具有统计显著性。例如,相较于真实信息,错误信息所引发的干扰效应更强。这表明虽然上下文趋同是机制性产生的,但其程度会受到语义层面因素的影响。

我们进一步提出,这一现象可能源于一组特定的注意力头,我们称之为趋同头。通过一种基于可微遮罩 (differentiable masking) 的方法,我们在不同设置中成功识别出这些注意力头。当我们“关闭”这些注意力头(即将其输出置为零)时,上下文趋同效应显著减弱,模型的输出趋于恢复到未受到干扰信息影响时的状态。我们希望我们发现的这种新的文趋同现象,还有我们对趋同头所引发干扰的机制性分析,可以启发对语言模型的更深入的理解并缓解语言模型中的干扰问题。

报告嘉宾:
牛靖程,德国TU Darmstadt,UKP研究所博士后研究员。博士毕业于多伦多大学。主要研究语言模型的可解释性 (interpretability)

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除