PaperWeekly 4小时前
Attention总跑偏?人大×清华联合提出LeaF:剪掉干扰Token,让模型学会主动聚焦
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍LeaF框架,通过因果蒸馏校准注意力偏差,提升大语言模型推理准确性与泛化能力。LeaF识别并剔除干扰信息,引导模型聚焦因果关键特征。实验表明,LeaF在数学推理与代码生成任务中均取得显著性能提升。

🔍LeaF框架通过教师-学生梯度对比识别输入中的干扰模式(distracting patterns),即对学生模型产生误导但对推理本身并非必要的token,称为confounding tokens。

🧹LeaF采用Span Pruning策略,以更精细的方式每次仅删除一个连续干扰片段,保留更多语义上下文,相比集体移除更具稳定性。

🎯LeaF设计了混合蒸馏目标,融合标准蒸馏与反事实蒸馏:标准蒸馏保持学生模型在原始输入上与教师对齐;反事实蒸馏鼓励学生在干扰信息被删除后的输入上依然与教师保持一致。

🔄LeaF将干扰检测范围从输入指令(Instruction-level)拓展到模型生成过程(Response-level),在生成阶段同样识别并去除干扰信息,进一步提升模型性能。

📈实验结果表明,LeaF在数学推理与代码生成任务中均取得显著性能提升,平均准确率分别较标准蒸馏方法提升2.41%与2.48%。

原创 让你更懂AI的 2025-08-05 20:06 北京

用因果蒸馏校准注意力偏差

本文提出 LeaF 框架,在知识蒸馏过程中融入基于因果分析的干扰识别机制,引导学生模型推理过程中聚焦因果关键特征,从而提升推理准确性与泛化能力。


论文标题:

Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning

作者单位:

中国人民大学高瓴人工智能学院,清华大学计算机系

论文链接:

https://arxiv.org/pdf/2506.07851

代码链接:

https://github.com/RUCBM/LeaF


问题背景

尽管大语言模型(LLMs)在自然语言处理任务中展现出强大的上下文理解与语言生成能力,但在长文本推理和复杂指令任务中仍存在明显不足,特别是在聚焦关键信息方面的能力较弱。这种注意力分散的现象严重制约了模型的推理准确性和生成质量。

为系统性研究这一现象,本工作首先通过教师模型与学生模型的梯度敏感性对比,识别输入中的干扰模式(distracting patterns),并在 NuminaMath-CoT 与 AceCode-87K 数据集上评估学生模型性能。

如图 1 和图 2 所示,仅仅通过剪除这些干扰信息,平均准确率即可显著提升——在数学训练集上提升超过 20%,代码训练集上提升超过 10%。

此外,在处理 AMC_AIME 等更具复杂性的任务中,模型表现出的性能提升甚至高于 GSM8K,表明复杂推理任务中往往包含更多误导性因素,干扰模型做出有效判断。

▲ 图1:代码任务准确率提升

▲ 图2:数学任务准确率提升

这些发现表明,消除干扰信息、提升模型对关键信息的自主关注能力,是提升大语言模型推理性能的关键路径。

为此,作者提出 LeaF 框架,从因果视角出发,利用梯度引导识别并剔除输入中的干扰因素,引导学生模型在蒸馏过程中学习关注关键的信息区域,从而提升模型的推理表现。

实验结果表明,LeaF 在数学推理与代码生成等多个下游任务中均取得了显著性能提升。在 GSM8K、MATH 和 OlympiadBench 等数据集上,平均准确率提高了 2.41%;在 HumanEval+、LeetCode 和 LivecodeBench 等代码任务中,平均提升达到 2.48%。

此外,模型在推理过程中的注意力分布更加集中、一致性更强,注意力可视化结果也进一步验证了方法的可解释性。


LeaF:两阶段建模,提升模型注意力因果性

为缓解模型在推理过程中容易受干扰信息误导、难以聚焦关键信息的问题,作者提出了一种因果驱动的注意力迁移方法 —— LeaF(Learning to Focus) 框架。该框架由两个核心阶段构成:

干扰信息识别:用梯度刻画模型关注偏差

第一阶段旨在识别输入中对学生模型产生误导但对推理本身并非必要的 token,称为 confounding tokens。

具体地,从学生预测错误而教师预测正确的样本中,计算两者对各输入 token 的梯度敏感性对比,筛选出学生模型推理时关注(梯度值较大)而教师模型推理时不关注(梯度值较小)的 token,作为潜在干扰因素。

进一步地,若在删除这些 token 后,学生模型与教师模型都能给出正确预测,则可将其判定为 confounder tokens。即对学生推理产生误导、但对最终得出正确答案并非必要的信息。

▲ 图3. LeaF 框架:通过梯度驱动的干扰识别与因果蒸馏优化推理能力

在识别 confounding tokens 后,LeaF 对比了两种构建反事实输入样本的处理方式:

通过预实验证明,Span Pruning 更具稳定性,是更优选择。

▲ 图4. 移除策略示意图

因果蒸馏:从反事实对比中学习聚焦策略

为了有效引导学生模型学习更加稳健的注意力模式,在构建好原始样本与反事实样本后,LeaF 设计了一个混合蒸馏目标,将两种监督信号融合:

这种双重蒸馏机制不仅促使学生模型对齐教师模型的输出行为,更强化了其对输入中关键 token 的因果判断能力。LeaF 通过同时建模语义信息与因果依赖,有效避免学生模型仅模仿表面模式、忽略关键因果关系,从而提升推理稳健性与泛化能力。

此外,LeaF 进一步将原本仅作用于输入端的指令级处理(Instruction-level Pruning)拓展至响应级处理(Response-level Pruning)。

具体而言,除在输入指令中识别并移除干扰 token 外,LeaF 还将模型生成的历史响应视作上下文输入,动态识别其中对后续推理可能产生误导的 token 并进行删除。

该策略有助于在生成过程中持续消除干扰,进一步提升模型关注关键信息的能力,从而生成更加准确、聚焦的内容

▲ 图5 指令级处理扩展至响应级处理


实验评估:聚焦关键注意力,提升推理表现

作者在数学推理与代码生成两大任务上系统评估了 LeaF 框架的有效性,相关实验涵盖Llama和Qwen两大主流模型架构与6个评估基准,验证了LeaF在对模型推理能力的增强作用。

主实验结果

实验表明,LeaF 在所有数学与代码基准任务中均带来性能提升,平均准确率分别较标准蒸馏方法提升 2.41% 与 2.48%。其中,在高难度基准 OlympiadBench 上的改进尤为显著,表明 LeaF 能有效应对复杂推理中的注意力干扰问题。

▲ 图6 主实验结果

此外,将 confounding token 的处理范围从输入指令(Instruction-level)拓展到模型生成过程(Response-level),显著提升了模型性能,表明生成阶段同样存在影响推理的干扰信息,分段处理策略有助于模型保持对关键信息的关注。


分析实验:LeaF如何精准识别并规避推理误导

为系统评估 LeaF 框架在识别并剔除干扰 token 方面的有效性,作者从四个角度展开深入分析,包括遮蔽策略、响应处理方式、阈值敏感性及案例研究,全面验证其在提升推理稳健性与模型聚焦能力方面的表现。

4.1 梯度遮蔽策略分析:LeaF如何精确识别干扰信息?

为系统评估 LeaF 所采用的梯度遮蔽策略的有效性,作者将其与两种常见遮蔽方法进行了对比实验:随机遮蔽与困惑度(PPL)遮蔽,实验在 GSM8K、MATH 和 OlympiadBench 上展开,覆盖从基础到复杂的数学任务场景。

▲ 图7:LeaF 梯度遮蔽策略分析实验结果

实验观察:

结论:在复杂推理任务中,基于梯度差异的遮蔽策略能更精准地识别 confounder token,验证了 LeaF 框架中“教师-学生梯度对比机制”的有效性与合理性。

4.2 响应级处理策略:生成过程中的干扰信息同样不可忽视

LeaF 不仅在输入指令中识别干扰性 token(Instruct-level),还进一步将干扰检测范围扩展到模型的生成内容中(Response-level),以覆盖推理过程中的全链条注意力偏差。

为此,作者设计了三种处理策略进行对比:

▲ 图8:LeaF 响应级处理策略实验结果

实验观察:

结论:Confounder tokens 不仅存在于输入指令中,也常常隐藏在模型生成路径中。将干扰识别机制扩展至生成阶段,并合理控制切分粒度,有助于提升模型在长推理任务中的注意力聚焦能力与整体表现。

4.3 阈值敏感性分析:小模型对干扰更脆弱,需更积极过滤

为了探究模型对干扰 token 的敏感程度,作者在 LeaF 框架中系统分析了用于识别 confounder tokens 的阈值(threshold)对最终推理性能的影响。

实验分别在不同模型规模(LLaMA3.2-1B 与 LLaMA3.2-3B)下,在两个层级(Instruct-level 与 Response-level)进行测试。 

▲ 图9:Instruction-level 阈值敏感性分析(MathBench)

▲ 图10:Step-level 阈值敏感性分析(MathBench)

实验观察:

● Instruct-level 层级:

● Response-level 层级:

分析解读:

无论是在指令层级还是生成层级,较小模型(1B)在更高阈值下效果更佳,说明其在原始输入中对干扰 token 更为敏感,因而更依赖积极的过滤策略以确保鲁棒性。

较高阈值能够更有效地识别和过滤掉这些具有误导性的 token,从而带来更好的学习效果。而大模型(3B)自身具备更强的表示与抗干扰能力,因此在更低阈值下即可获得理想表现。

结论:模型规模影响其对干扰 token 的容忍程度。较小模型更容易被误导,适合采用更高的阈值进行更积极的干扰过滤。

4.4 可解释性案例分析:模型真的学会了“聚焦关键”了吗?

为了验证 LeaF 是否真正引导模型学习到更具因果性的关注模式,作者在数学任务中构造了一个具有代表性的推理案例,比较 LeaF 与标准知识蒸馏(KD)模型在推理链条中的注意力差异。

案例任务:判断所有方程根是否为实数。

▲ 图11 案例分析

LeaF 模型的表现:

整个推理过程逻辑清晰、判断合理,成功得出正确答案。

KD 模型的表现:

分析总结:

该案例直观展示了 LeaF 帮助模型识别关键信息并构建合理推理路径的能力,从而有效规避“表层匹配式”推理误判。同时也证明 LeaF 不只是提升准确率,更能提升模型行为的可解释性与合理性。


未来展望

本工作验证了 LeaF 框架在提升大语言模型因果关注能力与推理稳健性方面的有效性,为理解和缓解注意力偏差提供了新路径。通过引入教师-学生间的梯度差异分析与反事实蒸馏机制,LeaF 能够引导模型有效识别并规避干扰性 token,从而学会聚焦真正关键的信息区域。

未来,仍有多个值得深入探索的方向。例如,当前实验主要聚焦数学与代码推理任务,进一步拓展至语言理解、问答、多跳推理等更广泛的任务场景,以验证其通用性与跨任务鲁棒性,也是未来值得研究的方向。

联系我们

欢迎关注 LeaF 相关工作!如需技术细节、代码或合作交流,请联系作者团队(yijuguo@ruc.edu.cn)。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编


🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 大语言模型 注意力偏差 因果蒸馏 LeaF框架
相关文章