index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
本文提出了一种名为关键表征微调(CRFT)的新方法,旨在提升大型语言模型(LLM)在思维链(Chain-of-Thought, CoT)推理任务中的准确性。研究发现,在复杂的推理过程中,模型内部存在对最终输出影响显著的关键表征。CRFT通过信息流分析(注意力分数和显著性分数)来定位这些关键表征,并利用低秩线性子空间进行监督微调,以优化这些表征。实验证明,CRFT在GSM8K等数据集上相比现有PEFT方法(如ReFT)取得了显著的性能提升,同时学习的参数量极少(仅为模型参数量的0.016%)。此外,CRFT还能有效应用于小样本学习场景,为提升LLM的推理能力提供了新的思路和高效的解决方案。
💡 CRFT通过信息流分析识别关键表征:该方法首先利用注意力分数和显著性分数来量化表征之间的信息交互,区分出“整合重要信息”和“调控后层表征”两类关键表征。具体通过Self-Referential Filtering(如SAF、SSF)和Multi-Referential Filtering(如MAF、MSF)策略来精确定位这些对模型输出有关键影响的表征。
🚀 低秩子空间干预优化关键表征:一旦识别出关键表征,CRFT便在冻结基础模型的同时,通过引入一个可学习的低秩线性子空间来优化这些表征。这种干预方式能够自适应地纠正关键表征,使其更准确地对齐推理任务的需求,从而显著提高模型的准确率。
🏆 性能卓越且参数效率高:在GSM8K数据集上,CRFT相较于LLaMA-2-7B和ReFT分别带来了18.2%和3.8%的准确率提升,而学习参数量仅占模型总参数量的0.016%,远低于其他参数高效微调(PEFT)方法,显示出极高的效率。
🌟 适应小样本学习场景:CRFT能够灵活地应用于小样本学习(few-shot learning)场景,例如在one-shot场景下能提升16.4%的准确率。研究还强调了区分不同部分(如问题与示例)的关键表征更新向量的必要性,进一步证明了CRFT的精细化优化能力。
让你更懂AI的 2025-07-28 13:32 北京

期刊/会议:ACL 2025论文地址:https://arxiv.org/abs/2507.10085作者机构:阿里云智能-飞天实验室论文关键词:LLM reasoning,Chain-of-Thought,Parameter-Efficient Fine-Tuning简要概述:分析定位在思维链推理中的关键表征(对最终输出产生显著影响的表征),并对这些关键表征进行干预,以提高结果的准确率。
引言ReFT(https://arxiv.org/abs/2404.03592)是近期提出的一种 PEFT 方法,因其仅通过编辑表征空间即可显著提高参数效率而备受关注。
直接将 ReFT 方法应用于复杂的推理任务会导致性能不佳。因为该方法会修改每层开头和结尾固定位置的表征,而这些固定位置的表征对输出的影响是不确定的。我们观察到在复杂的推理任务中通常存在关键表征,对这些关键表征进行微调可以显著提升推理性能。▲ 图1 :在第一层(输入标记)中修改关键表征的示例。如图 1 所示,对第一层的关键表征(token“a” 对应的表征)干预后,对输出产生了影响,这使得回答变为正确。
研究意义我们提出了关键表征微调(CRFT),这是一种通过信息流分析来识别和优化关键表征的方法。CRFT 在监督学习框架下运行,在冻结基础模型的同时,动态优化低秩线性子空间中的关键表征。我们在八个数学和常识推理的基准和两个模型系列(LLaMA 和 Mistral)中验证了 CRFT 的有效性。值得注意的是,我们的方法在 GSM8K 数据集上分别比 LLaMA-2-7B 和 ReFT 的准确率提高了 18.2% 和 3.8%,而学习的参数量仅为模型参数量的 0.016%,显著低于其他 PEFT 方法。此外,CRFT 还能有效适应 few-shot 场景。其中,one-shot 的准确率提高了 16.4%。我们的工作凸显了表征级优化在 CoT 推理中尚未开发的潜力,为传统 PEFT 方法提供了一种轻量级但功能强大的替代方案。
CRFTCRFT 包括定位关键表征以及干预关键表征这两个组件。3.1 定位关键表征一个表征是否为关键表征并不能由其自身决定,而是由其与其他表征的关系决定。因此,我们利用信息流并以注意力分数和显著性分数作为指标。如图 2 所示,我们使用网格来可视化表征间的信息交互,其中单元格 表示表征 和表征 之间的信息交互。单元格 的值由注意力分数或显著性分数表示,颜色越深表示信息交互越丰富。 关键表征可以分为两类:1)整合来自前一层的重要信息;2)调控后一层的表征。具体而言,对于前者,我们关注那些从自身接收信息流的表征,这表明其已经积累了有效信息。对于后者,我们关注那些将信息传播给多个其他表征的表征,这表明其信息交互丰富。因此,我们设计了两种策略来过滤关键表征:分别是 self-referential filtering 和 multi-referential filtering。▲ 图2 :self-referential filtering 和 multi-referential filtering 的图示。我们用红色框突出图(a)中的对角线单元格和图(b)中的列平均值超过阈值的部分,并对相应的表征(关键表征)用红线标记。3.1.1 Self-Referential Filtering如果来自表征 的信息在后续层主要流回自身,则意味着表征 包含重要信息或已有效积累了重要信息。因此,我们使用 作为评估这种保留的关键指标。如果 较大,则 将较小,因为一行中的值已通过 softmax 函数进行归一化。我们以阈值 为衡量标准,大于阈值 则表明来自表征 的信息流主要流向自身。 为了量化信息交互,我们采用注意力分数和显著性分数作为指标,从而分别提出两种不同的方法:Self-Referential Attention Filtering(SAF)和 Self-Referential Saliency Filtering(SSF)。3.1.2 Multi-Referential Filtering如果表征 的信息对多个其他表征(包括生成的表征)产生显著影响,则表征 至关重要。具体而言,我们计算第 列单元格的平均值作为关键指标,以表示表征 对其他表征的影响。如果 的平均值较大,则表征 对其他表征具有显著影响,并发挥关键作用。我们使用阈值 来筛选关键表征。其中 表示输出表征的数量。同样地,我们使用注意力分数和显著性分数来量化表征 对表征 的影响,这分别称为 Multi-Referential Attention Filtering(MAF)和 Multi-Referential Saliency Filtering(MSF)。3.2 干预关键表征▲ 图3:优化关键表征的流程。橙色表示需要学习的参数,蓝色表示冻结的参数。一旦确定了关键表征,就可以对其进行优化以确保其对推理任务的影响能够准确对齐。然而,这种关键表征的优化方向仍然不确定,并且可能不是唯一的。因此,我们设置了一个可学习的向量 ,该向量在训练过程中学习以自适应地纠正关键表征。我们将优化向量限制在一个低秩线性子空间中,该子空间采用一个具有正交行的投影矩阵 ,其中 表示干预子空间的维数。我们通过线性层 来学习投影源。因此,我们修改 的行所跨越 维子空间内的表征,采用从 导出的值。整体优化机制为:
实验结果▲ 表1. GSM8K 数据集上的 PEFT 方法与 CRFT(基于 LLaMA-2-7B)的定量比较。表 1 总结了 CRFT 与其他 PEFT 方法在 GSM8k 和 LLaMA-2-7B 数据集上的比较结果。对于每种策略,我们报告了两个准确度值:第一个值通过过滤上一层中已识别为关键表征来选择关键表征;而第二个值则仅在当前层内进行过滤来识别关键表征。鉴于最优策略可能因具体情况而异,我们建议采用自参考过滤和多参考过滤相结合的方法。由于这两种策略的评分系统无法直接比较,因此我们采用过滤集的并集。为了确保公平比较,我们保持和 ReFT 相同的干预数量,这可能会导致一些非常重要的表征被遗漏。因此,组合方法在某些情况下可能会略微降低性能。调整阈值 和 可以解决这个问题:降低 会增加干预措施以提高性能,而提高 则会减少干预措施以提高效率。▲ 表2. 使用三个基础模型(LLaMA-2-7B、LLaMA-3-8B 和 Mistral-7B)在数学和常识推理数据集的定量比较。此外,CRFT 在数学和常识场景下在不同模型上均展现出更佳的性能,如表 2 所示(其中,我们使用 ReFT 的官方公开代码来报告性能,因为它仅报告了 LLaMA-1 上的结果。并且,根据 ReFT 的实验结论,我们采用了最佳干预参数 p7+s7,分别表示对前七个表征和后七个表征的干预)。▲ 表3. CRFT 在 GSM8K 数据集上扩展到小样本学习的结果(使用 Llama-2-7B 和 SAF 策略)。CRFT 可以轻松扩展到少样本学习。直观地讲,demonstrations 不应该直接影响输出;它们通常用于获得更高层次的语义理解,进而影响输出。然而,question 中的表征(例如数字)确实可以直接影响结果。因此,我们在表 3 中展示了一些实验,以检验是否应该独立学习 demonstrations 和 question。第一个值表明 demonstrations 和 question 是相互依存的,即关键表征的更新向量只有一个。相反,第二个值表明 demonstrations 和 question 是独立的,即更新向量是不同的。这些结果证明了区分关键表征的更新向量的必要性。由于内存限制,我们只进行了单样本和双样本的实验。
结论与展望我们提出了一种新颖的思路链推理方法 CRFT,专注于关键表征对模型输出的影响。CRFT 首先通过分析注意力分数和显著性分数的信息流来识别关键表征,然后通过低秩子空间内的监督微调对其进行优化。我们在各种模型和数据集上进行的全面实验验证了该方法的有效性和效率。这为思路链推理任务,尤其是长思路链推理任务,提供了新的视角。此外,CRFT 表现出足够的灵活性,可以轻松适应小样本学习场景,这凸显了其在增强模型推理能力方面的潜力。更多阅读#投 稿 通 道# 让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧
·阅读原文
跳转微信打开