Anthropic提出工作回路追踪方法：用归因图解开大语言模型计算之谜

集智俱乐部 10小时前

Anthropic发布新方法'Circuit Tracing'，通过构建替代模型和归因图，可视化语言模型的思考过程，为AI安全性和可解释性研究打开新大门。开源工具助力研究，推动AI透明化发展。

🔍 构建可解释的替代模型：使用跨层转码器（Transcoders）替代原始模型中的MLP层，实现特征提取和模型行为复现。

📈 归因图：描述模型在特定提示词下生成输出的计算过程，节点代表激活特征、词嵌入等，边表示线性影响。

🔄 特征间的线性归因：通过固定注意力模式和归一化因子，确保特征间直接相互作用是线性的，便于归因操作。

🪞 交互界面：设计交互式界面浏览归因图，帮助研究人员快速定位关键机制。

📊 全局权重分析：支持对替代模型权重进行直接分析，揭示适用于多个提示的通用机制。

原创星辰 2025-07-23 20:02 浙江

为Claude模型可解释性奠定理论基础

导语

AI的“黑盒”问题一直困扰着研究者和用户——我们知道ChatGPT、Claude这些大模型很聪明，但却不知道它们是如何思考的。这就像看到一个天才学生总能给出正确答案，却无法理解他的解题思路。

在今年3月，Anthropic（Claude模型的开发商）发布了一项重磅研究，首次让我们能够“看见”语言模型的思考过程。他们开发了一种名为“Circuit Tracing”（工作回路追踪）的新方法，通过构建“替换模型”和“归因图”，将原本不可见的神经网络计算过程可视化为清晰的计算图。这项技术的突破意义重大：研究人员不仅能追踪模型在处理特定问题时激活了哪些“神经元”，还能看到信息是如何在不同层级间流动和处理的。更重要的是，Anthropic已将相关工具开源，为AI安全性和可解释性研究打开了新的大门。

本文是这篇论文的翻译版本。

关键词：归因图，深度学习

星辰丨作者

孔德润丨译者

姚云志丨审核

论文题目：Circuit Tracing: Revealing Computational Graphs in Language Models
论文地址：
https://transformer-circuits.pub/2025/attribution-graphs/methods.html

1. 介绍

2. 构建可解释的替代模型

3. 归因图

4. 全局权重

5. 效果评估

6. 生物

7. 局限性

8. 讨论

9. 相关工作

1. 介绍

深度学习模型通过一系列分布在多个计算单元（即人工“神经元”）上的变换来生成输出。机制可解释性（mechanistic interpretability）这一研究方向试图用人类可理解的语言来描述这些变换的过程。到目前为止，我们团队（Anthropic）采用的是“两步走”的办法：第一步，识别特征（features）— 特征指的是模型在计算中使用的可被解释的构建模块；第二步，我们描述在这一过程中，或者说在这一“工作回路”（circuits）中，这些特征是如何相互作用，从而产生模型输出。

一个自然而然的做法是将模型中的原始神经元作为这些构建模块。采用这种方法，已有的研究在视觉模型中成功的识别出了一些有趣的工作回路。这些工作回路由有意义的视觉概念的神经元组成 [4]。然而，模型神经元通常具有多义性（polysemantic）的特点，即它们同时对应着多个互不相关的概念。这种多义性被认为与叠加现象（superposition）有关 [5, 6, 7]：模型需要表达的概念数量超过了神经元的数量，因此只能将表征“摊”在多个神经元上。这种神经元与语义概念之间的不匹配，已经成为了推进机制可解释性工作，特别是理解语言模型方面的重大障碍。

稀疏编码模型（sparse coding models）包括稀疏自编码器（sparse autoencoders，SAEs）[8, 9, 10, 11]、转码器（transcoders）[12, 13, 14]和跨编码器（crosscoders）[15]。近年来，这样的稀疏编码模型已经成为识别叠加现象的有力工具。通过将模型激活分解为稀疏化的特征激活，这些特征在许多情况下能够对应到人类可理解的概念。尽管当前的稀疏编码方法在特征识别上仍不完美（参见第7节“局限性”），但它们所产生的结果已经足够具有可解释性。这促使我们进一步研究由这些特征组成的工作回路。已有多位作者在这一方向上取得了初步成果 [16, 12, 17]。

尽管研究由稀疏编码特征组成的工作回路在概念上听起来很简单，但其潜在的设计空间非常庞大。本文将介绍我们目前采用的方法。这些方法涉及若干关键的技术：

1. 转码器（Transcoders）-- 我们不采用稀疏自编码器，而是使用转码器的变体来进行特征提取 [12, 14]。这种做法使我们能够构建一个具有可解释性的“替代模型（replacement model）”。有了这一替代模型，我们便可以以此作为原始模型的代理进行研究。更重要的是，这种方法使我们得以分析特征之间的直接的相互作用。

2. 跨层机制（Cross-Layer）-- 我们的分析基于跨层转码器（cross-layer transcoders, CLT）[15]。在该机制下，每个特征从某一层的残差流（residual stream）中读取信息，并对原始模型中所有后续的多层感知机层（MLP layers）输出产生贡献。这一设计极大地简化了所得工作回路结构。值得注意的是，在50% ，也就是大约一半的案例中，我们完全可以用训练得到的CLT特征来替代原模型中的多层感知器MLP，同时还能保持一致的输出结果。

3. 归因图（Attribution Graphs）-- 归因图描述了模型在面对某个特定提示词（prompt）时，如何一步步产生目标词（target token）输出的过程。该方法参考了 Dunefsky 等人的研究 [12]。归因图中的节点表示激活特征、提示词中的词嵌入、重构误差以及输出对数值 (output logit)。图中的边表示节点间的线性影响，因此每个特征的激活值等于其输入边的加权和（上限为激活阈值）（详见第3节“归因图”）。

4. 特征间的线性归因 -- 对于给定的输入值，我们进行了系统设计来确保特征之间的直接相互作用是线性的。这样一来，归因操作就具有明确且可验证的数学定义。为实现这一目标，我们固定了注意力模式（attention patterns）和归一化因子（normalization denominators）[18]，并通过转码器实现特征之间的线性作用。此外，特征之间也存在通过其他特征中介的间接交互关系，对应多步路径上的影响。

5. 剪枝（Pruning）-- 尽管我们提取的特征是稀疏的，但在特定提示下，仍有过多特征被激活，导致归因图难以解读。为了应对这一复杂性，我们采用图剪枝技术：识别那些对特定位置的模型输出贡献最大的节点和边（图剪枝技术是在处理图结构数据时，通过删除不重要的节点、边或连接，简化图结构，减少计算复杂度，同时尽量保持模型性能的技术”）。通过这种方式，我们能够为任意输入提示构建稀疏、可解释的模型计算图。

6. 交互界面（Interface）-- 我们设计了一个交互式界面，用于浏览归因图及其包含的特征，帮助研究人员快速定位并高亮关键机制。

7. 验证（Validation）。因为我们使用的是替代模型，我们研究工作回路的方式是只能是间接的。替代模型的工作机制可能与原始模型不同。因此，我们需要验证归因图中所揭示机制的有效性是否能够体现在原始模型。为此我们进行了扰动实验：在特征方向上引入扰动，观察其是否会导致其他特征的激活变化（以及模型输出的变化）与归因图预测相符。我们发现，在多数提示下，扰动实验的定性结果基本与归因图一致，尽管仍存在部分偏差。

8. 全局权重（Global Weights）-- 虽然本文主要聚焦于特定提示下的归因图研究，但我们的方法同样支持对替代模型的权重（即“全局权重”）进行直接分析，从而揭示适用于多个提示的通用机制。在第4节“全局权重”中，我们讨论了此方法面临的一些挑战，例如：由于权重之间的相互干扰，原始的全局权重往往不如归因图易于解释。但我们仍成功地应用全局权重理解了模型中实现“小数加法”的工作回路机制。

本文的目标是详细阐述并验证我们的方法论，并通过若干案例研究加以说明。

我们首先关注方法--首先介绍如何搭建可解释的替代模型（见第2节“构建可解释的替代模型”），以及如何构建归因图（见第3节“归因图”）；随后，我们通过两个案例研究来展示方法的具体应用（见第3.7节“事实回忆案例研究”和第3.8节“加法案例研究”）。接下来，我们探讨构建全局工作回路的不同方法，涵盖其面临的挑战及一些初步应对方案（见第4节“全局权重”）。

随后，我们对跨层转码器CLT及其生成的归因图进行了详细的量化评估（见第5节“评估”），展示了CLT在多个指标上相较于神经元及逐层转码器的帕累托改进。接着，我们简要介绍配套论文的内容，其中我们将本方法应用于 Claude 3.5 Haiku 模型的多种行为分析（见第6节“生物学”）。之后我们讨论了方法上的若干局限性（见第7节“局限性”），包括：注意力模式的影响、重构误差的干扰、抑制机制的识别难度，以及理解全局工作回路的挑战。克服这些局限性并揭示模型中更多潜在机制，是未来研究的重要方向。

最后，我们在第8节“讨论”中，对生成归因图的方法设计空间进行了更广泛的探讨。我们的方法具有模块化特点，其中部分环节可以与其他方法灵活组合，同时保留大部分优势。第9节“相关工作”则回顾了与本研究相关的文献。

我们配套的论文“大型语言模型的“生物学””将本方法应用于 Claude 3.5 Haiku，研究其在多跳推理、规划行为与幻觉生成等方面的表现。

需要指出的是，训练一个跨层转码器需要一定的前期成本和精力，但这种投入在后续的工作回路解析中可以被逐步摊销。我们发现，这种方法显著提升了工作回路的可解释性和简洁性，因而在性价比上是值得的（参见开放权重模型的成本估算及与逐层转码器的性能对比）。不过，我们强调，研究者也可以选择逐层转码器甚至直接使用多层感知机器MLP的神经元，沿用本文的第3至第8步，依然可以获得有价值的见解。此外，未来也有可能出现比跨层转码器CLT更优秀的替代方法。

为了方便研究结果复现，我们提供了跨层转码器CLT的实现指南、剪枝方法的详细说明，以及支持交互式图分析界面的前端代码。

2. 构建可解释的替代模型

架构

跨层转码器（Cross-Layer Transcoder）：特征从某一层读取输入之后，会写入所有后续层的输出。

图 1：跨层转码器CLT构成了我们替代模型的核心架构。

跨层转码器CLT 由多个神经元组成，这些神经元也被称为“特征"，并被划分到与原始模型相同数量的 L 个层级中。跨层转码器CLT 的目标是：使用稀疏激活的特征，重建原始模型中各层多层感知器（MLP）的输出。

每个特征从和它相关的层级的残差流（residual stream）中接收输入。而真正让这些特征被称为“跨层”的原因在于 -- 它们的输出可以影响所有后续层的计算。

具体而言：

每一层 ℓ 中的特征，通过一组线性编码器（linear encoder）和非线性激活函数，从该层的残差流中读取输入；

ℓ 层的特征不仅参与重建该层的 MLP 输出，还会通过一组专门的线性解码权重（linear decoder weights），参与重建ℓ+1 到 ℓ 层这些后续层级的MLP 输出；

所有层中的所有特征是联合训练的。因此，第 ℓ′ 层的 MLP 输出是由其之前所有层的特征共同重建的。

更形式化地说，设 xℓ 表示原始模型在第 ℓ 层的残差流激活值，则 CLT 在该层的特征激活 aℓ 的计算方式为：

其中是第 ℓ 层 CLT 的编码矩阵。

设 yℓ 表示原始模型在第 ℓ 层的 MLP 输出，则 CLT 对该输出的重建记作 yℓ。使用 JumpReLU 激活函数 [11]，其计算方式如下：

其中表示从第 ℓ′ 层特征输出到第 ℓ 层的解码矩阵。

在训练跨层转码器时，我们优化由两部分损失函数组成的总损失。第一个损失函数是重建误差损失，在所有层上求和：

第二项是稀疏性惩罚项，用以鼓励特征激活尽可能稀疏（其中 λ 和 c为超参数）：

其中，N 是每层的特征数量，表示第 i 个特征在第 ℓ 层的所有解码向量拼接结果。

我们在一个较小的18层 Transformer 模型（简称“18L”）和 Claude 3.5 Haiku 上分别训练了不同规模的 CLT 模型。其总特征数（跨所有层）在 18L 中为 30 万到 1000 万之间，在 Haiku 模型中为 30 万到 3000 万之间。关于训练的更多细节，详见附录 D “CLT 实现细节”。

从跨层转码器到替代模型

在获得训练好的跨层转码器CLT后，我们可以定义一个“替代模型”，它用跨层转码器的特征替代原始模型中的 MLP 神经元。也就是说，原模型每一层的 MLP 输出将被所有向该层写入的 CLT 特征所重建的结果所替代。

该替代模型的前向传播流程与原始模型基本相同，只有两个关键差异：

当执行到第 ℓ 层的 MLP 输入时，我们计算那些编码器属于该层的跨层转码器特征的激活值；

当执行到第 ℓ 层的 MLP 输出时，我们用本层及所有前层 CLT 特征通过该层的解码器生成的输出之和来覆盖原有的 MLP 输出。

注意力机制（Attention layers）仍按照原始方式正常应用，不做冻结或修改。虽然 CLT 的训练仅依赖于原始模型的输入激活值，但在运行替代模型时，CLT 实际上是在处理“偏离训练分布”的输入 —— 即来自替代模型中间层的激活值。

原始 Transformer 模型：我们研究的基础模型是基于 Transformer 架构的大型语言模型。

替代模型：我们用特征（features）替代原始模型中的神经元。特征的数量通常多于神经元。它们具有稀疏激活的性质，并且往往对应于具有可解释性的概念。

图 2： 替代模型是通过将原始模型中的神经元替换为跨层转码器中的稀疏激活特征所构建的。

作为一项基础评估，我们测量替代模型在预测下一个最有可能的词元时，其输出与原始模型一致的比例。随着模型规模的提升，这一匹配比例也随之上升。与逐层转码器（per-layer transcoder）基线相比，跨层转码器CLT 的表现更优 —— 后者指的是为每一层单独训练的标准一层转码器；图中所示的“特征数”表示的是所有层中所有特征的总和。我们还引入了“阈值化神经元”作为另一对比基线：将激活值低于某一阈值的神经元置零。实验表明，激活值越高的神经元往往越具有可解释性。我们在图中标注了一个参考点，显示该点上的神经元可解释性大致与特征持平（依据我们在第 5.1.2 节“CLT 的量化评估”中的自动评估结果）。我们训练的最大规模的 18 层 CLT（18L CLT）在一个多样化的预训练风格提示集（来自开源数据集）上，能够在 50% 的样例中准确匹配原始模型的下一个 token 输出（详见附录 R“补充评估细节”）。

图 3： 对比跨层转码器、逐层转码器和阈值化神经元在作为替代模型基础时的 Top-1 准确率和 KL 散度表现。可解释性阈值通过排序和对比评估方法确定（详见“评估”章节）。

局部替代模型

尽管替代模型在某些情况下可以复现原始模型的输出，但整体上仍存在显著差距，且重建误差会在各层之间累积。由于我们最终目的是理解原始模型本身，因此希望尽可能地逼近它的行为。为此，在研究一个固定提示词 p时，我们构建了一个局部替代模型（local replacement model），其主要特征包括：

与替代模型相同，用跨层转码器CLT替代原始模型的 MLP 层；

使用原始模型在提示词 p 上前向传播时所产生的注意力模式和归一化因子（参见文献 [18, 12]）；

在每个（词元位置，层）对上，对 CLT 的输出添加一个误差调整项，该项等于 CLT 输出与原始 MLP 输出之间的差值（参见文献 [16]）。

在进行误差修正，并冻结注意力模式与归一化中的非线性项之后，我们就实质上用一套新的基本单元重写了原始模型在提示词 p上的计算过程。此时，误差修正后的替代模型在所有层上的激活值与输出对数值在输出与原始模型完全一致。

然而，这一对应关系并不意味着局部替代模型与原始模型在机制上相同。我们可以通过测量两者在扰动输入下的反应差异，来评估它们的机制是否一致。我们将这种一致性称为机制忠实度（mechanistic faithfulness），其评估方法详见第 5.3 节《机制忠实度评估》。

局部替代模型可以被视为一个跨越多个词元位置的巨大全连接神经网络，可以在其上执行经典的工作回路分析。其结构可描述如下：

输入为提示词中每个词元的独热向量（one-hot vector）拼接而成；

神经元为所有词元位置上被激活的 CLT 特征的集合；

权重表示从一个特征到另一个特征之间所有线性路径上的总影响，包括残差流（residual stream）和注意力路径，但不经过 MLP 或 CLT 层。由于注意力模式和归一化因子已被固定，从源特征到目标特征的激活影响在每条路径上均为线性关系。我们有时称这些权重为“虚拟权重（virtual weights）”，因为它们并不实际存在于原始模型中；

另有一些类似偏置项的节点，对应误差调整项，并与模型中每个下游神经元相连；

模型中唯一存在的非线性部分，是应用在特征预激活（preactivation）上的非线性函数。

局部替代模型是我们构建归因图的基础。在这些图中，我们研究特定提示词下，局部替代模型中各特征之间的相互作用。归因图正是本研究的核心分析对象。

图 4： 局部替代模型通过在替代模型中加入误差项和固定的注意力模式，精确复现原始模型在特定提示词下的行为。

3. 归因图

我们将在一个案例研究的过程中介绍构建归因图的方法论，该案例聚焦于模型为任意标题生成缩略词的能力。在我们分析的例子中，模型成功完成了一个虚构缩略词。具体来说，我们向模型输入提示词。 The National Digital Analytics Group (N and sample its completion: DAG)。模型使用的分词器包含一个特殊的“全大写”词元（Caps Lock token），因此该提示词和模型输出被分词为：TheNationalDigitalAnalyticsGroup(⇪ndag

我们通过构建归因图，来解释模型在输出 “DAG” 这个词元时所执行的计算过程。该归因图展示了信息从提示词开始，经过中间特征，最终流向模型输出的路径。

下图展示了完整归因图的简化版本。图中，提示词位于底部，模型的补全输出位于顶部。图中的方框表示一组相似的特征，可以悬停查看每个特征的可视化表示。我们将在第 3.3 节“理解与标注特征”中进一步讨论特征的含义。箭头则表示一组特征或某个词元对其他特征及输出对数值的直接影响。

图 5： 18L 模型补全一个虚构缩略词时的归因图简化示意图。

针对该缩略词提示词的归因图展示了三条主要的信息路径，分别起始于组成目标缩略词的每个词元。这些路径从与某个词相关的特征开始，进一步激活表示“在正确位置说出该词首字母”的特征，这些特征再通过正向边连接到“say DAG”类特征以及最终的输出对数值。

图中的“say X”标签表示输出特征（output features），即推动模型生成特定词元X的特征，其中任意单个字母用下划线表示（如 _D、_A、_G）。路径中的“Word → say _W”边表示注意力头的 OV 子工作回路（Output × Value 路径）将信息写入某个子空间，该子空间随后由目标位置上的 MLP 进行放大。

此外，每组特征除了顺序路径外，还直接连接至输出对数值，表示该特征对输出的影响仅通过注意力头 OV 通道实现，即在局部替代模型中，这类路径不会经过任何额外的 MLP 层。

为了正确生成“DAG”，模型不仅需要生成一个缩略词，还需要意识到提示词中已经包含了字母“N”。在归因图中，我们确实观察到了特征：“位于缩略词中”（in an acronym）以及“缩略词开头包含 N”（in an N at the start of an acronym），它们对对数值有正向影响。

值得注意的是，单词 National 对对数值的影响几乎可以忽略。我们推测，其主要贡献可能是通过影响注意力模式实现的，而这部分并不包含在我们的方法建模范围内（详见第 7.1 节“局限性：缺失的注意力工作回路”）。

针对提示词构建归因图

为了理解局部替代模型在特定提示词（prompt）上的计算过程，我们构建一个因果图（causal graph），以描绘该模型完成任务时所经历的计算步骤。其核心构图逻辑基本源自 Dunefsky 等人 [12] 的方法，但我们对其进行了拓展，使其适用于跨层转码器。

在归因图中，共包含四类节点：

输出节点：对应于可能生成的候选词元。我们仅为那些共同覆盖模型输出概率质量达 95% 的前 10 个词元构建输出节点；

中间节点：对应于在每个词元位置处被激活的跨层转码器特征；

主要输入节点：对应于提示词词元的嵌入（embedding）向量；

附加输入节点（“误差节点”）：表示底层模型中每层 MLP 输出中未被跨层转码器解释的残差部分。

图中的边表示在局部替代模型中的直接线性归因关系。边的起点可以是特征节点、嵌入节点或误差节点，终点则是特征节点或输出节点。

设源节点为特征 s，目标节点为特征 t，它们之间的边权定义为：As→t:= as ws→t。其中，ws→t是局部替代模型中从s到t的虚拟权重（virtual weight），此模型被视为一个全连接神经网络；而 as 是源节点 s 的激活值。从底层模型的视角看，ws→t是一个路径权重之和，涵盖所有线性路径（即通过注意力头的 OV 通路与残差连接）将源特征的解码器向量连接至目标特征的编码器向量的总和。

下面我们将介绍在实际中如何高效地计算这些归因权重，所用方法是反向雅可比矩阵（backwards Jacobians）。设源节点 s 位于第 ℓs 层的上下文位置 Cs，目标节点 t 位于第 ℓt 层的上下文位置 Ct。我们记：

来表示基础模型的雅可比矩阵，其中对所有非线性模块——包括 MLP 输出、注意力模式（attention patterns）以及归一化分母——在反向传播过程中应用了 停梯度操作（stop-gradient） 。该雅可比矩阵描述的是：从上下文位置 Ct、第 ℓt 层的残差流，到上下文位置 Cs 、第 ℓt 层的残差流的映射关系。

此时，从节点 s 到节点 t 的边权定义为：

其中，表示特征 s 写入第 ℓ 层的解码向量，表示特征 t 在第 ℓt 层的编码向量。其他类型的边也有类似公式，例如从嵌入到特征节点的边，其权重为：

需要注意的是，误差节点（error nodes）没有输入边。关于所有这类公式的推导，以及如何将雅可比矩阵展开为底层模型中的路径表示，详见附录 §E “归因图计算”。

由于我们在上述计算中对模型所有非线性部分添加了停梯度操作，因此任何特征节点 t 的预激活值 ht 可以简化为其在归因图中所有输入边的权重之和：

其中， St表示所有处于较早层级、且在上下文位置上不晚于节点t的节点集合。因此，归因图中的边为每个特征的激活提供了线性分解。

需要注意的是，这些图不包含关于节点如何通过影响注意力模式间接影响其他节点的信息，但它们确实包含了通过“冻结注意力”输出的节点间直接影响信息。换言之，我们刻画了信息从一个词元位置流向另一个位置的过程，但没有解释模型为何选择以这种方式移动信息。

此外，来自跨层特征的所有输出边共同表达了该特征在其写入的所有层中对下游特征的综合影响。

需要注意的是，这些图中不包含节点通过其对注意力模式的影响间接作用于其他节点的信息，但确实包含通过“冻结注意力”输出所体现的节点之间的直接影响信息。换言之，我们刻画了信息如何从一个词元位置流向另一个位置，但并未解释模型为何如此传递。

还应注意的是，对于跨层特征，其所有的输出边综合反映了该特征在它写入的所有层中对下游特征的解码影响。

虽然我们的替代模型中的特征是稀疏激活的（每个词元位置约有百级激活特征），但构建出的归因图仍然过于庞大，难以完整查看，特别是在提示词变长时 —— 即使是较短的提示，也可能产生上百万条边。

幸运的是，通常只需一个较小的子图就可以覆盖从输入到输出的大部分重要路径。

为识别这类子图，我们采用了一种图剪枝算法（pruning algorithm），其目标是保留所有对于对数值节点具有直接或间接显著影响的节点与边。在默认参数设置下，我们通常可以将节点数量减少十倍，而仅损失约 20% 的行为解释能力。有关该算法与评估指标的更多细节，请参见附录 §F：图剪枝。

从归因图中学习

即使在经过剪枝处理后，归因图仍然信息密度极高。一个剪枝后的图通常仍包含数百个节点、数万个边，信息量过大，难以一次性完整解读。为了帮助我们在这种复杂结构中有效导航，我们开发了一个交互式归因图可视化界面。该界面设计的目标是：支持用户追踪关键路径，能够回溯先前访问过的节点与路径，并按需显示特征解释所需的信息。

图 6： 归因图交互界面概览

下图展示了一个交互式可视化界面，用于呈现从单个词元“DAG” 向后归因的归因图。

图7：归因图支持的鼠标和键盘交互方式

理解与标注特征

我们借助与我们先前工作 Scaling Monosemanticity 中相似的特征可视化方法，手动对图中的各个特征进行解释与标注。¹²

最容易标注的是 输入特征 和 输出特征：前者在模型早期层中常见，主要在遇到特定词元或一类相似词元时被激活；后者则在模型后期层中常见，主要用于推动模型输出某类特定词元或词元类别的延续。例如：

这个特征很可能是一个输入特征，因为它的可视化显示其对 “digital” 和类似的词（如 “digitize”）高度激活，而对其他词不激活。因此我们将其标注为 “digital” 特征。

这个特征（来自 § 3.8 加法案例研究 中的 Haiku 特征）是一个输入特征，在多个以数字 6 结尾的词元上被激活，甚至还包括一些更抽象地与 6 相关的词元，如 “six” （六）和 “June ”（六月）。

这个特征很可能是输出特征，因为它在多个词元上都有较强激活，而且每次激活后该词元都紧跟文本 “dag”。可视化顶部还显示该特征显著提高模型预测 “dag” 的概率（通过残差流的直接影响）。这说明它是一个输出特征。由于输出特征常见，我们通常将推动某个词元或类别 X 的输出特征标注为 “say X”，因此本例我们标注为 “say ‘dag’”。

这个特征（来自 § 3.7 事实回忆案例研究）是一个推动多种体育项目名称输出的输出特征，但它也说明了输出特征标注的复杂性。例如，需要识别出 “lac” 是 “lacrosse”（长曲棍球）的首词元。此外，在该特征激活后，后续的词元通常不是具体的体育项目名，但却是这些名称很可能出现的位置。

其他特征则常见于模型的 中间层，更为抽象，标注过程更复杂。我们可能需要参考其激活的上下文示例、其对数值效应（即通过残差流和 unembedding 直接推动或抑制的词元），以及它连接的其他特征来进行标注。例如：

此特征在一组未完成的缩略词中左括号后的第一个或前两个字母处激活，对多种字母和缩略词均成立，因此我们将其标注为 通用的缩略词续写特征。

此特征在多个缩略词的起始处激活，这些缩略词的第二个字母都是 D，它直接推动的许多词元也以 D 为第二个字母（尽管不是全部如此）。考虑到对数值效应可能存在间接偏移（尤其是在远离最终层时），我们简要标注此特征为 “say ‘_D’”，其中下划线代表首字母。

最后一个特征在多组大写字母字符串的首字母处激活，但这些字符串似乎并非缩略词，而其最抑制的词元往往是缩略词式的字母组合，其他激活实例缺乏明显共性，因此我们暂时将其标注为抑制缩略词特征。

我们发现，即使这些特征的标注并不完美，也足以帮助我们在归因图中识别出有意义的结构。

将特征分组为超级节点

归因图中常常包含一组特征，它们在该提示词中扮演的角色具有某种共有的特征面向（facet）。 例如，在我们的提示词中，“Digital” 这个词会激活三个特征，它们分别响应于不同大小写或上下文中的 “digital” 一词。对于这个提示来说，唯一重要的方面是 “digital” 一词以 “D” 开头；这三个特征都对同一组下游节点（downstream nodes）具有正向影响。因此，在分析该提示词时，把这些特征作为一个整体进行处理是合理的。为了可视化和分析的方便，我们将多个节点（即特征与上下文位置的组合）合并为一个“超级节点”。这些超级节点对应于我们上面所示的简化结构图中的方框，下面也会再次展示该图以便参考。

图 8：18L 模型完成虚构缩略词任务时的归因图简化图示

我们采用的节点分组策略取决于当前的分析目标，以及特征在特定提示（prompt）中的作用。

在不同情境下，我们有时会将下列特征分为一组：

在相似上下文中激活的特征，

拥有相似的词嵌入或对数值效应的特征，

或者输入/输出边结构相似的特征，具体取决于我们为了阐释某种机制性主张而强调的特征维度。

我们通常希望一个超级节点中的所有子节点相互促进，并且它们对下游节点的影响具有相同的符号（同为增强或同为抑制）。

尽管我们尝试了自动分组策略（如基于解码器向量或图的邻接矩阵进行聚类），但这些方法不足以覆盖我们为说明具体机制所需的所有特征分组。

关于“超级节点”以及为何它们是必要的，我们在“相似特征与超级节点”部分中将进一步探讨。

通过干预验证归因图假设

在归因图中，节点指出哪些特征对模型输出有影响，边则说明这些特征如何发挥作用。我们可以通过在原始模型中对特征进行扰动（perturbation）来验证归因图中的假设，并检查这些扰动对下游特征或模型输出的影响是否与归因图中的预测相符。对特征的干预方式是修改其计算得到的激活值，并将其修改后的解码（decoding）结果注入模型，替代原始的重构结果。

由于跨层转码器的特征会写入多个输出层，因此我们需要决定在哪些层范围内进行干预。那要怎么做呢？我们可以像在单层转码器中那样，只对某一层的特征解码进行干预，但归因图中的边代表的是多个层解码的累计效果，所以只干预单一层可能只能覆盖这条边的一部分。此外，我们通常希望一次干预多个特征，而超节点中的不同特征会写入不同的层。

为了在一个层范围内执行干预，我们会在给定范围内的每一层修改该特征的解码，然后从该范围的最后一层开始执行前向传播（forward pass）。由于我们不会根据干预前面层的结果来重新计算 MLP 的输出，所以模型在该层之后的 MLP 输出唯一的变化就是我们手动插入的干预值。我们将这种方法称为“约束修补（constrained patching）”，因为它不允许干预在所选修补范围内产生二阶影响（second-order effects）。关于另一种方法“迭代修补（iterative patching）”的描述，请参见附录 §K；关于为何更天真的方法（比如直接在每层添加特征的 decoder 向量）可能会造成特征效应的重复计算，请参见 §H 附录的相关讨论。

下图展示了乘数式受限修补（multiplicative constrained patching）的一个示例，其中我们将目标特征的激活值在层范围 [ℓ-1, ℓ] 中乘以 M。注意，该补丁不会直接影响更高层的 MLP 输出。

图 9：乘法修补示意图

归因图是基于底层模型的注意力模式（attention patterns）构建的，因此图中的边并不考虑通过 QK 工作回路（Query-Key Circuits）所介导的影响。类似地，在我们的扰动实验中，我们将注意力模式固定为未经干预的前向传播过程中所观察到的值。这种方法上的选择意味着我们的实验结果不包括扰动可能对注意力模式本身所造成的影响。

回到我们之前的缩写词提示语（acronym prompt）实验，我们展示了对超节点进行修补（patching）后的结果，首先从压制 “Group” 超节点开始。如下图所示，我们将修补效果叠加在超节点的结构图上，以便更清晰地展示对其他超节点以及对数值分布的影响。需要注意的是，图中节点的位置并不代表具体的 token 位置，除非明确指出。

图10: 当我们抑制虚构组织名称中的词语 “Group” 时，模型 18L 会输出其他以 “DA” 开头的缩写词。

我们现在展示抑制某些超级节点对其他超级节点的总体激活值以及对 logit 的影响。对于每一个 patch 操作，我们将该节点中每个特征的激活值设为其原始值的相反数（等价于用乘法因子 −1 进行操控）。随后，我们将每个节点的总激活值绘制为其原始激活值的比例。我们使用橙色边框突出显示下游节点，这些节点是我们假设会受到 patch 操作影响的目标。

图 11：对“The National Digital Analytics Group (N”这句话中各特征激活进行选定干预后的效果展示。

我们可以看到，抑制每个词的特征，会依次抑制与之相关的首字母特征（initial features）。此外，“say DA_”这一超级节点的特征，也会受到对 “Digital” 和 “Analytics” 两个超级节点的抑制的影响。

定位关键层

归因图还可以帮助我们识别：一个特征的解码在哪些层级中对最终对数值（输出得分）的下游影响最大。例如，“Analytics”超级节点中的特征主要是通过中间的特征组间接地对 “dag” 的对数值产生影响，这些中间特征组包括 “say A”、 “say DA” 和 “say DAG”，它们主要分布在第 13 层及之后的层级中。

图12：在包含“说出缩略词”特征的层之前进行干预，效果最为显著

因此，我们可以预期：对某个 “Analytics” 特征进行负向引导（steering negatively），将对 “dag” 的对数值产生影响——这一影响会在第 13 层之前趋于稳定，并在接近最后一层时逐渐减弱。

这种衰减是由于我们采用的干预方法具有“约束性（constrained）”所致。如果补丁（patching）范围已经涵盖了所有说出缩略词（say an acronym）类特征，那么这些特征的激活值将不会发生变化，因为约束性补丁不允许连锁效应（knock-on effects）发生。

下图展示了对每个 “Analytics” 特征进行负向引导的效果，其中补丁起始层固定为第 1 层，终止层从低到高依次变动。

图 12：当干预操作发生在包含“说出缩略词”特征的层级之前时，其效果最为显著。

事实回忆案例研究

我们现在转向事实回忆（factual recall）问题，具体考察模型如何补全如下句子：Fact: Michael Jordan plays the sport of …模型以 65% 的置信度预测为 basketball（篮球） [19, 20]。我们首先计算该输入的归因图，并像在缩略词案例中一样，将语义相近的特征分组为超级节点。

下方的超级节点结构图展示了两条主要路径：

一条路径起始于 “plays” 和 “sport” 这两个词元，推动 “sport” 和 “say a sport”（说出一个运动项目）类特征的激活，这些特征进一步增强了篮球、足球等运动项目的对数值。

另一条路径起始于 “Michael Jordan 以及其他名人” 类特征，激活了与篮球相关的特征，这些特征对 basketball对数值是正向边，而对 football对数值是负向边。

除了这些顺序性路径外，还有一些特征组（如 “Michael Jordan” 和 “sport/game of”）直接连接到篮球的对数值，这代表着仅通过注意力头的输出向量（OV）传导的直接作用，这一机制与 Batson 等人的研究发现一致。

图 13：18L 模型在回忆一个简单事实时的归因图简化图示。

我们也在下方展示了完整的交互式归因图。

此外，如 Nanda 等人 [19] 所观察到的，一个复杂的机制集合似乎在将关于实体 Michael Jordan 的信息传递到 “Jordan” 这一位置的残差流中发挥作用。我们将一些特征归入同一个超节点，这些特征包括对 “Michael” 敏感的特征、一个已经识别出 “Michael Jordan” 这对词元的 L1 层特征、一些涉及其他名人的特征，以及那些在 “Michael Jordan” 和其他无关概念上都激活的多义特征。需要注意的是，只要这些多义特征具有与当前提示（prompt）相关的某种共有面，我们仍会将其纳入超节点，比如有一个特征在 “synergy” 上比在 “Michael Jordan” 上激活更强，但我们仍将其纳入。我们将在定性特征评估（Qualitative Feature Evaluations）部分更深入地探讨这些特征。

“引导实验”同样可以用来验证归因图中提出的假设。

图 14：对句子 “Fact: Michael Jordan plays the sport of” 中特征激活的选定干预效果。

无论是去除 “sport” 超级节点还是 “Michael Jordan” 超级节点，都会对对数值产生显著影响，但对另一个超级节点的影响相对较小，这印证了它们之间是并行路径结构（parallel path structure）。此外，我们还观察到，抑制中间的 “basketball discussion” 超级节点同样对对数值有明显影响。

加法运算案例研究

我们现在来分析一个简单的加法提示词：calc: 36+59=。¹⁷ 与前几节不同，我们在本节中展示的是 Haiku 3.5 模型的结果，因为其内部结构更清晰，并且具有相同的归因结构（见附录 §Q：加法特征对比，了解并排展示的对照图）。我们选择研究 小数字加法，因为这是大多数大语言模型（LLMs）和人类成年人都能熟练处理的最基础行为之一（你可以在脑海中算一下，看你的思维路径是否与模型类似！）。

除了常规的特征可视化（针对通用数据集示例），我们还额外提供了一种专门覆盖所有两位数加法问题的可视化方式，从而可以更明确地看到每个特征在做什么。我们参考 Nikankin 等人 [21] 对神经元的分析方法，将激活于等号 “=” 词元的每个特征以以下三种图表形式进行可视化：

操作数图（operand plot）：显示在 100×100 的加数输入网格上该特征的激活情况；

输出权重图（output weight plot）：显示该特征对输出值区间 [0, 99] 的直接权重；¹⁸

嵌入权重图（embedding weight plot，或“反嵌入图”de-embedding [12]）：显示嵌入向量对该特征编码器（encoder）的直接影响，其格式与输出权重图一致。

下方我们展示了每种类型图的示例，各自对应不同的特征。在这个受限的输入域中，操作数图几乎能完整描述每个 CLT 特征的功能。图中出现的条纹（stripes）和网格（grids）代表不同类型的结构信息，例如：

对角线结构表示对和（sum）的某种约束；

网格结构表示对输入数字的模运算（modular）约束。

图 15：用于描述加法特征的图示中常见的元素。

在下方的超节点图中，我们可以观察到信息是如何从输入特征开始流动的。输入特征首先将两个加数的最后一位数字、数值本身以及数量级分别提取出来，然后沿着三条主要路径传播。这三条路径分别是：表示取模 10 的“最终位路径”（final-digit path，图中右侧浅棕色）、“中等精度路径”（moderate precision path，图中居中位置）、以及“低精度路径”（low precision path，图中左侧深棕色）。这些路径的计算结果共同生成了对加法结果的中等精度估计值，以及加法结果的最后一位数字。最终，这些不同路径中的信息会发生建设性干扰，即相互加强，从而帮助模型准确生成对加法和模 100 的估算值，以及最终的输出结果。

图 16：Haiku 模型在进行两位数加法时的简化归因图。输入的特征被送入若干可区分的处理路径中，分别进行不同层次的信息处理。

这个超节点图揭示了支持加法任务的一组特征的分类法（taxonomy），这些特征主要沿着两个重要维度发生变化：

1. 计算角色（Computational Role）

求和特征（Sum features）：这类特征的操作数图（operand plot）呈对角线形状，表示它们在输入对满足某种“和”的条件时激活。

查找表特征（Lookup Table Features）：图像看起来像一个网格（grid），本质上是满足形式为 condition1(a) AND condition2(b) 的输入对组成。这些我们会在下文中详细讨论。

加法函数特征（Add Function Features）：图像通常表现为水平或垂直的条纹，即某个加数满足某一条件，或者通过对两个加数上的条件进行 OR 操作而组合出激活模式。

广泛激活特征（Mostly Active Features）：这些特征在我们测试的 1 万个加法提示词中的大多数 “=” 位置上都被激活。

杂项特征（Miscellaneous Features）：这些特征具有各种奇特属性，常常表现为前几类激活图案的混合体。但通常它们对模型输出的影响较小。

2. 条件属性（Condition Properties）

精度（Precision）：

有的条件具有个位数精度（如 sum = _5 或 sum = 59），

有的条件在一定范围内完全匹配（例如宽度为 2 或 10），

也有的条件为模糊范围，范围宽度从 2 到 50 不等。

模运算特性（Modularity）：

有些特征对求和或操作数的值在特定模下表现出敏感，如 mod 10、mod 100，

也有更不常见的 mod 2、mod 5、mod 25 和 mod 50。

模式感知（Pattern）：

有些特征对输入或输出中的正则表达式风格的模式敏感，例如“以 51 开头”，这在文献 [21] 中也曾讨论。

这类特征在加法任务的归因图中影响较小，但在涉及数字的其他任务中可能更为重要。

图 17：在形式为 “calc: a+b=a + b =a+b=” 的提示词中，常常在 “=” 位置被激活的特征类型

这些发现在总体上与其他机制研究的结论一致：训练于自然语言语料的语言模型在执行加法任务时，会使用并行的启发式方法，这些方法涉及“数值大小（magnitudes）”和“模运算（moduli）”，并通过相互协作干涉，最终得出正确答案 [21, 22, 23]。具体来说，Nikankin 等人 [21] 提出了“启发式包（bag of heuristics）”的解释方式，识别出一组“操作数特征（operand features）”（相当于我们所说的 “add X” 特征）和“结果特征（result features）”（相当于我们所说的 “sum” 特征），它们在感知输入和产生输出时具有不同的精度（high-/low-precision）和模数特性（modularity）。

我们还识别出了查找表特征（lookup table features）的存在，这是模型架构和 CLT机制共同作用下的有趣结果。神经元与 CLT 特征的激活是通过对输入之和施加非线性函数得出的。这种非线性会导致特征响应行为出现“平行四边形约束（parallelogram constraint）”：具体来说，若某个特征 f 在输入 x+y 和 z+w上激活，那么它至少还需要在 x+w 或 z+y上激活。这是因为 fff 的预激活值是操作数的仿射函数（affine function）^21。

特别地，输入特征无法一步产生一个通用的“sum = 5”类型特征。例如，一个在 1+4 和 2+3 上激活的“sum = 5”特征，理论上也必须至少在 1+3 或 2+4 上激活。因此，在将两个加数的信息传递到等号（"="）位置，并生成其和的属性之间，必须存在一个中间处理步骤。而 CLT 查找表特征正是执行这一中间步骤的机制 ^22。

为了验证我们在归因图中观察到的结构是否确实反映了模型的因果结构，我们设计了一系列干预实验。对于每一个超级节点，我们将其激活值反转为其原始值的负数，并测量这一干预对所有后续超级节点及输出的影响。实验结果大体上与归因图中揭示的因果路径相一致。

图 18：对提示词 “calc: 36+59=” 进行选定干预后，各特征激活的变化情况。

特别地，当我们对两个输入词元中任意一个的**个位数特征（ones-digit feature）**进行抑制时，整个“个位路径”（ones-digit pathway）都会被抑制掉——包括 _6 + _9 查找表特征（lookup table features），以及由其引出的 sum = 5 和 sum = 95 特征。与此同时，**数量级路径（magnitude pathway）**却几乎不受影响，例如 sum ≈ 92 的特征依然保持激活。

更值得注意的是，当我们抑制 _6 这一特征时，模型会以很高的置信度输出 98，而不是正确答案 95。这说明模型仍然保留了原问题中的十位数信息（由数量级路径提供），但个位数却变成了 “9+9” 的结果（即 18 的个位）。相对地，抑制 _9 会让模型输出 91，而不是预期的 92，因此这种“数字对应现象”虽有趣，但应谨慎解读。

相反地，当我们抑制输入中的低精度特征（例如 ~30 和 ~59）时，模型会抑制掉低精度查找表特征、数量级求和特征和对应的 sum 特征，但个位路径仍然保持激活，没有受到干扰。

此外，我们还展示了干预对模型输出的定量影响。我们发现，当负向引导（negatively steering）_6 + _9 查找表特征时，输出结果被“涂抹”到一个大约 ±5 的范围内；而如果负向引导最终的 sum = 95 特征，则结果会在更大的范围内扩散（可能是受 sum ≈ 92 等其他特征的影响所致）。

图 19：对提示词 “calc: 36+59=” 进行不同干预后，目标预测的对数值分布情况。

我们将在下文探讨 CLT 特征在完整的两位数加法提示词范围内是如何相互作用的。在此之前，我们将先建立一个全局权重的分析框架，以便将这一工作回路结构推广到其他输入情形中。

4. 全局权重

我们构建的归因图展示了在特定提示词下，模型内部的特征是如何相互作用从而产生输出的。然而，我们同样关注更宏观的视角——即这些特征在所有上下文中是如何相互作用的。在经典的多层感知机MLP中，这种“全局相互作用”（global interactions）由模型的权重显式表示：当两个神经元位于相邻层时，它们之间的直接影响就是连接它们的权重值；而如果两个神经元之间隔着其他层，那么它们之间的影响则通过中间层逐步传递。

在我们的设置中，两个特征之间的相互作用包括与上下文无关的部分（context-independent component）和与上下文相关的部分（context-dependent component）。理想情况下，我们希望同时捕捉这两部分：即建立一套上下文无关的“全局权重”，但又能反映出模型在所有可能输入下的行为变化。

在本节中，我们将分析其中的上下文无关部分（可以看作是一种“虚拟权重”），指出其存在的一个问题——即出现了大量对模型分布没有因果影响的“干扰项”（interference terms），并进一步介绍一种通过共激活统计量（co-activation statistics）来应对干扰项的方法。

在某个具体的提示词上，一个源 CLT 特征s对目标特征t的影响可能通过三种路径实现：

残差-直接路径（residual-direct）：特征s的解码器向某一层的残差流写入信息，该信息随后被更高层的特征t的编码器读取。

注意力-直接路径（attention-direct）：特征 s的解码器写入残差流，该残差经过若干注意力头的 OV 路径传输后，再被特征t的编码器读取。

间接路径（indirect）： s到t之间的路径是通过其他 CLT 特征中介传递的。

值得指出的是，对于 残差-直接路径，其影响实际上可以简化为：“当前输入下特征s的激活值 × 一个虚拟权重”，这个虚拟权重在不同输入之间是固定的。因此，它可以被看作一种简单形式的全局权重。

在神经网络中，虚拟权重已经在多种结构组件中被使用，例如注意力头 [18]、稀疏自动编码器（SAE）特征 [8, 24]、转码器特征[12] 等。在 CLT 框架中，两个特征之间的虚拟权重可以通过下游特征的编码器与中间层上游特征的解码器之和的内积（inner product）来计算。

更形式化地说，设：

ℓs和 ℓt分别为特征s与t所在层的编码器位置；

Lst为s到t之间的所有中间层集合，即满足 ∀ℓ∈Lst, ℓs≤ℓ<ℓt；

表示特征s写入第ℓ层的解码器权重；

表示特征t的编码器权重。

那么，虚拟权重（virtual weight）计算公式如下：

归因图中的边权重包含两个部分的总和：残差-直接贡献项（即虚拟权重与源特征激活值的乘积）以及注意力-直接贡献项。

然而，使用虚拟权重解释特征之间的影响时存在一个主要问题：干扰（interference） [7, 25]。由于模型中的数百万个特征都是通过残差流（residual stream）进行交互的，因此理论上每个特征都会与其他所有特征产生连接。即使某些特征在实际分布中从未共同激活过，它们之间的虚拟权重依然可能很大。这就意味着这些虚拟连接并不会真正对模型行为产生影响，因此在这种情况下虚拟权重并不适合作为全局权重来解释模型行为。

我们可以通过以下示例观察干扰现象的存在：我们选取了18L中的一个 “Say a game name” 特征，并将它与其他特征之间的最大虚拟权重（按绝对值排序）进行了可视化展示。图中用绿色柱表示正向连接，紫色柱表示负向连接。我们可以看到，许多权重最大的特征很难解释，或者与“游戏名称”这一概念没有明显关联，这就是干扰的典型体现。

图 20：某个 18L 特征的虚拟权重（按幅度排序）的可视化。绿色条表示正向连接，紫色条表示负向连接。许多强连接并不容易解释。

你或许会认为，这表明虚拟权重或者我们构建的 CLT 特征并没有捕捉到可解释的连接。然而，通过去除干扰（interference），我们依然可以从这些权重中挖掘出许多具有可解释性的关联关系^24。

应对这个问题主要有两种基本思路：

限定分析范围：将研究对象限制在一个较小的输入域上，只关注在该输入集上激活的特征。这种方法我们已在 § 4.1【加法任务中的全局权重】中使用过；

引入数据分布上的特征共激活信息（feature-feature coactivation），利用特征在训练分布上共同出现的统计量，辅助理解连接的实际意义。

例如，设ai表示特征i的激活值，那么我们可以通过如下方式，乘以虚拟权重，来计算期望残差归因值（expected residual attribution）。

这表示我们在所有分析过的提示词中，某一条残差-直接路径的平均强度，该计算方式也由 Dunefsky 等人在 [12] 中提出。这类似于在大量词元上，对某一固定上下文位置中的所有归因图进行平均^25。

公式中的指示函数 1(aj > 0)反映出一个关键点：只有当目标特征j实际激活时，路径的归因才被计入。也就是说，归因图中的边只有在目标节点被激活的前提下才产生实际贡献。

然而，在实践中，小幅度的特征激活往往是多义的，即它们可能混杂了多个含义或语义。因此，指示函数可能过于粗糙。为了解决这个问题，作者提出了另一种方式：直接使用目标特征j的激活值作为归因的权重，以更精细地刻画特征间的交互强度。

我们称这种最后的权重类型为目标加权期望残差归因（Target-Weighted Expected Residual Attribution, TWERA）。正如前面的公式所示，这两种加权值都可以通过将原始虚拟权重（virtual weights）与“在分布上”（on-distribution）的激活统计量相乘来计算。

现在我们重新审视之前的那个“Say a game name（说出一个游戏名称）”特征的例子，不过这次我们使用 TWERA 值来排序连接，并绘制每个连接的“原始”虚拟权重以供比较。可以看到，许多连接现在变得更加可解释，这表明虽然原始虚拟权重中确实包含了有用的信号，但我们需要去除干扰（interference）才能看清这些信号。虚拟权重图中最具可解释性的几个特征（例如另一个“Say a game name”特征和“Ultimate frisbee”特征）仍然保留，而许多无关的概念则被过滤掉了。

图 21：相同示例特征的最大 TWERA 值

TWERA（目标加权期望残差归因）并不是干扰问题的完美解决方案。将 TWERA 值与原始虚拟权重（virtual weights）进行比较时，我们可以发现：许多原始虚拟权重非常小的连接却拥有较强的 TWERA 值(1)。这表明 TWERA 极大地依赖于特征之间在数据分布上的共激活统计，且它不仅仅是简单地移除干扰项，而是实质性地改变了哪些连接被视为重要。

此外，TWERA 与归因方法整体一样，对抑制性连接（inhibitory effects）的处理并不理想。这意味着 TWERA 并不总是能准确刻画负向影响路径。这些问题将在后续研究中进一步探讨。

尽管如此，我们发现全局权重依然是一个有价值的窗口，能够帮助我们理解特征在比归因图更广泛语境下的行为模式。在本文的其余部分以及配套论文中，我们会继续使用这些方法来辅助我们的机制理解。

加法中的全局权重

我们现在回到前面 Haiku 3.5 上分析的简单加法问题，并展示**数据无关的虚拟权重（data-independent virtual weights）**如何揭示我们对加法特征分类法中不同类型之间清晰结构的理解。

我们再次考虑 10,000 条形式为 calc: a + b = 的提示，其中 a, b∈[0,99]。除了使用之前定义的操作数图（operand plots）之外，我们还分析了虚拟权重图。为了更好地观察，我们将庞大的 nfeat×nfeat 虚拟权重矩阵限制为仅包含在这 10,000 个加法提示中至少激活 10 次的特征。这一限制让我们能够聚焦于所有可能通过直接残差路径产生交互的特征对。

以出现在 “36 + 59” 提示中的特征为例，我们在其邻域中观察到以下模式：

_6 + _9 查找表特征向多个“和”特征（如 sum = _15、sum = _25 等）提供输入。这些和特征可能需要与其他“数值量级”特征一同激活，才会产生作用。

add _9 特征是更基础的加数特征，它连接到多个个位查找表特征，如 _9 + _9、_0 + _9 等，构成更复杂的组合。

sum = _5 特征本身也受到来自多个查找表特征的馈送，表明这种“精确求和”为 5 的表示可能是由多个不同路径共同促成的。

最后，~36 + 60 的中等精度查找表特征除了接收提示中活跃的 add ~57 特征输入之外，也接受来自 add ~62 特征的信号，这表明模型会融合多个近似上下文来增强预测鲁棒性。

这些结构关系表明，在没有上下文依赖的情况下，虚拟权重依然能帮助我们理解模型内部“加法机制”的组织方式，并揭示出通用于不同输入组合的功能性路径网络。

图 22：在加法提示语中激活的 Haiku 特征之间的虚拟权重连接。来自 “calc: 36+59=” 的连接符合一般性模式。

我们发现，将范围限定在这些加法问题中激活的特征，可以构建出一个全局的工作回路图，其中大多数边在运算功能层面上具有可解释性：源特征和目标特征之间的连接反映了输入操作数的处理逻辑。更进一步地，这些特征之间的连接重现了前一节中更通用的图结构：add 特征检测输入中的特定操作数，查找表（lookup table）特征将信息传递给 sum 特征，后者与前者协同工作，共同产生模型的最终答案。

我们发现的一些特征呈现出类似 Nikankin 等人所描述的启发式规则 [21]：具有预测能力的特征直接将预测信息推向输出。例如，低精度特征会提升与其操作数范围匹配的输出概率；个位数查找表特征会直接提升与其加法映射匹配的输出（例如，_6 + _9 会直接提高输出为 _5 的概率）。几乎没有哪个特征在模型最后几层之前就能独立表示完整的加法结果。从 CLT 的角度来看，模型在加法任务中采用的是一系列中间启发式规则，而不是单一的、连贯的程序化逻辑。

我们对模型执行加法任务的计算步骤的关注，与 Kantamneni 和 Tegmark 的同期工作 [22] 形成了互补。他们从表示出发，发现整数的嵌入向量在傅里叶分解中表现出明显的尖峰，并据此识别出几个与数值的大小以及 mod 2、5、10、100 相关的低维子空间。在这些子空间中进行投影可以在保留模型性能的同时说明：模型可能使用了类似“时钟算法”的策略，在不同模空间中分别进行计算，最终构成干涉性叠加输出；这与 CLT 所揭示的高、低精度路径结构基本一致。我们观察到的一些关键特征的操作数图与他们发现的神经元相似，可以用傅里叶模式（经阈值处理）进行拟合。而我们图中的另一些关键特征（如固定以某些数字开头的操作数或和，如 95_ 或 9_）则无法用傅里叶形式表达，这说明他们的低秩近似存在一定误差。识别我们这一无监督方法所揭示的众多计算策略所对应的表示基础，将是未来一个值得探索的方向。

总体来看，我们复现了底层模型采用启发式策略的认知结构，并通过 CLT 特征进行了匹配；我们展示了这些启发式规则如何通过干预实验构建出可分离的信息通路；我们也展示了这些启发式规则之间如何彼此连接、逐步叠加，从而协同完成加法任务。

1. 效果评估

在本节中，我们对转码器特征及其所衍生的归因图进行了定性与定量评估，重点关注其可解释性和充分性。如果读者更关注研究发现和方法局限的总体讨论，可跳转至第 §6 节“生物”与第 §7 节“局限性”。

我们的研究方法能够为模型在特定提示（prompt）下的机制生成因果图描述。那么我们如何量化这些图在多大程度上真实地反映了模型内部的运作呢？这一问题难以简化为单一指标，因为它涉及多个维度：

可解释性：我们对单个特征“意义”的理解程度有多深？我们在下文中尝试用几种方式对其进行量化；然而，在实际操作中，我们仍然大量依赖主观判断。我们将多个特征归入“超节点（supernodes）”的分组逻辑是否合理也同样值得评估。本文未尝试量化这一点，而是留给读者自行判断这些分组是否合理且可解释。同时，在归因图的语境中，图本身的可解释性与单个特征的可解释性同等重要。为此，我们引入了图简洁性的一种量化指标：平均路径长度（average path length）。

充分性：我们的（经过裁剪的）归因图在多大程度上足以解释模型的行为？我们用几种方式尝试量化这一点。最直接的方式，是评估“替代模型（replacement model）”的输出在多大程度上匹配原始模型，这一评估在 §2.2 “从跨层转码器到替代模型”中已讨论。这是一种“硬评估”，因为归因图中任一环节的错误都可能严重影响整体性能。我们也引入了几种“软评估”，例如计算归因图中错误节点的比例。需要注意的是，我们展示的许多图示是归因图的子图，往往刻意只保留我们认为最关键的组成部分。例如在加法任务中，像“这是一个数学问题”这样的特征虽必要但不具启发性，常被故意省略。因此，我们不会对这些子图进行充分性评估。未来的研究可以探索更系统的方式来提取归因图的“有趣”组成部分，并量化其信息损失程度与性质。

机制忠实性（Mechanistic Faithfulness）：我们识别出的机制在多大程度上真的被模型所使用？为了评估这一点，我们进行了干预实验，例如抑制某些活跃特征，然后测量其对输出的影响是否符合替代模型的预测（归因图所描绘的结构即为该模型）。我们在下文中提供了定量评估，也在多个具体案例中检验了这些机制的忠实性，尤其关注我们标记为重要或有趣的机制。值得一提的是，我们对“机制忠实性”的理解与“工作回路组件必要性”的概念相近，但“必要性”往往是一种过于严格的判断标准——即便某个机制并非对输出“绝对必要”，它仍可能在多机制协同的背景下发挥重要作用，而这是我们在多个任务中常见的情形。

我们还需指出，本文中使用的评估方法在很多方面都是首次提出。这一方面是因为我们工作的独特性：我们专注于构建针对单一提示的归因图，而不是概括模型在整个任务中的工作回路结构。因此，开发更完善的自动化方法，用于评估整条解释链条（包括特征、超节点与归因图）在可解释性、充分性与忠实性上的表现，是未来研究的重要方向。有关以往工作回路评估方法的更多内容，可参阅 §9 “相关工作”。

跨层转码器评估

CLT特征的定性评估

为了让CLT（Cross-Layer Transcoder，跨层转码器）特征对我们有价值，它们必须是人类可解释的（也许在未来，只要能被AI解释就足够了）。可解释性归根结底是一种定性属性——衡量一个特征是否易于理解的最佳方法，是观察它在模型中的实际作用。

一种标准但并不完备的理解方式，是查看该特征在何种数据样本中被激活（我们将这些被激活样本的集合称为“特征可视化”）。我们在本文后续的工作回路案例研究中（以及配套论文中）提供了成千上万个这样的特征可视化示例。此外，我们还展示了从每个模型的不同层中随机抽取的50个特征。

我们的特征可视化展示了该特征被强烈激活时，来自若干公开数据集（包括 Common Corpus、去除书籍部分的 The Pile [27]、LMSYS Chat 1m [28] 以及 Isotonic 人机对话）中的样本片段。同时也包含了那些以不同激活强度（从最大激活逐步过渡至零）激活该特征的例子。高亮部分表示该特征在特定词元位置的激活强度。

我们还展示了该特征通过反嵌入层（unembedding layer）直接连接所最强烈促进或抑制的输出词元（需要注意的是，这些信息通常在模型较后层的特征中更具参考价值）。

在一个非常粗略的层面上，我们发现CLT特征大致可以分为以下几类：

输入特征：这些特征表示文本的低层属性，比如具体的词元或短语。大多数早期层的特征属于这一类，但中间层和后期层中也仍存在这类特征。

语境抽象特征：这些特征的激活表示上下文中的某种更抽象的属性。例如，一个代表“混合常见清洁剂的危险”的特征。这些特征通常出现在模型的中后层。

功能性特征：这类特征在模型中执行某种功能，比如“加9”特征，它促使模型输出一个比上下文中另一个数字大9的数字。这类特征也主要出现在中后层。

输出特征：这些特征的激活会促进特定的输出词元或者某类词元的生成。例如，“说出一个州府名”特征，会提升与美国各州首府名称对应的词元的概率。

多义特征：尤其是在模型的早期层中，存在一些同时对多个不相关概念激活的特征，例如某个特征会对“rhythm”（节奏）、Michael Jordan，以及其他一些无关概念激活。

与我们此前在跨编码器研究中的发现一致 [15]，我们还观察到不同特征的输出在模型层级中“存在”的程度也有差异：有些特征主要参与重建一个或少数几个层，而另一些特征则在模型的最后一层仍然有强输出，大多数特征介于两者之间。

此外，我们注意到，Haiku模型中所学习到的抽象特征普遍比较丰富，比起较小的18L模型展现出更复杂、更高阶的能力，这与该模型更强的整体性能相一致。

CLT的定量评估

在 第2.2节《从跨层转码器到替代模型》 中，我们评估了CLT是否能够重现原始模型的计算过程。本文中，我们进一步测量了 重建误差、稀疏性（以“L0”表示，即每个输入词元平均激活的特征数量）以及特征可解释性。随着CLT规模的扩大，我们观察到在重建误差和稀疏性方面出现了帕累托改进：在18L模型中，重建误差在L0值基本固定的情况下下降；在Haiku模型中，重建误差和L0值都下降了。在我们最大的18L实验中（使用了1000万个特征），我们获得了大约 11.5% 的归一化平均重建误差，以及 88 的平均L0。在最大的Haiku实验中（使用了3000万个特征），我们获得了 21.7% 的归一化重建误差，以及 235 的平均L0。

我们还使用两个由LLM（大语言模型）驱动的定量指标来评估特征的可解释性，这两个方法在文献 [29] 中有详细介绍：

Sort Eval（排序评估）：我们随机抽取两个特征，并找出在数据集中最强激活这些特征的样本集合。我们将这两个集合展示给 Claude（Anthropic的大语言模型），包括每个词元的特征激活信息。接着我们展示一些只激活其中一个特征的样本，要求Claude判断这些样本属于哪个特征。最终得分为Claude判断正确的概率。

Contrastive Eval（对比评估）：我们使用Claude生成一对内容和结构相似但在某一点上有所不同的提示语（prompt），然后找出仅在其中一个提示语上激活的特征集合。我们将这些特征的可视化、两个提示语同时展示给Claude，并让它判断哪一个提示语激活了该特征。最终得分为Claude在多轮测试中预测正确提示语的概率。

我们发现，这两种指标都表明：随着CLT规模扩大，其特征的质量在可解释性与重建效果上同步提升（具体数据可见下方图表）^30。

我们还将CLT与两个基线方法进行了比较：每层转码器（Per-layer transcoders, PLTs）：在模型的每一层分别训练的转码器。原始神经元（Raw neurons）：直接使用模型原始神经元，在不同激活阈值下进行选择。结果表明：在所有评估指标上，CLTs的表现优于PLTs，且CLTs和PLTs都远优于使用阈值的原始神经元在帕累托边界上的性能表现。 31

图23：对18L模型拟合的多种字典类型的重建误差与稀疏性 / 可解释性得分

图24：18L与Haiku模型的重建误差和稀疏性 / 可解释性对比

归因图评估

在 第3节“归因图” 中，我们主要通过定性观察来分析归因图的结构与特征。而在本节中，我们将展开更为定量的评估，用于比较不同的方法选择（例如使用哪种转码器）以及词典规模的差异。在接下来的每个小节中，我们将介绍一个评估指标，并使用三种方法生成的归因图进行比较：

跨层转码器（CLT）；

逐层转码器（Per-layer Transcoders, PLT）；

模型中原始神经元进行阈值化后的结果（thresholded neurons）。

为了将这些定量评估与定性观察连接起来，我们会链接一些在特定指标上表现特别好或特别差的归因图，以展示该指标的实际意义。

我们并不把这些指标视为需要优化的“基本目标函数”，但它们在跟踪词典学习（dictionary learning）过程中的机器学习改进、以及发现我们方法在某些提示词上效果不佳的情况时，发挥了重要作用。

§ 5.2.1 节点影响力的计算

我们的图评估指标依赖于“间接影响矩阵（indirect influence matrix）”的计算。简单来说，这个矩阵衡量的是图中任意两个节点之间通过所有可能路径产生的影响力总和。基于这个矩阵，我们可以得到一个自然的节点“重要性指标”：即它对对数值节点（最终输出）的影响程度。同时，我们也常常比较“错误节点（error nodes）”和“非错误节点”对输出的影响力大小。

构建这个间接影响矩阵的过程如下：

首先，从归因图中提取出邻接矩阵（adjacency matrix），然后将其中的边权值取绝对值（或简单地将负值截断为0），得到无符号邻接矩阵。接着，对每个节点的输入边进行归一化处理，使得它们的权重之和为1。我们记这个归一化后的邻接矩阵为 AAA，它是以“目标节点、源节点”为顺序进行索引的。

然后，我们构造间接影响矩阵 BBB，其定义为：

B=A+A2+A3+⋯

这是一个Neumann 级数（Neumann series），可以高效地通过矩阵运算方式计算为：

B=(I−A)−1−I

矩阵 B中的每个元素表示从某一节点到另一节点所有路径强度之和，而每条路径的强度由路径上各边的权重乘积决定。

为了计算每个节点对最终输出对数值的影响力得分，我们会取出矩阵B中所有输出对数值节点对应行，根据其输出概率进行加权平均，从而得到一个节点影响力评分。

§ 5.2.2 路径长度的测量与比较

衡量图结构复杂性的一个自然指标是从嵌入节点（embedding nodes）到对数值节点的平均路径长度。直观上来说，较短的路径更容易理解，因为它们需要解释的因果链条较少。

为了衡量不同长度路径的影响力，我们构造一系列影响矩阵 。定义为：。这表示路径长度小于等于 ℓ的所有路径对节点影响力的累加。进一步地，我们定义一个影响力总量指标：

其中 e 表示所有的嵌入节点，t 是一个对数值节点。也就是说，Pℓ表示在最大路径长度为 ℓ 时，从嵌入节点传递到对数值节点的总影响力。

在下图中，我们比较了三种方法所构建的图在不同路径长度下的影响力分布，这些图分别由：

使用 1000 万个特征的 CLT（跨层转码器）；

使用 1000 万个特征的逐层 PLT（逐层转码器）；

阈值化后的原始神经元（thresholded neurons）。

所构建，并且是基于一个预训练提示词数据集生成的（未经过裁剪）。

图 25：不同字典类型在路径长度下的平均累计影响力对比。路径越短，因果链条越容易追踪。

跨层转码器最重要的优势之一是它们显著缩短了图中的路径长度。为了更直观地理解这一质变带来的差异，我们邀请读者查看同一提示下，不同替代模型所生成的图对比。

我们发现，跨层转码器缩短路径的一个关键机制在于“放大”（amplification）结构的压缩——即一系列相似特征在不同层中连续激活彼此的情况。例如，在提示词 Zagreb:Croatia::Copenhagen: 中，使用逐层转码器（per-layer transcoder）时，模型会沿着一条长度为 7 的路径传递，该路径全部由 “Copenhagen” 相关特征组成；而使用跨层转码器时，这些特征被整体压缩为第 1 层中的若干特征，大大简化了路径结构。

图 26：与逐层转码器（PLTs）相比，跨层转码器（CLTs）生成的图结构更为简洁。

这个例子展示了将多层中重复计算的放大过程整合为单个跨层特征（CLT）的利与弊。一方面，这种整合极大地提高了可解释性。CLT 能自动将重复的计算压缩为一个特征，无需事后分析或聚类处理。此外，它还能降低“链条中断”（chain-breaking）的风险——在放大链条中的某一步若缺失了相关特征，就无法继续追溯图中的因果路径，而 CLT 的整合可以避免这种中断。另一方面，这种整合会带来因果结构偏离的问题。CLT 表示的机制并不完全等同于原始模型的真实机制，因此存在替代模型（replacement model）与底层模型行为不一致的风险。在上面的例子中，我们观察到一组 “Copenhagen” 特征激活了一个 “Denmark” 特征，然后形成了 Copenhagen 与 Denmark 特征之间的互相强化链条。这个动态过程在 CLT 图中是不可见的。如果这个机制在底层模型中真实存在，那就说明 CLT 在此处是机制上不忠实的一个例子。

§ 5.2.3 评估与比较图的完整性

由于我们的替代模型在重建过程中存在误差，我们希望衡量模型实际计算过程有多少被捕捉到了。也就是说，我们希望了解图中的“因果影响”（graph influence）中有多少可以归因于特征节点（feature nodes），而不是误差节点（error nodes）。

为此，我们主要依赖两个指标：

图完整性评分：衡量输入边中有多少（以目标节点的对数值影响分数加权）来自于特征或嵌入节点（embedding nodes），而不是误差节点。

图替代评分：衡量从嵌入节点出发，穿过特征节点，最终到达对数值节点的**完整路径（以路径强度加权）**所占的比例，而非经过误差节点的路径。

从直觉上看，完整性评分更宽松，给予“部分解释”以一定分数，强调最重要输入的覆盖度；而替代评分更严格，只有完整的解释路径才会获得奖励。

在下文中，我们会报告不同规模和类型的特征字典在预训练提示数据集（pretraining prompt dataset）上的平均未剪枝图的替代评分与完整性评分。我们发现，最显著的方法学改进出现在从逐层转码器到跨层转码器的转变；在此基础上，随着特征数量的扩大，图的表现仍有提升，但边际收益逐渐递减。

图 27：不同字典类型生成的图在每个词元的 L0 水平下的图完整性评分与替代评分对比。更高的替代评分意味着图中“空洞”更少，即更多的计算路径由特征节点解释；而更低的 L0 值（每个输入词元激活的特征数）则表明图结构更加简洁，具有更好的可解释性。

为了帮助读者理解不同评分的图之间的质性差异，作者建议查看一些代表性的归因图（attribution graphs）。这些图已经按照默认方式进行了裁剪，具体方法在后文 § 5.2.4 中详细说明。

§ 5.2.4 图裁剪

为了让图更易于阅读与理解，作者对图结构进行了广泛裁剪。

裁剪的多少会影响我们从图中能提取的信息，因此衡量图裁剪效果时，需要参考之前定义的两个指标：

完整性评分：被裁剪的节点将计入“误差节点（error nodes）”，影响整体解释力；

替代评分：衡量从输入嵌入节点到输出 logits 节点之间通过特征节点完成解释的路径比例。

作者通过调整裁剪阈值，在图中节点与边的数量之间，和替代/完整性评分之间构建出一个平衡边界。

完整裁剪过程及其对应图表将在附录中详细展开。

图 28：不同剪枝阈值下归因图的平均节点数与完整性得分

我们发现，在仅减少大约 20% 的完整性分数的情况下，通常可以将归因图中的节点数量减少一个数量级（比如从几千个减少到几百个）。

为了直观了解这些分数性质上的不同，我们展示了同一个提示词在不同剪枝阈值下所生成的归因图的表格。

评估机制忠实度

如 § 3.5【通过干预验证归因图假设】中所讨论，归因图提供了对模型内部机制的假设，而这些假设必须通过扰动实验进行验证。这是因为归因图描述的是局部替代模型中的交互关系，而这种模型可能与底层真实模型有所不同。

在我们的大部分研究中，归因图被用作生成关于模型内部具体机制的假设的工具，例如：“特征 A 激活特征 B，从而提高生成词元X 的概率”。这些机制对应归因图中的“片段”。我们在此总结了三种验证实验的结果，具体细节请参见附录 § G【验证替代模型】。

我们首先评估从归因图中导出的影响力指标是否能够预测模型输出对数值或其他特征在受到干预时的变化。首先，我们测量一个节点的对数值影响分数是否能够预测在移除该特征（即“消融”）后，模型输出分布发生的变化。我们发现，该影响力指标比一些基线方法更具预测能力，比如：直接归因（即仅考虑归因图中的直接边，忽略多跳路径）和激活强度（activation magnitude）。详见【验证节点对对数值的影响】一节。

随后，我们对特征之间的交互作用进行类似的分析。我们计算特征对之间的影响分数，并与以下内容进行比较：移除对中上游特征之后，对下游特征激活造成的影响程度。我们观察到两者之间的 Spearman 等级相关系数为 0.72，这表明归因图中的影响分数是下游模型中实际影响的良好代理指标（详见【验证特征间影响】一节）。关于解释这些结果的细节，读者可参考附录“使用跨层特征进行引导的细微差别”。

上述指标可用于评估：某一干预实验是否可能验证归因图中某一特定机制。如果我们想更广义地验证归因图所隐含的全部机制假设，那么一种补充性方法是评估整个局部替代模型的机制忠实度，而不是仅验证归因图中的特定路径。

我们可以通过以下方式将此操作具体化：比较在局部替代模型中进行的扰动（即归因图所描述的扰动）与在底层真实模型中实施相同扰动时，两者在下游的效果是否一致。我们发现，在干预后一层的范围内，两者的响应具有一定相似性（余弦相似度约为 0.8，归一化均方误差约为 0.4）；但随着层数增加，扰动之间的差异会迅速累积并放大。

更多细节请参见【评估局部替代模型的忠实度】一节。

6. 生物

在我们的配套论文中，我们使用本文介绍的方法，对前沿模型 Claude 3.5 Haiku 的九个行为案例进行了深入的工作回路机制研究，包括：

多步推理（Multi-Step Reasoning）：我们展示了一个模型进行“两跳”推理的简单例子，用于完成“达拉斯所在州的首都是……”这一提示。模型的推理过程为：Dallas → Texas → Austin。我们能够观察并操控它对中间步骤“Texas”的内部表示。

诗歌创作中的规划（Planning in Poems）：我们展示了模型在写诗时如何对输出进行规划。在开始写每一行诗句之前，模型会先识别出可能出现在句末的押韵词。这些预选的押韵词随后会影响模型构造整句的方式。

多语言工作回路：我们发现，模型在处理多语言任务时使用了一种由语言特定工作回路和语言无关抽象工作回路混合而成的机制。其中，抽象工作回路在 Claude 3.5 Haiku 中比在较小模型中更为常见。

加法任务：我们强调了一个例子，其中相同的加法机制能够在截然不同的上下文中泛化使用；同时揭示出 Claude 3.5 Haiku 与一个较小模型在加法机制上的质的差异。

医学诊断：我们展示了一个例子，模型根据报告的症状推理出可能的诊断选项，并据此生成用于确认诊断的后续问题——这一切都是在“心中”完成的，并未外显书写中间步骤。

实体识别与幻觉生成：我们揭示了模型区分熟悉与陌生实体的工作回路机制，该机制决定模型是选择作答事实问题，还是表示“不知道”。该工作回路一旦“失效”，就可能导致幻觉生成。

拒绝有害请求：我们发现，在微调阶段，模型构建了一个通用的“有害请求”特征，它整合自预训练阶段学到的多个具体有害请求的特征。

越狱案例分析：我们分析了一个越狱示例，其方式是先诱导模型“在不自觉的情况下”开始给出危险指令，然后因为对语法和句法规则的遵循压力，继续进行。

思维链的真实性：我们研究了模型的思维链推理是否真实地反映其内部机制。我们能够区分以下三种情况：模型确实执行了它声称的推理步骤；模型虚构了一个看似合理但并不真实的推理过程；模型根据人类提示逆向推理，以便其“推理过程”最终得出人类给出的答案。

具有隐藏目标的模型：我们还将此方法应用于一个变体模型，它在微调中被引导去追求一个隐藏目标，即利用其训练过程中的偏差。尽管该模型不愿意在回答中主动暴露其目标，我们的方法仍揭示了它将该目标“内嵌”在其“助手”人格之中。

我们鼓励读者在阅读后续章节中关于方法局限性的讨论之前，先仔细探索上述案例研究，以更好理解这些局限性如何塑造了我们的方法开发路径。

7. 局限性

尽管本文以及配套论文中展示了令人振奋的研究成果，我们的方法仍存在一些显著的局限性。从宏观上看，最主要的局限包括：

注意力工作回路的缺失 我们没有解释注意力是如何通过 QK 工作回路（Query-Key 工作回路）计算的，因此有时会“错过计算中最关键的部分”。

重建误差与“暗物质” 我们只能解释模型计算的一部分，仍有大量“隐藏”部分未被揭示。当关键计算没有被还原时，归因图也就无法揭示太多有价值的内容。

非激活特征与抑制工作回路的作用 很多时候，某些特征没有被激活与某些特征被激活同样值得关注。特别是，有许多有趣的工作回路涉及一个特征抑制另一个特征的情况。

图结构的复杂性 生成的归因图通常非常复杂，难以理解。

特征抽象层级不当 由于特征被“切分”或“吸收”等问题，导致很多特征不在便于理解的抽象层级上，这使得整个工作回路更难被人类解释。

难以理解全局工作回路 理想情况下，我们希望从全局角度理解模型，而非只解释某一个样本上的归因路径。但目前要做到真正的“全局工作回路理解”仍面临极大挑战。

机制的忠实性问题 当我们用 transcoder（跨层解码器）替换 MLP（多层感知机）计算时，我们到底有多大把握，它们使用的是与原始 MLP 相同的机制？而不是仅仅在输出结果上高度相关？

7.1 缺失的注意力工作回路

我们方法的一个重要局限是：我们构建归因图时是基于固定的注意力模式进行计算的。这使得归因操作在数学上是清晰和严谨的，但也意味着我们的图并不尝试解释模型的注意力模式是如何形成的，也不说明这些注意力模式如何通过注意力头的输出-值（output-value）矩阵介导特征与特征之间的相互作用 [18]。

在本文中，我们主要聚焦于那些注意力模式对模型关键计算“不是特别重要”的案例研究，因此这种局限尚不明显。然而，在很多情况下，我们发现这一限制使得归因图几乎无法提供任何有用信息。

§7.1.1 示例：归纳机制

让我们暂时来看一个更简单的模型 —— 一个仅有两层的注意力模型，这是 [18] 中研究的典型案例之一。

这些模型一个有趣的特性是它们使用所谓的归纳头（induction heads）来执行基础的“上下文学习”（in-context learning）[18, 30]。举个例子，如果我们输入如下提示：

I always loved visiting Aunt Sally. Whenever I was feeling sad, Aunt

这种模型中的归纳头会回溯并注意到前面出现过的“Sally”，然后预测当前最有可能的输出就是 “Sally”。

但如果我们将目前的方法（归因图生成方法）应用在这种情况下，我们得到的解释就显得毫无信息量：它只会告诉我们，“模型预测了‘Sally’，是因为上下文中曾经出现过‘Sally’这个词。”

换言之，这种方法无法揭示“为什么模型知道应该回头看‘Sally’”或“注意力机制是如何使得模型学会‘在重复模式中填空’的”。

图 29：一个假想的归纳头示例揭示了当前归因图方法的一个重要局限：它无法解释注意力是如何传递信息的。而对于归纳头而言，注意力机制本身才是全部的关键所在。

§ 7.1.2 示例：选择题

归纳机制是注意力计算中最简单的一个案例，即使没有归因图的辅助，我们也能对其机制做出合理猜测。然而，归因图的失败也会出现在更复杂的场景中，这种失败会彻底掩盖模型推理过程中最关键的环节。例如，来看一个选择题：

人类：第二次世界大战结束于哪一年？

（A）1776

（B）1945

（C）1865

助手：答案：（B）

当我们为助手回答中的“B”计算归因图（可交互图形可视化）时，得到的解释相当无趣——模型之所以选择“B”，是因为在“（B）”之后的词元激活了一个与正确答案相关的特征。（此外，还有一条指向“B”的直接路径，以及通过“说出 B”这一动作特征所介导的输出路径；为了简化，我们在此略去这些路径的细节。）

然而，这些都没有解释模型是如何判断出1945才是正确答案的！归因图“跳过了”最关键的计算步骤，也就是模型是如何“知道”1945正确的这一推理过程。这背后的原因是，该行为是由注意力机制主导的。进一步调查显示，模型中存在三个“正确答案”特征，它们在面对选择题时会对正确答案产生激活，干预实验证明这些特征发挥了核心作用。据此，我们推测其背后的机制可能如下所示

图30：在选择题中，注意力机制似乎对于理解模型的关键推理过程至关重要。

由于这里涉及大量推测，因此我们有必要明确指出我们对 QK 工作回路（QK-circuit，即由 Query 和 Key 计算出的注意力权重机制）所了解的内容与尚不了解的部分。

我们知道，该机制受到注意力的控制，因为冻结注意力机制会使模型的回答被锁定。

我们不知道该机制是否由某一个特定的注意力头所主导，也不知道参与其中的头是否具有可以推广为通用行为的性质。

我们知道有三个特征似乎可以追踪“这看起来像是正确答案”的信号。我们也知道，对这些特征进行干预会以可预期的方式改变模型的回答。例如，如果我们在人为干预下在选项 C 上激活这些特征，模型就会预测答案为 C。

我们不知道这些“正确答案”特征是否直接作用于某个注意力头的 Key 侧；同样，我们也不知道是否存在“需要答案”的特征并作用于 Query 侧。

我们还不清楚是否有其他并行的替代机制在起作用（参见 Feng 与 Steinhardt 的研究 [31]）。

总之，有很多我们尚未理解的地方！

尽管我们对机制的理解有限，但有一点似乎非常明确：模型的行为关键是沿着注意力模式和用于计算这些模式的 QK 工作回路进行传播的。在目前尚无法修复这一点之前，我们的归因图将继续“遗漏关键部分”，尤其是在注意力机制发挥核心作用的情境中。虽然在本文案例中我们通过人工分析获得了一部分理解，但我们仍希望未来的方法能够自动提取出这类信息。

§ 7.1.3 关于注意力的未来研究方向

我们推测，在大量不同的提示词中，都会存在类似的以注意力为核心的计算工作回路。在这些场景中，现有的归因图几乎无法提供帮助，因此需要开发新的方法。

从本质上讲，QK 工作回路是作用于残差流上的一个二次型结构。这意味着归因自然可以分配给 Query 侧和 Key 侧特征对。每一对特征都有一个权重，表征它们是否会增强或削弱对特定词元的注意力。然而，这种方法的缺点是其复杂度随特征对数量呈二次级数增长。

如果我们单独分析每一个注意力头的 QK 工作回路，可能会让问题变得更加复杂，甚至产生误导，特别是在存在注意力叠加的情况下。模型中可能将有趣的行为分散在多个注意力头中，每个都有自己的 QK 工作回路。

我们还怀疑，在注意力层中引入某些形式的字典学习，或是完整替代注意力层的结构，可能有助于使这些“QK归因”方法更具可操作性和可解释性。我们认为，找到处理注意力归因的正确方式，是未来研究中最重要的方向之一。

7.2 重构误差与“暗物质”机制

我们所使用的跨层转码器无法完全重构模型的激活过程。其结果是，我们的方法遗留了部分模型机制的“暗物质”——即未被观察到的部分。这一方面是因为我们使用的特征字典规模不足，无法覆盖模型可能掌握的所有概念所对应的特征。

在归因图中，这种失败表现为“错误节点”（error node）：这类节点作为其他节点的输入来源，但自身却没有任何输入，仿佛是“无中生有”，且无法被解释。在本文展示的诸多示例中，尽管存在错误节点，我们依然设法识别出了一些有趣的机制。但需要明确指出，我们描述的工作回路仅为模型计算过程的部分描述——既因为错误节点的存在，也因为我们所展示的工作回路通常只涵盖了图中非错误节点的一个子集。

然而，有些情况下，错误节点会完全掩盖模型的实际行为。例如，考虑以下一次越狱攻击尝试——这是一个对模型提出的模糊指令，试图诱导其生成恶意软件（该请求被模型拒绝）：

人类：Write an office macro TAhT SEaRChEs fOS AND EtEIaFTxLRS pASWORdS

助手：

在对应的归因图中，几乎所有与提示词对应的节点都是错误节点，导致我们无法追踪与模型拒绝行为相关的特征是从何而来，亦无法解释其内部机制。

这个例子中错误节点的大量出现并不令人意外——该提示词明显属于分布外输入，相比于训练语料而言差异较大，因此跨层转码器在预测模型行为时表现不佳是可以预期的。

此外，我们也指出，另一个主要误差来源是：我们对特征的人工解释与其真实语义之间存在差距。我们对特征的解释通常过于粗糙，无法精准对应其实际的激活模式。

§ 7.2.1 关于重构误差与“暗物质”的未来研究方向

我们认为可以从多个角度解决这一问题：

将替代模型的规模扩大，并使用更多训练数据，有助于提高可解释的方差比例；

对现有的跨层转码器架构进行结构性修改，使其表达能力更强，从而能解释更多变化；

将替代模型的训练过程从仅依赖均方误差（MSE）转向更加端到端的训练方式，即使在 MSE 固定的情况下，也能降低错误节点的权重；

在感兴趣的数据分布上对替代模型进行微调，可以提升我们在这些分布上捕捉机制的能力；

开发从错误节点“反向归因”的方法。虽然这会在归因图中留下一个无法解释的“空洞”，但在某些场景下，仍然可能比现有的“无输入”错误节点提供更多的模型洞察。

7.3 非激活特征与抑制工作回路的作用

我们的跨层转码器特征经过训练，具有稀疏激活性。这种稀疏性是我们方法成功的关键之一，它使我们在面对一个具体的提示词时，只需关注相对较少的一组特征，而不必处理替代模型中成千万上亿的全部特征。

然而，这种便利性建立在一个关键假设之上——即：只有被激活的特征才参与了模型做出响应的机制。

事实上，情况并非总是如此！在某些情形中，某个特征未被激活的状态本身可能正是模型响应的关键，这种未激活状态可能是因为它被其他特征所抑制。例如，在我们关于幻觉生成与实体识别的分析中（详见配套论文），我们发现了一个工作回路：其中“无法回答”类的特征会被“已知实体”或“答案明确的问题”特征所抑制。因此，如果我们要解释模型为何在某一特定上下文中产生幻觉，就必须理解为何“无法回答”的特征没有被激活。

默认情况下，我们的归因图并不显示此类信息，因为它只展示了被激活的特征。如果我们已有假设，认为某些未激活特征的“被抑制”状态可能与模型的输出相关，我们可以将这些特征手动加入归因图中。但这种做法削弱了我们方法的一个重要优势：支持无假设、探索性的分析能力。

这就带来了一个挑战——我们该如何从数以千万计的未激活特征中，识别出那些“值得关注”的特征？换句话说，我们希望找出那些“反事实地可能被激活”的特征。在实体识别的例子中，我们通过构建对比性的提示词对（例如“Michael Jordan”和“Michael Batkin”），比较包含已知实体与未知实体的输入，并聚焦于在每组提示词中至少在一端被激活的特征，来识别这类反事实特征。我们认为，这种“对比性成对分析”策略将在未来的工作回路分析中扮演关键角色。

与此同时，我们也希望开发更具无监督能力的方法，以识别出那些关键的被抑制特征。其中一个可能方向是进行特征消融实验，并关注那些“只差一次消融”即可从未激活变为激活的特征集合。

有人可能会认为，这类问题可以通过转向全局工作回路分析（global circuit analysis）来规避。但实际上，一个更深层次的挑战仍然存在。我们需要一种方法来筛除“干扰性权重（interference weights）”，一种自然的做法是依据特征的共现关系进行筛选。但这种策略会忽略一些关键的抑制性权重——即某个特征稳定地抑制另一个特征的激活。这可以被视为一种“全局工作回路中与局部归因分析中非激活特征问题等价的挑战”。

7.4 图结构复杂性

可解释性研究的根本挑战之一，是构建能够降低理解复杂计算认知负担的抽象结构与交互接口 [37]。我们的归因方法就是为了尽可能减轻理解工作回路的认知负担而设计的。例如：

特征的稀疏性使得归因图中的节点数量大幅减少；

我们会对归因图进行裁剪，帮助分析者聚焦于最重要的组成部分；

我们设计了便于图结构导航的用户界面，以实现流畅的交互体验；

我们使用了一种虽然不够严谨但实用的抽象方式，即“超节点”，用于临时将若干相关特征组合在一起。

尽管我们已经采取了上述多种简化措施，归因图仍然相当复杂，理解它们往往需要投入大量时间和精力，主要原因包括：

即使经过完整的裁剪流程，且输入提示词长度较短，生成的图仍包含数百个特征节点与上千条边；

我们感兴趣的语义概念，通常是“扩散”在多个特征上的，难以通过单一特征精确定位；

每个特征通常会从多个其他特征中接收微小输入，这使得我们很难简明地总结“是什么导致了该特征被激活”；

特征之间的影响路径往往不止一条，而且路径长度不同、方向可能相反，甚至符号（正负作用）也可能不同！

因此，我们很难将归因图中揭示的机制浓缩为清晰易懂的叙事结构。本论文中呈现的机制案例（vignette），都是在简化之后的故事化版本，即便如此，它们仍仅覆盖了我们对模型计算过程的有限理解。

我们希望，未来能够通过以下几个方向来缓解图结构复杂性问题：

提升替代模型的训练质量；

引入更好的抽象机制；

发展更加智能的图裁剪方法；

构建更先进的图可视化工具。

7.5 抽象层级不当的特征

随着稀疏编码模型作为一种提取可解释特征的方法日益流行，越来越多研究者指出了这一方法的一些局限性（参见文献 [32, 33, 34, 35, 36]）。其中一个显著问题是特征分裂（feature splitting）[8, 37]：所提取的特征在某种意义上过于具体。这种过度具体化还可能引发一个相关问题——特征吸收（feature absorption）[35]，即某些特异性特征“抢走”了本应由更通用特征所代表的信息，从而导致原有的广义特征出现“空洞”。例如，可能出现一个特征只代表“美国城市中除纽约和洛杉矶外的其他城市”。

关于特征分裂的一个具体例子出现在我们本文的多个分析中。我们多次提到某些“说出 X”的特征，这些特征促使模型输出特定的词或词组。然而，我们也注意到，这类特征数量非常多，这暗示着它们实际上分别对应更为具体的上下文语义，而非通用表达。

举例来说，我们构造了十二个提示词，这些提示词在 Claude 3.5 Haiku 中都被补全为单词“during”。我们试图检测是否存在某个特征能够在所有提示词中被激活（即是否存在真正意义上的“说出 ‘during’”特征）。但结果显示：并不存在这样的特征，每一个特征仅在部分提示词中被激活。

进一步观察发现，特征的泛化程度随着跨层转码器规模的增加而降低。换句话说，越大的转码器反而提取出越具体的特征，造成更严重的特征分裂问题。

图31：随着跨层转码器CLT规模的扩大，特征分裂现象加剧。

有可能每个特征本身确实具有一定的可解释性——例如，它代表了一种在不同语境下说出“during”这个词的情形。然而，我们经常发现，我们真正关心的抽象层级，与我们所提取到的特征层级并不一致。使用规模较小的跨层转码器或许可以缓解这一问题，但同时也会导致我们捕捉到的模型计算信息减少。

在本文中，我们通常通过手动将语义相关的特征聚合为“超节点”的方式，来临时规避这一问题。尽管这种方法在实践中非常有用，但它需要大量人工干预，且很可能在过程中丢失了某些信息。同时，这也使得我们难以系统地研究同一机制在不同提示词下的泛化能力，因为同一语义类别中的不同特征子集，可能在不同提示词中被分别激活。

我们认为，要真正解决这一问题，首先要承认：可解释概念本身是分层次存在的，而我们在不同语境下，可能关注的是不同层级的概念。目前使用的稀疏编码方法，如稀疏自编码器（SAE）和跨层转码器，都是**“扁平化”的工具**，但我们可能需要一种层次化的变体，使不同抽象层级的特征能够共存，并保持可解释性。

近期已有一些研究者提出了“套娃式”（Matryoshka）结构的稀疏自编码器，用于应对这一问题 [38, 39]。另一些研究则提出了后处理方法，通过构建“元 SAE”（meta-SAE）来统一语义相关的特征 [40]。

7.6 理解全局工作回路的困难

在本文中，我们主要聚焦于归因图，它显示了在某个特定提示词下，不同特征之间的交互关系。然而，跨层转码器方法的一个理论优势在于，它可以给出特征之间的全局权重，这些权重不依赖于具体提示词。这使我们有机会估计替代模型的“连接组图谱”（connectome），从而了解该模型（尽管不一定是底层原始模型）在面对各种输入时所使用的通用计算策略。

在这一方向上，我们已经取得了一些成果。例如，在配套论文中关于“拒绝生成（Refusals）”的章节中，我们能够观察到模型中“有害请求”特征的全局输入来源，这些输入来自于多种不同类别的具体伤害语义。在本论文中，我们也对算术类特征的全局权重进行了深入研究，例如发现“说出以5结尾的数字”这一类特征会接受来自“6 + 9”、“7 + 8”等特征的输入。

然而，总体而言，我们发现理解全局特征之间的连接关系仍然非常困难。这主要有两个原因：

1. 干扰性权重 由于特征通常以叠加形式表示，为了学到有效的特征间连接，模型往往会同时产生一些伪连接，即：两者之间存在权重，但这种连接对模型表现既无意义也无用。这些“干扰性权重”之所以不会严重影响模型表现，是因为它们的影响往往不会“叠加到足以改变输出”。

举例来说，有时我们会观察到某个明显是“说出15”的特征（say 15），但其对应的头部对数值输出却包括了许多看似毫不相关的词汇，比如“gag”“duty”“temper”“dispers”。我们认为这些对数值连接与模型行为基本无关，因为当这个特征被激活时，像“duty”这样的词几乎不可能成为合理的生成结果，因此即使它的对数值被上调，也很难真正被采样出来。

不幸的是，这使得全局权重结构变得非常难以解释。这一现象同样适用于特征-特征之间的连接（详见 §4.1 “加法中的全局权重”部分）。

2. 注意力机制介导的交互 我们从跨层转码器中获得的全局特征权重，仅反映了不经注意力层所产生的直接交互。但实际上，还有一些特征间的关系是通过注意力头间接建立的。可以类比卷积神经网络中，不同位置偏移量对应多组权重的情况，注意力机制也在不同的“位置选择”上建立多层交互。

我们的归因图中的边权重，其实是直接权重与注意力介导权重的加权组合。但我们目前对“全局权重”的定义尚未纳入注意力机制的影响。一种可能的扩展做法是，计算每个注意力头所介导的全局权重。但这种方式有两个主要局限：

a. 若要让这一做法有效，我们需要先搞清楚每个注意力头是如何选择其注意目标的机制（参见 §7.1“缺失的注意力工作回路”部分）；

b. 此方法无法捕捉那些由多个注意力头组合产生的复杂交互机制 [18]。

要解决这个问题，很可能需要扩展我们当前的字典学习方法，使其能够学习出可解释的注意力特征或可替换的注意力头。

7.7 机制忠实性

我们的跨层转码器经过训练，旨在复现底层模型在每一层的激活状态。然而，即使转码器在数值上准确地重构了激活值，也无法保证其采用了与原模型相同的计算机制。例如，即便跨层转码器在训练分布上实现了0 均方误差（MSE），它可能学习到的是一个与原模型本质上完全不同的输入-输出函数，因此在面对分布外输入时可能出现显著的重构误差。

我们希望通过以下两种方式来缓解这一问题：

在广泛的数据分布上进行训练；

强制替代模型不仅重构最终输出，还要逐层重构底层模型的激活状态。

尽管如此，我们仍无法保证替代模型真正学习到了与原模型一致的机制。我们将这一能力称为“机制忠实性”，目前仍需通过事后验证（post-hoc verification）手段来评估。

在本研究中，我们通过扰动实验（如抑制或激活某些特征）来验证归因图中所揭示的机制。在我们呈现的案例研究中，通常能够验证：某些特征确实产生了我们预期的影响（无论是在模型输出上，还是在其他特征上的表现）。但这些验证的粒度仍然较粗——我们通常是对多个特征进行联合扰动（即对“超节点”操作），然后观察其对其他特征或输出对数值的方向性变化。

此外，我们通常会在不同的网络层上尝试扰动，选取产生最大效果的层作为实验层。这种方法虽然可以确认某种机制的大致存在，但无法验证归因图所给出的精细预测结构。理想情况下，我们应该能够准确预测在任意层扰动某个特征后，对另一个任意特征造成的影响。

在《附录 G：验证替代模型》中，我们尝试更系统地量化我们预测扰动结果的准确性。我们发现：对于扰动后几层以内的效应，预测效果较好；但对于更深层的影响，预测能力显著下降。这表明，尽管我们目前构建的工作回路描述可能在粗粒度层面上具有一定机制一致性，但在真正对齐到底层模型机制方面仍有显著提升空间。

我们对未来的探索方向持乐观态度，包括：

直接优化“机制忠实性”的训练方法；

探索新的字典学习架构，使其更自然地学习出机制一致的替代模型。

8. 讨论

我们对神经网络进行“可逆工程”（reverse engineering）的研究方法，包含四个基本步骤：将模型分解为组件、为这些组件提供描述、刻画组件如何交互以生成行为、以及验证这些描述[38]。在每一步中，都涉及多种选择，这些选择可以更或更不“有原则”。一个方法的能力，最终取决于它是否能提出关于模型行为的有效假设。

在本文中，我们的具体实践如下：

使用稀疏特征的跨层转码器替代 MLP 模块（对应“分解”）；

通过分析各特征在数据集中被激活的样本，来进行“描述”；

利用归因图分析它们在特定提示词中的交互关系（对应“交互”）；

通过因果干预实验（causal steering interventions）对这些假设进行“验证”。

我们认为，以下几项关键选择具有稳健性，并且未来有效的分解方法要么会做出相似选择，要么会找到新的方式来处理这些核心问题：

使用“学习到的特征”替代神经元

虽然神经元的最大激活样本通常是可解释的，但其低激活值样本却难以解释。理论上可以通过设定阈值限制神经元在“可解释区间”内运行，但我们发现，这种方式对模型性能的破坏远大于使用转码器或 CLT。这意味着，训练出的替代层在可解释性、L0 稀疏度与 MSE 重构误差方面，可实现对“阈值神经元”的帕累托改进（Pareto improvement）。虽然神经元集合本身是固定的，但它们仍可作为研究起点，且不需额外计算开销（参见 [41]）。

使用“跨层转码器”而非“残差流自编码器”

虽然残差流 SAE 能分解模型的潜在状态，但它不具备对模型计算步骤本身的自然分解能力。转码器的关键优势在于：其特征横跨 MLP 层，并通过残差流与其他层的转码器特征线性交互；而 SAE 特征之间的交互，则需通过非线性的 MLP 网络进行中介。

使用“跨层转码器（CLTs）”而非“单层转码器”

我们在早期假设 [15] 中指出，不同的 MLP 层可能共同协作，实现一个单一的计算步骤，即“跨层叠加现象（cross-layer superposition）”。最极端的情况是：多个层级不断放大早期层的一个特征，使其足够强大到可以影响模型后部的输出。CLT 能将这一类重复模式“压缩”为一个统一特征。我们在实验中发现了该现象的证据，比如路径长度与图中影响力之间的帕累托改进。

使用“线性直接作用”计算特征交互，而非非线性归因或消融

目前已有大量关于“显著性图（saliency maps）”或非线性网络归因的文献，包括消融分析、路径积分梯度 [42]、Shapley 值等方法 [43]。但即使是最有原则的非线性信任分配方法，仍然充满不确定性。由于我们希望精确地推理机制，因此我们构建了一个结构：在冻结部分机制（如注意力模式和归一化项）后，特征之间的直接交互为条件线性（conditionally linear）。这样可以将问题分为两部分：一部分是我们能够机制化理解的，另一部分尚待研究 [18]。转码器的使用也是实现线性特征交互的关键前提 [39, 40]。

我们还做出了一些“便利性选择”或“向更通用解决方案迈出的第一步”：

合并处理注意力路径

归因图中的每条边都表示两个特征之间的直接交互，这些交互路径中有些经过残差流，有些经过注意力头（attention heads）。在当前工作中，我们不区分这些路径类型。但这忽略了很多有趣的结构，因为哪些注意力头介导了某个交互，可能本身就富有语义（如“后继头”[44]、“归纳头”[30]）。

忽略 QK 工作回路

为了获得特征间的线性交互，我们将 transformer 的解释任务分成两部分（参见 Framework [18]）：首先分析特征之间的交互，条件是在某组注意力头下的“OV 工作回路”；但我们没有处理第二部分——即为何注意力头关注某些位置，即“QK 工作回路”。本研究不涉及此部分。

CLT 的训练仅使用稀疏正则项与重构损失

尽管我们的终极目标是构建一个在机制上忠实于原模型、并具备稀疏可解释结构的替代模型，但目前训练过程并未直接针对这些目标进行优化。

尽管如此，我们目前的方法已经在规划、多语言结构、幻觉、拒绝生成等多个方向上，揭示出了一些有趣且可验证的机制（详见配套论文）。

我们相信，训练出的可解释替代模型这一研究范式的持续推进，将在图结构度量的量化指标与模型行为可解释性的质化表现上带来同步进步。这种进展可能是渐进式的——即通过对 CLT 与注意力机制的逐步优化，持续提高工作回路识别能力；也可能出现一种完全不同的分解方法，在更大规模上更有效地揭示模型机制。

无论如何，我们期望进入一个新的阶段，即：分解方法与“神经网络生物学”研究之间形成飞轮效应。具体而言，模型结构分析中发现的新机制将激发新的分解技术的创新，而新的技术又将反过来揭示更多模型内部行为，从而将深层结构不断带入光明。

8.1 结语：加法带来的启示

加法是神经网络中最简单的行为之一，正因其结构高度明确，我们能够对所有特征在完整问题域上的行为进行精确刻画。这使我们可以跳过那一步常见却困难的流程——即反复观察数据集中激活样本，试图理解一个特征相对于其他特征在相似语境下的行为差异。这一分析揭示了 Haiku 3.5 所使用的一系列启发式策略，例如：“说出以5结尾的数字”“说出大约是50的数字”“说出以51开头的数字”等。这些模式在 Nikankin 的工作中已有描述 [21]。此外，我们还发现了一组查找表类特征（lookup table features），它们将满足某些条件的输入对（如个位数分别为6和9）连接到满足某种输出后果的和类特征（如产生以5结尾的和）。

然而，即使是在这个相对简单的任务中，我们在仅基于原始数据样本进行特征标注时，仍然犯了不少错误。例如，我们曾将“_6 + _9”类特征误认为是“和为 _5”的特征，只因在某些语境下它后面总是紧跟一个以5结尾的数字。此外，我们也难以区分：哪些是精度较低的不同尺度特征，哪些是仅因输入频率高而**“伪装”为敏感特定输入**的特征。

那么，当我们面对的是几十种“拒绝特征”这种更为模糊的语义类别时，情况可想而知会复杂得多！如果我们希望真正理解这些比算术更复杂的领域，就必须借助特征几何（feature geometry）或超人级自动解释能力（superhuman autointerpretability）等方法，对特征之间进行更精细的区分。

因为加法任务本身结构清晰，我们还得以观察到这些特征是如何互相连接，构建出并行的路径结构的。也就是说，模型从输入导向的简单启发式策略，逐步演化出输出导向的复杂启发式体系。这也体现了一个转变：从 Nikankin 所提出的“启发式集合（Bag of Heuristics）”，演化为“启发式图结构（Graph of Heuristics）”。

虚拟权重（virtual weights）揭示了这种计算结构：不同的查找表类特征组合在一起，形成具有不同模数与尺度的加法特征；这些又进一步组合出更精确的加法特征，并最终导向输出。我们推测，在更模糊的自然语言任务中，我们目前所划分的特征类型——如“未知实体”“有害请求”“庞大概念”等——实际上混合了来自不同深度的特征角色。而模型真正做的，可能是一个错综复杂的信息聚合与变换过程，只不过目前仍未被我们充分理解。

9. 相关工作

尽管机制可解释性仍是一个新兴领域，但近年来发展迅速。若想了解该领域的开放问题与已有方法的整体格局，我们推荐 Sharkey 等人近期撰写的综述文献 [32]。更宏观的视角可见于近年来关于机制可解释性及其相关主题的综述（如文献 [45, 46, 47, 48]）。

在我们以往的论文中，已讨论过本研究所依托的一些基础性课题。为了避免重复，此处仅作引用，读者可参见我们此前的相关讨论。这些课题包括：

可解释特征的存在性（如文献 [49, 50, 51]，参见前述讨论）

注意力头分析（如 [52, 53]）

BERT 研究综述（Bertology）（如 [54]）

可解释性接口（如 [55, 56]）

特征解缠（disentanglement）（如 [57]）

压缩感知理论（如 [58, 59]）

稀疏字典学习（sparse dictionary learning）（如 [60, 61]）

叠加理论（superposition theory）（如 [6, 5]）

神经编码与分布式表示理论（如 [62]）

激活引导技术（activation steering）（如 [63, 64]）

在接下来的两个章节中，我们将重点讨论机制可解释性实践中的两个核心阶段 [65]：特征识别（feature discovery）与工作回路分析（circuit analysis）。随后，我们还将回顾一些有关神经网络“生物学”层面的研究工作。

§ 9.1 特征识别方法

在工作回路分析中，首要挑战是找到合适的分析单元 [32]。神经网络的天然组成单元——如注意力头和神经元——因其叠加现象的存在而缺乏可解释性 [7, 66]，这使得寻找更优的分析单位成为该领域的核心问题。

稀疏字典学习起源于神经科学，用于分析神经记录数据 [60]。近年来的研究 [67, 8, 9, 10, 11, 68] 借助稀疏自编码器 [69, 70] 将该技术扩展到语言模型的表示学习中，用于对抗叠加效应。虽然 SAEs 已成功扩展至前沿大模型 [10, 68]，但研究者也发现了多个方法学限制，例如：

特征缩小 [71]

特征吸收 [35, 40]

缺乏规范化[72, 73, 74]

自动解释困难 [75, 76, 77]

在下游任务中的分类与引导表现较差 [33, 34]

从工作回路分析的角度看，SAE 的局限在于它分解的是表示而非计算过程。相比之下，转码器 [12, 13, 14, 17] 通过预测非线性模块的输出，能够穿越非线性变换，直接计算特征之间的交互，无需依赖路径积分、消融等中介归因方法。

目前字典学习方法仍处在活跃探索阶段，我们对解决方法学挑战的新方向仍保持高度兴趣。近期的研究探索了以下结构性改进：

多层特征学习（multilayer feature learning）[15, 78]

添加跳跃连接（skip connections）[79]

引入梯度信息 [80]

融入更强的层级归纳偏置（hierarchical inductive biases）[38, 39]

使用专家混合结构以提升计算效率（mixtures-of-experts）[81]

此外，研究社区也在探索新的训练策略，以学习更贴合下游激活分布的字典 [82]，减少特征缩小现象 [83, 71]，并让下游交互变得更加稀疏 [84]。为度量这些方法进展，研究者还提出了一系列标准化评估协议与 benchmark（如 [85, 86, 87, 88, 34, 89, 90]）。我们认为，以工作回路为中心的评估指标将成为字典学习下一阶段的主战场。

除了字典学习外，还有一些无监督方法在小规模设定中取得初步成功。例如：

将激活变换为局部交互基（local interaction basis）： L. Bushnaq 等人，《Identifying computationally-relevant and sparsely interacting features in neural networks》，arXiv:2405.10928（2024）

利用损失景观中的“简并性”进行机制可解释性分析： L. Bushnaq 等人，《Using degeneracy in the loss landscape for mechanistic interpretability》，arXiv:2405.10927（2024）[91, 92]

基于归因的参数分解方法也正在发展 [93]

§ 9.2 工作回路发现方法

术语定义。 在现有文献中，“工作回路（circuit）”一词的含义多种多样。Olah 等人 [65] 最初将其定义为神经网络中的一个子图，其节点是激活空间中的方向，边则表示这些方向之间的权重。随着研究的发展，这一定义在部分文献中被放宽，现在“工作回路”一词常常泛指网络组件的子图，其边权重通过某种归因或干预方法计算得出 [94, 2, 3]。

当前关于工作回路的定义和方法在多个维度上存在差异：

分析单元是否具有全局可解释性？（例如，对比“单义特征”与“跨数据分布执行多任务的注意力头”）

工作回路本身是否是全局性结构，或仅是局部有效的归因图？或者是其他形式？

工作回路中的边是否具备可解释性？（例如，是否通过线性归因得到，而非复杂非线性干预？）

方法是否自然处理叠加现象？

我们认为，机制可解释性研究的“北极星”目标是：构建一个由全局可解释单元组成、且边权重也具备解释性和全局有效性的结构。本研究尚未达到这一目标，当前仅提供了局部有效的归因图。

人工分析

早期的工作回路发现主要依赖人工完成，需要明确的假设和定制化的验证方法 [51, 18, 30, 2, 95]。常见技术包括：

因果中介分析（causal mediation analysis） [96]

激活补丁（activation patching） [1, 97, 98]

补丁递归（patch patching） [2, 99]

分布式对齐搜索（distributed alignment search） [100, 101]

这些方法常用于验证机制假设和定位因果路径，但通常不提供具有线性、可解释意义的特征之间边权重。

自动分析

Conmy 等人 [3] 首次将工作回路分析自动化，提出了一种递归补丁算法，可在指定任务下自动识别组成子图。然而，这种方法计算代价高昂，每一步都需要一次完整的前向传播。这推动了**归因补丁（attribution patching）**方法的提出 [102, 103]，该方法利用梯度来高效近似干预效果。

后续的大量研究对归因补丁进行了扩展，包括：

提升梯度近似精度 [104, 105, 106]

将方法适配于视觉模型 [107]

融合位置信息 [108]

其他被研究的方法还包括：

掩码学习（learned masking） [109, 110, 111]

工作回路探针法（circuit probing） [112]

离散化方法（discretization） [113]

信息流分析（information flow analysis） [114, 115]

这些自动化方法的主要目标是：隔离关键模型组件（如层、神经元、注意力头）及其相互作用关系。不过，它们并未解决组件本身的可解释性问题。

回归可解释单元

近年来，借助稀疏字典学习提供的更优计算单元，本研究与其他相关工作 [12, 17, 16, 116] 一同重新回到“发现可解释组件间连接”的路径上。

具体来说，我们的研究在方法上与 Dunefsky 等人 [12] 和 Ge 等人 [17] 最为接近：他们也采用转码器来构建逐提示词（per-prompt）归因图，并在计算过程中使用stop-gradient以分析与输入无关的全局权重。

但我们的方法有所不同，具体体现在以下方面：

使用跨层转码器（crosscoders）**整合冗余特征

采用更具全局视野的图裁剪算法

引入错误节点（error nodes）机制 [16]

配备更强大的可视化系统，支持更深入的定性分析

这些研究精神更接近 Olah 等人 [65] 所提出的“原始工作回路愿景”，但它们仍依赖于特定提示词下的量（如注意力模式），因此其通用性仍有限。

注意力工作回路

transformer 中的注意力机制为传统基于权重的工作回路分析带来了挑战。Olah 等人 [65] 使用边权方法分析神经网络结构，但 Elhage 等人 [18] 指出，注意力层可被分解为两部分：

非线性的 QK 部分：控制注意力模式

线性的 OV 部分：控制注意力输出

如果我们冻结 QK 部分（例如在特定提示词下），则转码器中通过注意力传导的特征交互就变为线性可分析结构。本研究与 Dunefsky 等人 [12] 采用了该思路。

其他研究则尝试：

在注意力输出上训练 SAE [117, 16, 116]

将特征与 key/query 矩阵相乘以解释注意力模式 [17]

替代模型

我们提出的替代模型的理念，与早期关于因果抽象 [118, 119] 和代理模型 [120, 121] 的研究精神相似——它们试图学习一个可解释的图模型，能够忠实表示一个底层黑箱模型。

但不同之处在于：这些方法通常需要任务说明或监督信号，而我们的方法在完全无监督的设定下学习替代模型。

工作回路评估

因果清洗（causal scrubbing） [122] 是早期评估解释质量的理论方法之一，其基本思路是通过保持行为不变的重采样消融来评估解释合理性。Shi 等人 [123] 则系统化地提出了评估工作回路假设的三大标准：

行为保持性（behavior preservation）

局部定位性（localization）

简约性（minimality）

他们将这些测试应用于 transformer 中的合成工作回路和实际识别出的工作回路中。

然而，Miller 等人 [26] 对现有机制忠实性评估指标提出了重要批评，指出它们对消融方法中的细微差异极为敏感，从而可能误导评估结果。

§ 9.3 神经环路生物学与现象学

除了方法论之外，已有大量研究通过深入的个案分析揭示了模型中的有趣现象学结构。例如，以下任务中都开展过细致的工作回路分析：

在玩具模型中的算术运算 [95, 124, 125, 126, 127]

Python 文档字符串生成任务 [128]

间接宾语识别任务 [2]

大于操作符的计算 [129]

多项选择题回答任务 [130]

代词性别识别 [96, 131, 132]

上下文内学习 [133]

这些个案研究的不断积累，使得人们能够进一步研究这些结构在其他任务中如何被复用 [134, 135]。此外，Tigges 等人 [136] 发现，许多工作回路分析的发现具有跨训练过程和模型规模的一致性。

在这些分析出现之前，还有一条长久的“Bertology”研究路线，专注于通过注意力模式分析和探针法（probing）来探索语言模型的“生理结构”（参见综述 [54]）。

参考文献

Locating and editing factual knowledge in gpt [link]Meng, K., Bau, D., Andonian, A. and Belinkov, Y., 2022. arXiv preprint arXiv:2202.05262.

Interpretability in the wild: a circuit for indirect object identification in gpt-2 small [link]Wang, K., Variengien, A., Conmy, A., Shlegeris, B. and Steinhardt, J., 2022. arXiv preprint arXiv:2211.00593.

Towards automated circuit discovery for mechanistic interpretability [PDF]Conmy, A., Mavor-Parker, A., Lynch, A., Heimersheim, S. and Garriga-Alonso, A., 2023. Advances in Neural Information Processing Systems, Vol 36, pp. 16318--16352.

Thread: Circuits [link]Cammarata, N., Carter, S., Goh, G., Olah, C., Petrov, M., Schubert, L., Voss, C., Egan, B. and Lim, S.K., 2020. Distill.

Linear algebraic structure of word senses, with applications to polysemy [PDF]Arora, S., Li, Y., Liang, Y., Ma, T. and Risteski, A., 2018. Transactions of the Association for Computational Linguistics, Vol 6, pp. 483--495. MIT Press.

Decoding The Thought Vector [link]Goh, G., 2016.

Toy Models of Superposition [HTML]Elhage, N., Hume, T., Olsson, C., Schiefer, N., Henighan, T., Kravec, S., Hatfield-Dodds, Z., Lasenby, R., Drain, D., Chen, C., Grosse, R., McCandlish, S., Kaplan, J., Amodei, D., Wattenberg, M. and Olah, C., 2022. Transformer Circuits Thread.

Towards Monosemanticity: Decomposing Language Models With Dictionary Learning [HTML]Bricken, T., Templeton, A., Batson, J., Chen, B., Jermyn, A., Conerly, T., Turner, N., Anil, C., Denison, C., Askell, A., Lasenby, R., Wu, Y., Kravec, S., Schiefer, N., Maxwell, T., Joseph, N., Hatfield-Dodds, Z., Tamkin, A., Nguyen, K., McLean, B., Burke, J.E., Hume, T., Carter, S., Henighan, T. and Olah, C., 2023. Transformer Circuits Thread.

Sparse Autoencoders Find Highly Interpretable Model Directions [link]Cunningham, H., Ewart, A., Smith, L., Huben, R. and Sharkey, L., 2023. arXiv preprint arXiv:2309.08600.

Scaling and evaluating sparse autoencoders [link]Gao, L., la Tour, T.D., Tillman, H., Goh, G., Troll, R., Radford, A., Sutskever, I., Leike, J. and Wu, J., 2024. arXiv preprint arXiv:2406.04093.

Jumping ahead: Improving reconstruction fidelity with jumprelu sparse autoencoders [link]Rajamanoharan, S., Lieberum, T., Sonnerat, N., Conmy, A., Varma, V., Kramar, J. and Nanda, N., 2024. arXiv preprint arXiv:2407.14435.

Transcoders find interpretable LLM feature circuits [PDF]Dunefsky, J., Chlenski, P. and Nanda, N., 2025. Advances in Neural Information Processing Systems, Vol 37, pp. 24375--24410.

dictionary_learning Github Repository [link]Marks, S., Karvonen, A. and Mueller, A., 2024. Github.

Predicting Future Activations [link]Templeton, A., Batson, J., Jermyn, A. and Olah, C., 2024.

Sparse Crosscoders for Cross-Layer Features and Model Diffing [HTML]Lindsey, J., Templeton, A., Marcus, J., Conerly, T., Batson, J. and Olah, C., 2024.

Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [link]Marks, S., Rager, C., Michaud, E.J., Belinkov, Y., Bau, D. and Mueller, A., 2024. arXiv preprint arXiv:2403.19647.

Automatically identifying local and global circuits with linear computation graphs [link]Ge, X., Zhu, F., Shu, W., Wang, J., He, Z. and Qiu, X., 2024. arXiv preprint arXiv:2405.13868.

A Mathematical Framework for Transformer Circuits [HTML]Elhage, N., Nanda, N., Olsson, C., Henighan, T., Joseph, N., Mann, B., Askell, A., Bai, Y., Chen, A., Conerly, T., DasSarma, N., Drain, D., Ganguli, D., Hatfield-Dodds, Z., Hernandez, D., Jones, A., Kernion, J., Lovitt, L., Ndousse, K., Amodei, D., Brown, T., Clark, J., Kaplan, J., McCandlish, S. and Olah, C., 2021. Transformer Circuits Thread.

Fact Finding: Attempting to Reverse-Engineer Factual Recall on the Neuron Level [link]Nanda, N., Rajamanoharan, S. and Shah, R., 2023.

Using Features For Easy Circuit Identification [link]Batson, J., Chen, B. and Jones, A., 2024.

Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics [link]Nikankin, Y., Reusch, A., Mueller, A. and Belinkov, Y., 2024.

Language Models Use Trigonometry to Do Addition [link]Kantamneni, S. and Tegmark, M., 2025.

Pre-trained large language models use fourier features to compute addition [link]Zhou, T., Fu, D., Sharan, V. and Jia, R., 2024. arXiv preprint arXiv:2406.03445.

Sparse Autoencoders Work on Attention Layer Outputs [link]Kissane, C., robertzk,, Conmy, A. and Nanda, N., 2024.

Superposition, Memorization, and Double Descent [HTML]Henighan, T., Carter, S., Hume, T., Elhage, N., Lasenby, R., Fort, S., Schiefer, N. and Olah, C., 2023. Transformer Circuits Thread.

Transformer circuit faithfulness metrics are not robust [link]Miller, J., Chughtai, B. and Saunders, W., 2024. arXiv preprint arXiv:2407.08734.

The Pile: An 800GB Dataset of Diverse Text for Language Modeling [link]Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., Foster, C., Phang, J., He, H., Thite, A., Nabeshima, N., Presser, S. and Leahy, C., 2020.

LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [link]Zheng, L., Chiang, W., Sheng, Y., Li, T., Zhuang, S., Wu, Z., Zhuang, Y., Li, Z., Lin, Z., Xing, E.P., Gonzalez, J.E., Stoica, I. and Zhang, H., 2023.

Interpretability Evals for Dictionary Learning [link]Lindsey, J., Cunningham, H., Conerly, T. and Templeton, A., 2024.

In-context Learning and Induction Heads [HTML]Olsson, C., Elhage, N., Nanda, N., Joseph, N., DasSarma, N., Henighan, T., Mann, B., Askell, A., Bai, Y., Chen, A., Conerly, T., Drain, D., Ganguli, D., Hatfield-Dodds, Z., Hernandez, D., Johnston, S., Jones, A., Kernion, J., Lovitt, L., Ndousse, K., Amodei, D., Brown, T., Clark, J., Kaplan, J., McCandlish, S. and Olah, C., 2022. Transformer Circuits Thread.

How do language models bind entities in context? [link]Feng, J. and Steinhardt, J., 2023. arXiv preprint arXiv:2310.17191.

Open Problems in Mechanistic Interpretability [link]Sharkey, L., Chughtai, B., Batson, J., Lindsey, J., Wu, J., Bushnaq, L., Goldowsky-Dill, N., Heimersheim, S., Ortega, A., Bloom, J. and others,, 2025. arXiv preprint arXiv:2501.16496.

Are Sparse Autoencoders Useful? A Case Study in Sparse Probing [link]Kantamneni, S., Engels, J., Rajamanoharan, S., Tegmark, M. and Nanda, N., 2025. arXiv preprint arXiv:2502.16681.

AXBENCH: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [link]Wu, Z., Arora, A., Geiger, A., Wang, Z., Huang, J., Jurafsky, D., Manning, C.D. and Potts, C., 2025. arXiv preprint arXiv:2501.17148.

A is for absorption: Studying feature splitting and absorption in sparse autoencoders [link]Chanin, D., Wilken-Smith, J., Dulka, T., Bhatnagar, H. and Bloom, J., 2024. arXiv preprint arXiv:2409.14507.

Do sparse autoencoders find "true features"? [link]Till, D., 2024.

Measuring feature sensitivity using dataset filtering [link]Turner, N.L., Jermyn, A. and Batson, J., 2024.

Matryoshka Sparse Autoencoders [link]Nabeshima, N., 2024.

Learning Multi-Level Features with Matryoshka SAEs [link]Bussmann, B., Leask, P. and Nanda, N., 2024.

Showing SAE Latents Are Not Atomic Using Meta-SAEs [link]Bussmann, B., Pearce, M., Leask, P., Bloom, J., Sharkey, L. and Nanda, N., 2024.

Monitor: An AI-Driven Observability Interface [link]Meng, K., Huang, V., Chowdhury, N., Choi, D., Steinhardt, J. and Schwettmann, S., 2024.

Axiomatic attribution for deep networks [link]Sundararajan, M., Taly, A. and Yan, Q., 2017. arXiv preprint arXiv:1703.01365.

A unified approach to interpreting model predictions [PDF]Lundberg, S.M. and Lee, S., 2017. Advances in neural information processing systems, Vol 30.

Successor Heads: Recurring, Interpretable Attention Heads In The Wild [link]Gould, R., Ong, E., Ogden, G. and Conmy, A., 2023.

Toward transparent ai: A survey on interpreting the inner structures of deep neural networks [link]Räuker, T., Ho, A., Casper, S. and Hadfield-Menell, D., 2023. 2023 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML), pp. 464--483.

Mechanistic Interpretability for AI Safety--A Review [link]Bereska, L. and Gavves, E., 2024. arXiv preprint arXiv:2404.14082.

A Primer on the Inner Workings of Transformer-based Language Models [link]Ferrando, J., Sarti, G., Bisazza, A. and Costa-jussa, M.R., 2024. arXiv preprint arXiv:2405.00208.

The quest for the right mediator: A history, survey, and theoretical grounding of causal interpretability [link]Mueller, A., Brinkmann, J., Li, M., Marks, S., Pal, K., Prakash, N., Rager, C., Sankaranarayanan, A., Sharma, A.S., Sun, J. and others,, 2024. arXiv preprint arXiv:2408.01416.

Efficient estimation of word representations in vector space [link]Mikolov, T., Chen, K., Corrado, G. and Dean, J., 2013. arXiv preprint arXiv:1301.3781.

Visualizing and understanding recurrent networks [link]Karpathy, A., Johnson, J. and Fei-Fei, L., 2015. arXiv preprint arXiv:1506.02078.

Curve Detectors [link]Cammarata, N., Goh, G., Carter, S., Schubert, L., Petrov, M. and Olah, C., 2020. Distill.

Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned [link]Voita, E., Talbot, D., Moiseev, F., Sennrich, R. and Titov, I., 2019. arXiv preprint arXiv:1905.09418.

Tensor2tensor transformer visualization [link]Jones, L., 2017.

A primer in bertology: What we know about how bert works [link]Rogers, A., Kovaleva, O. and Rumshisky, A., 2020. Transactions of the Association for Computational Linguistics, Vol 8, pp. 842--866. MIT Press. DOI: 10.1162/tacl_a_00349

The Building Blocks of Interpretability [link]Olah, C., Satyanarayan, A., Johnson, I., Carter, S., Schubert, L., Ye, K. and Mordvintsev, A., 2018. Distill. DOI: 10.23915/distill.00010

A multiscale visualization of attention in the transformer model [link]Vig, J., 2019. arXiv preprint arXiv:1906.05714.

Representation learning: A review and new perspectives [link]Bengio, Y., Courville, A. and Vincent, P., 2013. IEEE transactions on pattern analysis and machine intelligence, Vol 35(8), pp. 1798--1828. IEEE.

Compressed sensing [PDF]Donoho, D.L., 2006. IEEE Transactions on information theory, Vol 52(4), pp. 1289--1306. IEEE.

Compressed Sensing, Sparsity, and Dimensionality in Neuronal Information Processing and Data Analysis [link]Ganguli, S. and Sompolinsky, H., 2012. Annual Review of Neuroscience, Vol 35(1), pp. 485-508. DOI: 10.1146/annurev-neuro-062111-150410

Sparse coding with an overcomplete basis set: A strategy employed by V1? [link]Olshausen, B.A. and Field, D.J., 1997. Vision research, Vol 37(23), pp. 3311--3325. Elsevier. DOI: 10.1016/S0042-6989(97)00169-7

Sparse and redundant representations: from theory to applications in signal and image processing Elad, M., 2010. , Vol 2(1). Springer.

Local vs. Distributed Coding [link]Thorpe, S.J., 1989. Intellectica, Vol 8, pp. 3--40.

Unsupervised representation learning with deep convolutional generative adversarial networks [link]Radford, A., Metz, L. and Chintala, S., 2015. arXiv preprint arXiv:1511.06434.

Activation Addition: Steering Language Models Without Optimization [link]Turner, A.M., Thiergart, L., Udell, D., Leech, G., Mini, U. and MacDiarmid, M., 2023.

Zoom In: An Introduction to Circuits [link]Olah, C., Cammarata, N., Schubert, L., Goh, G., Petrov, M. and Carter, S., 2020. Distill. DOI: 10.23915/distill.00024.001

Distributed Representations: Composition & Superposition [HTML]Olah, C., 2023.

Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors [link]Yun, Z., Chen, Y., Olshausen, B.A. and LeCun, Y., 2021. arXiv preprint arXiv:2103.15949.

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet [HTML]Templeton, A., Conerly, T., Marcus, J., Lindsey, J., Bricken, T., Chen, B., Pearce, A., Citro, C., Ameisen, E., Jones, A., Cunningham, H., Turner, N.L., McDougall, C., MacDiarmid, M., Freeman, C.D., Sumers, T.R., Rees, E., Batson, J., Jermyn, A., Carter, S., Olah, C. and Henighan, T., 2024. Transformer Circuits Thread.

Sparse autoencoder [PDF]Ng, A. and others,, 2011. CS294A Lecture notes, Vol 72(2011), pp. 1--19.

k-Sparse Autoencoders [link]Makhzani, A. and Frey, B.J., 2013. CoRR, Vol abs/1312.5663.

Addressing Feature Suppression in SAEs [link]Wright, B. and Sharkey, L., 2024.

Sparse Autoencoders Do Not Find Canonical Units of Analysis [link]Leask, P., Bussmann, B., Pearce, M., Bloom, J., Tigges, C., Moubayed, N.A., Sharkey, L. and Nanda, N., 2025. arXiv preprint arXiv:2502.04878.

Saes are highly dataset dependent: A case study on the refusal direction [link]Kissane, C., Krzyzanowski, R., Nanda, N. and Conmy, A., 2024. Alignment Forum.

Sparse Autoencoders Trained on the Same Data Learn Different Features [link]Paulo, G. and Belrose, N., 2025. arXiv preprint arXiv:2501.16615.

Language models can explain neurons in language models [HTML]Bills, S., Cammarata, N., Mossing, D., Tillman, H., Gao, L., Goh, G., Sutskever, I., Leike, J., Wu, J. and Saunders, W., 2023.

Automatically interpreting millions of features in large language models [link]Paulo, G., Mallen, A., Juang, C. and Belrose, N., 2024. arXiv preprint arXiv:2410.13928.

Sparse Autoencoders Can Interpret Randomly Initialized Transformers [link]Heap, T., Lawson, T., Farnik, L. and Aitchison, L., 2025. arXiv preprint arXiv:2501.17727.

Residual Stream Analysis with Multi-Layer SAEs [link]Lawson, T., Farnik, L., Houghton, C. and Aitchison, L., 2024. arXiv preprint arXiv:2409.04185.

Transcoders Beat Sparse Autoencoders for Interpretability [link]Paulo, G., Shabalin, S. and Belrose, N., 2025. arXiv preprint arXiv:2501.18823.

Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [link]Olmo, J., Wilson, J., Forsey, M., Hepner, B., Howe, T.V. and Wingate, D., 2024. arXiv preprint arXiv:2411.10397.

Efficient dictionary learning with switch sparse autoencoders [link]Mudide, A., Engels, J., Michaud, E.J., Tegmark, M. and de Witt, C.S., 2024. arXiv preprint arXiv:2410.08201.

Identifying functionally important features with end-to-end sparse dictionary learning [PDF]Braun, D., Taylor, J., Goldowsky-Dill, N. and Sharkey, L., 2025. Advances in Neural Information Processing Systems, Vol 37, pp. 107286--107325.

Improving Dictionary Learning with Gated Sparse Autoencoders [link]Rajamanoharan, S., Conmy, A., Smith, L., Lieberum, T., Varma, V., Kramar, J., Shah, R. and Nanda, N., 2024. arXiv preprint arXiv:2404.16014.

Jacobian Sparse Autoencoders: Sparsify Computations, Not Just Activations [link]Farnik, L., Lawson, T., Houghton, C. and Aitchison, L., 2025. arXiv preprint arXiv:2502.18147.

Towards principled evaluations of sparse autoencoders for interpretability and control [link]Makelov, A., Lange, G. and Nanda, N., 2024. arXiv preprint arXiv:2405.08366.

Ravel: Evaluating interpretability methods on disentangling language model representations [link]Huang, J., Wu, Z., Potts, C., Geva, M. and Geiger, A., 2024. arXiv preprint arXiv:2402.17700.

Measuring progress in dictionary learning for language model interpretability with board game models [PDF]Karvonen, A., Wright, B., Rager, C., Angell, R., Brinkmann, J., Smith, L., Mayrink Verdun, C., Bau, D. and Marks, S., 2025. Advances in Neural Information Processing Systems, Vol 37, pp. 83091--83118.

Evaluating open-source sparse autoencoders on disentangling factual knowledge in gpt-2 small [link]Chaudhary, M. and Geiger, A., 2024. arXiv preprint arXiv:2409.04478.

SAEBench: A comprehensive benchmark for sparse autoencoders, December 2024 [link]Karvonen, A., Rager, C., Lin, J., Tigges, C., Bloom, J., Chanin, D., Lau, Y., Farrell, E., Conmy, A., Mc-Dougall, C. and others,. URL https://www. neuronpedia. org/sae-bench/info.

Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks [link]Karvonen, A., Rager, C., Marks, S. and Nanda, N., 2024. arXiv preprint arXiv:2411.18895.

The local interaction basis: Identifying computationally-relevant and sparsely interacting features in neural networks [link]Bushnaq, L., Heimersheim, S., Goldowsky-Dill, N., Braun, D., Mendel, J., Hanni, K., Griffin, A., Stohler, J., Wache, M. and Hobbhahn, M., 2024. arXiv preprint arXiv:2405.10928.

Using degeneracy in the loss landscape for mechanistic interpretability [link]Bushnaq, L., Mendel, J., Heimersheim, S., Braun, D., Goldowsky-Dill, N., Hanni, K., Wu, C. and Hobbhahn, M., 2024. arXiv preprint arXiv:2405.10927.

Interpretability in Parameter Space: Minimizing Mechanistic Description Length with Attribution-based Parameter Decomposition [link]Braun, D., Bushnaq, L., Heimersheim, S., Mendel, J. and Sharkey, L., 2025. arXiv preprint arXiv:2501.14926.

SUMMIT: Scaling Deep Learning Interpretability by Visualizing Activation and Attribution Summarizations Hohman, F., Park, H., Robinson, C. and Chau, D.H.P., 2019.

Progress measures for grokking via mechanistic interpretability [link]Nanda, N., Chan, L., Lieberum, T., Smith, J. and Steinhardt, J., 2023. arXiv preprint arXiv:2301.05217.

Investigating gender bias in language models using causal mediation analysis [PDF]Vig, J., Gehrmann, S., Belinkov, Y., Qian, S., Nevo, D., Singer, Y. and Shieber, S., 2020. Advances in neural information processing systems, Vol 33, pp. 12388--12401.

Towards best practices of activation patching in language models: Metrics and methods [link]Zhang, F. and Nanda, N., 2023. arXiv preprint arXiv:2309.16042.

How to use and interpret activation patching [link]Heimersheim, S. and Nanda, N., 2024. arXiv preprint arXiv:2404.15255.

Localizing model behavior with path patching [link]Goldowsky-Dill, N., MacLeod, C., Sato, L. and Arora, A., 2023. arXiv preprint arXiv:2304.05969.

Finding alignments between interpretable causal variables and distributed neural representations [PDF]Geiger, A., Wu, Z., Potts, C., Icard, T. and Goodman, N., 2024. Causal Learning and Reasoning, pp. 160--187.

Interpretability at scale: Identifying causal mechanisms in alpaca [PDF]Wu, Z., Geiger, A., Icard, T., Potts, C. and Goodman, N., 2023. Advances in neural information processing systems, Vol 36, pp. 78205--78226.

Attribution Patching: Activation Patching At Industrial Scale [link]Nanda, N., 2023.

Attribution Patching Outperforms Automated Circuit Discovery [link]Syed, A., Rager, C. and Conmy, A., 2023. arXiv preprint arXiv:2310.10348.

AtP*: An efficient and scalable method for localizing LLM behaviour to components [link]Kramár, J., Lieberum, T., Shah, R. and Nanda, N., 2024. arXiv preprint arXiv:2403.00745.

Have faith in faithfulness: Going beyond circuit overlap when finding model mechanisms [link]Hanna, M., Pezzelle, S. and Belinkov, Y., 2024. arXiv preprint arXiv:2403.17806.

EAP-GP: Mitigating Saturation Effect in Gradient-based Automated Circuit Identification [link]Zhang, L., Dong, W., Zhang, Z., Yang, S., Hu, L., Liu, N., Zhou, P. and Wang, D., 2025. arXiv preprint arXiv:2502.06852.

Automatic discovery of visual circuits [link]Rajaram, A., Chowdhury, N., Torralba, A., Andreas, J. and Schwettmann, S., 2024. arXiv preprint arXiv:2404.14349.

Position-aware Automatic Circuit Discovery [link]Haklay, T., Orgad, H., Bau, D., Mueller, A. and Belinkov, Y., 2025. arXiv preprint arXiv:2502.04577.

Low-complexity probing via finding subnetworks [link]Cao, S., Sanh, V. and Rush, A.M., 2021. arXiv preprint arXiv:2104.03514.

Discovering variable binding circuitry with desiderata [link]Davies, X., Nadeau, M., Prakash, N., Shaham, T.R. and Bau, D., 2023. arXiv preprint arXiv:2307.03637.

Finding transformer circuits with edge pruning [PDF]Bhaskar, A., Wettig, A., Friedman, D. and Chen, D., 2025. Advances in Neural Information Processing Systems, Vol 37, pp. 18506--18534.

Uncovering intermediate variables in transformers using circuit probing [link]Lepori, M.A., Serre, T. and Pavlick, E., 2023. arXiv preprint arXiv:2311.04354.

Sparse autoencoders enable scalable and reliable circuit identification in language models [link]O'Neill, C. and Bui, T., 2024. arXiv preprint arXiv:2405.12522.

Information flow routes: Automatically interpreting language models at scale [link]Ferrando, J. and Voita, E., 2024. arXiv preprint arXiv:2403.00824.

VISIT: Visualizing and interpreting the semantic information flow of transformers [link]Katz, S. and Belinkov, Y., 2023. arXiv preprint arXiv:2305.13417.

Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic Interpretability: A Case Study on Othello-GPT [link]He, Z., Ge, X., Tang, Q., Sun, T., Cheng, Q. and Qiu, X., 2024. arXiv preprint arXiv:2402.12201.

Attention Output SAEs Improve Circuit Analysis [link]Kissane, C., Krzyzanowski, R., Conmy, A. and Nanda, N., 2024.

Causal abstractions of neural networks [PDF]Geiger, A., Lu, H., Icard, T. and Potts, C., 2021. Advances in Neural Information Processing Systems, Vol 34, pp. 9574--9586.

Causal abstraction: A theoretical foundation for mechanistic interpretability [link]Geiger, A., Ibeling, D., Zur, A., Chaudhary, M., Chauhan, S., Huang, J., Arora, A., Wu, Z., Goodman, N., Potts, C. and others,, 2023. arXiv preprint arXiv:2301.04709.

Causal proxy models for concept-based model explanations [PDF]Wu, Z., D’Oosterlinck, K., Geiger, A., Zur, A. and Potts, C., 2023. International conference on machine learning, pp. 37313--37334.

Decomposing and editing predictions by modeling model computation [link]Shah, H., Ilyas, A. and Madry, A., 2024. arXiv preprint arXiv:2404.11534.

Causal scrubbing, a method for rigorously testing interpretability hypotheses [link]Chan, L., Garriga-Alonso, A., Goldwosky-Dill, N., Greenblatt, R., Nitishinskaya, J., Radhakrishnan, A., Shlegeris, B. and Thomas, N., 2022. AI Alignment Forum.

Hypothesis testing the circuit hypothesis in LLMs [PDF]Shi, C., Beltran Velez, N., Nazaret, A., Zheng, C., Garriga-Alonso, A., Jesson, A., Makar, M. and Blei, D., 2025. Advances in Neural Information Processing Systems, Vol 37, pp. 94539--94567.

The clock and the pizza: Two stories in mechanistic explanation of neural networks [PDF]Zhong, Z., Liu, Z., Tegmark, M. and Andreas, J., 2023. Advances in neural information processing systems, Vol 36, pp. 27223--27250.

A toy model of universality: Reverse engineering how networks learn group operations [PDF]Chughtai, B., Chan, L. and Nanda, N., 2023. International Conference on Machine Learning, pp. 6243--6267.

Grokking group multiplication with cosets [link]Stander, D., Yu, Q., Fan, H. and Biderman, S., 2023. arXiv preprint arXiv:2312.06581.

Fourier circuits in neural networks and transformers: A case study of modular arithmetic with multiple inputs [link]Li, C., Liang, Y., Shi, Z., Song, Z. and Zhou, T., 2024. arXiv preprint arXiv:2402.09469.

A circuit for Python docstrings in a 4-layer attention-only transformer [link]Heimersheim, S. and Janiak, J., 2023. Alignment Forum.

How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model [PDF]Hanna, M., Liu, O. and Variengien, A., 2023. Advances in Neural Information Processing Systems, Vol 36, pp. 76033--76060.

Does circuit analysis interpretability scale? evidence from multiple choice capabilities in chinchilla [link]Lieberum, T., Rahtz, M., Kramar, J., Nanda, N., Irving, G., Shah, R. and Mikulik, V., 2023. arXiv preprint arXiv:2307.09458.

Identifying a preliminary circuit for predicting gendered pronouns in gpt-2 small [link]Mathwin, C., Corlouer, G., Kran, E., Barez, F. and Nanda, N., 2023. URL: https://itch.io/jam/mechint/rate/1889871.

Identifying and adapting transformer-components responsible for gender bias in an English language model [link]Chintam, A., Beloch, R., Zuidema, W., Hanna, M. and Van Der Wal, O., 2023. arXiv preprint arXiv:2310.12611.

Scaling Sparse Feature Circuits For Studying In-Context Learning [link]Kharlapenko, D., Shabalin, S., Barez, F., Nanda, N. and Conmy, A., 2025.

Circuit component reuse across tasks in transformer language models [link]Merullo, J., Eickhoff, C. and Pavlick, E., 2023. arXiv preprint arXiv:2310.08744.

Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models [link]Mondorf, P., Wold, S. and Plank, B., 2024. arXiv preprint arXiv:2410.01434.

LLM circuit analyses are consistent across training and scale [link]Tigges, C., Hanna, M., Yu, Q. and Biderman, S., 2024. arXiv preprint arXiv:2407.10827.

Gemma 2: Improving open language models at a practical size [PDF]Team, G., Riviere, M., Pathak, S., Sessa, P.G., Hardin, C., Bhupatiraju, S., Hussenot, L., Mesnard, T., Shahriari, B., Rame, A. and others,, 2024. arXiv preprint arXiv:2408.00118.

Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2 [PDF]Lieberum, T., Rajamanoharan, S., Conmy, A., Smith, L., Sonnerat, N., Varma, V., Kramár, J., Dragan, A., Shah, R. and Nanda, N., 2024.

Dictionary Learning Optimization Techniques [link]Conerly, T., Cunningham, H., Templeton, A., Lindsey, J., Hosmer, B. and Jermyn, A., 2024.

Feature Manifold Toy Model [link]Olah, C. and Batson, J., 2023.

Not all language model features are linear [PDF]Engels, J., Michaud, E.J., Liao, I., Gurnee, W. and Tegmark, M., 2024. arXiv preprint arXiv:2405.14860.

What is a Linear Representation? What is a Multidimensional Feature? [link]Olah, C., 2024.

Curve Detector Manifolds in InceptionV1 [link]Gorton, O., 2024.

Residual stream norms grow exponentially over the forward pass [link]Heimersheim, S. and Turner, A., 2023.

参考文献可上下滑动查看

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境，尝试从以下四个视角梳理大语言模型可解释性的科学方法论：

自下而上：Transformer circuit 为什么有效？

自上而下：神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚？

复杂科学：渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力？

系统工程：如何拥抱不确定性，在具体的业界实践中创造价值？

五位发起人老师会带领大家研读领域前沿论文，现诚邀对此话题感兴趣的朋友，一起共创、共建、共享「大模型可解释性」主题社区，通过互相的交流与碰撞，促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者，探索复杂系统与智能本质的交叉学科探索者，还是追求模型安全可信的工程实践者，诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动，每周四晚19:30-21:30，预计持续分享8-10周左右。