[1] Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.经典的思考Transformer基础思想的文章,文章详细阐述了如何用数学框架去推理Transformer,比如其代数表达,分解方式,以及一些需要了解的概念性内容。[2] Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).提出path patching方法和circuit概念的经典文章,通过path patching方法在 GPT2-small 中发现了相当庞大且复杂的IOI回路。[3] Dami Choi et al. "Scaling Automatic Neuron Description." https://transluce.org/neuron-descriptions.原子可解释性经典工作,通过分析原子在激活响应比较大的样本集合上的共性,分析原子的功能。[4] Wei Zhang, et al, Interpreting and Improving Large Language Models in Arithmetic Calculation. ICML (Oral), 2024.本文基于可解释性方法分析了大模型完成数值计算的关键Head以及处理过程,并通过对这些关键head进行精准微调,提升模型数学能力的基础上,保持模型通用能力不下降。[5] Yiqun Wang et.al. Tracing and Dissecting How LLMs Recall Factual Knowledge for Real World Questions. ACL, 2025.本文基于可解释性方法分析了大模型完成多步知识召回推理的关键步骤及关键模块,并通过对这些关键模块进行精准微调,提升模型知识推理能力的基础上,保持模型通用能力不下降。[6] Wei Chen, et al. From yes-men to truth-tellers: addressing sycophancy in large language models with pinpoint tuning. ICML, 2024.本文基于可解释性方法分析了大模型与谄媚行为相关的关键模块,并通过对这些关键模块进行精准微调,降低模型谄媚行为的基础上,保持模型其他能力不下降。[7] Chenghao Sun, et al. Interpret and Improve In-Context Learning via the Lens of Input-Label Mappings. ACL, 2025.本文基于可解释性方法分析了大模型与上下文学习能力相关的关键模块,并通过对这些关键模块进行精准微调,提升模型上下文学习能力的基础上,保持模型其他能力不下降。[8] Yuxin Xiao, et al, Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control. NeurIPS, 2024.本文基于可解释性方法分析了大模型与安全性相关的关键模块,并通过对这些关键模块进行精准控制,提升模型在多种安全任务上的性能,并且保持模型其他能力不下降。[9] Rui Dai, et al, Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs. ICLR, 2025.本文分析了大模型各模块的线性性质,并通过对这些关键模块参数进行精准融合,提升多个不同任务专家模型在融合之后的性能。[10] Wangyun Gu, et al. NeuronMerge: Merging Models via Functional Neuron Groups. ACL, 2025.本文分析了大模型内与各个任务相关的原子,并通过对模型参数进行原子级别的精准融合,提升多个不同任务专家模型在融合之后的性能。