大模型可解释性在工业界的应用实战丨周五直播·大模型可解释性读书会

集智俱乐部 16小时前

本次读书会由集智俱乐部联合多位专家发起，旨在探讨大语言模型的可解释性问题。分享结合工业界实践经验，从数学、知识召回、指令遵循等多方面，阐述可解释性方法如何结合模型微调、控制、量化等，提升模型应用效果。读书会还将深入探讨大模型的内部结构、关键能力机制，以及基于此的创新应用，例如精准控制、微调和量化，为理解和改进大模型提供新思路。

💡 **可解释性研究背景**: 随着大语言模型的快速发展，其内部决策过程的“黑箱”性质成为关键挑战，可解释性研究旨在提升模型安全性、可靠性和可控性。

⚙️ **核心概念**: 介绍了Circuit（模型内部特定能力或完成特定任务的相关模块及其连接）和Path Patching（通过扰动模块定位关键模块）等方法，帮助理解模型内部结构。

🧠 **关键能力机制分析**: 重点分析了大模型在算术计算、多语言处理和事实召回等方面的机制，揭示信息如何被模型处理。

💡 **创新应用**: 介绍了基于机制理解的一系列新颖应用，包括精准控制、微调和量化，以调整模型行为、提升性能和推理效率。

📚 **多学科视角**: 读书会从Transformer circuit、神经网络决策逻辑、复杂科学理论和系统工程等多个视角探讨大模型可解释性，促进深入理解。

2025-07-10 23:05 北京

7月11日（周五）晚上19:30-21:30直播

导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境，尝试从不同视角梳理大语言模型可解释性的科学方法论。

大模型可解释性方法在实际应用中面临哪些挑战？这些挑战如何解决？不同的可解释性方法如何有效结合解决特定业务问题？本次分享将结合沈旭老师在工业界的实践经验，通过数学、知识召回、指令遵循、上下文学习、多语言、量化等方面的研究，详细阐述可解释性方法如何结合模型微调、模型控制、模型量化等方法在分析模型内部机理机制的同时，提升模型应用效果。

分享简介

大语言模型（LLMs）的快速发展展现出了前所未有的能力，但其不透明的内部决策过程仍是一项关键挑战。机制可解释性已成为提升大语言模型安全性、可靠性和可控性的重要前沿领域。在本次讲座中，首先带大家梳理通过逆向工程理解大语言模型内部结构，确立基础性原理和可部署的应用方案的领域前沿研究。然后重点分析大语言模型的算术计算、多语言处理和事实召回等关键能力机制，揭示了大语言模型如何将信息作为离散的 “电路”（Circuit）进行表示和处理。最后，会介绍基于上述的机制理解催生的一系列新颖应用：

精准控制：在Token-、activation-、neuron- 和module-level 进行干预，以调整大语言模型的行为；

精准微调：在Head-和neuron-level进行微调，以提升大语言模型的性能；

精准量化：基于可解释性的量化策略，实现了 3.4-bit与 4 -bit 基准水平相当的效果。

分享大纲

可解释性研究背景

可解释性基础回顾

Head/MLP/Neuron/Logits/Circuit

Path patching/Logit Lens/Information Flow

可解释性典型应用案例

数学

知识召回

指令遵循

上下文学习

模型控制

模型融合

可解释性在多语言上的综合实战

知识注入

知识召回

语言生成

Ongoing Works

融合增强的多语言模型

模型低比特量化

核心概念

Circuit

模型内部特定能力或完成特定任务的相关模块及其连接（head/neuron等）构成的子图。

Path Patching

通过对模型各模块进行扰动并分析对模型特定行为的影响，定位模型内部与特定任务相关的关键模块（head/neuron等）。

Neuron Description

通过分析原子在激活响应比较大的样本集合上的共性，分析原子的功能。

模型微调

通过CPT、SFT、DPO、RL等方式，对基础模型进行继续微调训练，提升模型在特定任务上的能力，比如特定领域（法律、金融等）、数学、推理、多语言等。

模型控制

通过对模型内部表征进行编辑，定向增强或者抑制模型特定行为。

模型融合

通过对多个特定专家模型（比如数学、代码、翻译等）进行参数加权融合，合成一个在各个任务上都接近专家模型能力的统一模型。

模型量化

通过将模型参数精度降低到特定低比特数（比如INT4，INT8等），提升模型推理效率，降低模型显存消耗。

参考文献

[1] Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.

经典的思考Transformer基础思想的文章，文章详细阐述了如何用数学框架去推理Transformer，比如其代数表达，分解方式，以及一些需要了解的概念性内容。

[2] Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).

提出path patching方法和circuit概念的经典文章，通过path patching方法在 GPT2-small 中发现了相当庞大且复杂的IOI回路。

[3] Dami Choi et al. "Scaling Automatic Neuron Description." https://transluce.org/neuron-descriptions.

原子可解释性经典工作，通过分析原子在激活响应比较大的样本集合上的共性，分析原子的功能。

[4] Wei Zhang, et al, Interpreting and Improving Large Language Models in Arithmetic Calculation. ICML (Oral), 2024.

本文基于可解释性方法分析了大模型完成数值计算的关键Head以及处理过程，并通过对这些关键head进行精准微调，提升模型数学能力的基础上，保持模型通用能力不下降。

[5] Yiqun Wang et.al. Tracing and Dissecting How LLMs Recall Factual Knowledge for Real World Questions. ACL, 2025.

本文基于可解释性方法分析了大模型完成多步知识召回推理的关键步骤及关键模块，并通过对这些关键模块进行精准微调，提升模型知识推理能力的基础上，保持模型通用能力不下降。

[6] Wei Chen, et al. From yes-men to truth-tellers: addressing sycophancy in large language models with pinpoint tuning. ICML, 2024.

本文基于可解释性方法分析了大模型与谄媚行为相关的关键模块，并通过对这些关键模块进行精准微调，降低模型谄媚行为的基础上，保持模型其他能力不下降。

[7] Chenghao Sun, et al. Interpret and Improve In-Context Learning via the Lens of Input-Label Mappings. ACL, 2025.

本文基于可解释性方法分析了大模型与上下文学习能力相关的关键模块，并通过对这些关键模块进行精准微调，提升模型上下文学习能力的基础上，保持模型其他能力不下降。

[8] Yuxin Xiao, et al, Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control. NeurIPS, 2024.

本文基于可解释性方法分析了大模型与安全性相关的关键模块，并通过对这些关键模块进行精准控制，提升模型在多种安全任务上的性能，并且保持模型其他能力不下降。

[9] Rui Dai, et al, Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs. ICLR, 2025.

本文分析了大模型各模块的线性性质，并通过对这些关键模块参数进行精准融合，提升多个不同任务专家模型在融合之后的性能。

[10] Wangyun Gu, et al. NeuronMerge: Merging Models via Functional Neuron Groups. ACL, 2025.

本文分析了大模型内与各个任务相关的原子，并通过对模型参数进行原子级别的精准融合，提升多个不同任务专家模型在融合之后的性能。

主讲人简介

沈旭，阿里云-飞天实验室高级算法专家。博士毕业于中国科学技术大学。曾获浙江省科技进步一等奖，在ICLR/ICML/NeurIPS/ACL/CVPR/ECCV/ICCV等国际顶会上发表论文40余篇，google scholar引用1900余次。

研究方向：大模型可解释性、主权大模型。

参与方式

参与时间2025年7月11日（周五）晚上19:30-21:30

报名加入社群交流

https://pattern.swarma.org/study_group_issue/936?from=wechat

扫码参与「大模型可解释性」读书会，加入社群，获取系列读书会永久回看权限，与社区的一线科研工作者沟通交流，共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境，尝试从以下四个视角梳理大语言模型可解释性的科学方法论：

自下而上：Transformer circuit 为什么有效？

自上而下：神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚？

复杂科学：渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力？

系统工程：如何拥抱不确定性，在具体的业界实践中创造价值？

五位发起人老师会带领大家研读领域前沿论文，现诚邀对此话题感兴趣的朋友，一起共创、共建、共享「大模型可解释性」主题社区，通过互相的交流与碰撞，促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者，探索复杂系统与智能本质的交叉学科探索者，还是追求模型安全可信的工程实践者，诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动，每周四晚19:30-21:30，预计持续分享8-10周左右。