大模型知识回路的形成与SAE在可解释中的潜力丨周四直播·大模型可解释性读书会

集智俱乐部 07月17日 00:31

本次读书会由集智俱乐部联合多位专家发起，旨在深入探讨大模型的可解释性问题。通过解读稀疏自编码器等工具，剖析大模型知识回路的形成、多义性挑战及解决方案。分享内容包括稀疏自编码器的原理、应用，以及如何利用它进行文本分类、生成，最终促进对大模型行为的理解和控制。读书会鼓励社区交流，共同探索大模型可解释性的前沿领域。

💡 读书会旨在解决大模型“黑箱”问题，探讨如何从不同视角梳理大语言模型可解释性的科学方法论，重点关注大模型的知识回路形成。

🔑 稀疏自编码器（SAE）是读书会的核心工具，用于打破大模型的多义性，实现单义性，从而更好地理解LLM的行为。

🚀 SAE的应用前景包括：理解LLM的行为（以Anthropic Haiku为例），实现可控的文本分类和文本生成。

🤔 读书会还将讨论如何更好地利用SAE来理解更复杂的模型行为，以及SAE是否能更好地实现可控文本生成，并鼓励社区参与。

🤝 读书会汇集了来自不同领域的专家学者，共同探讨大模型可解释性，促进学术交流和实践探索。

2025-07-15 21:59 北京

2025年7月17日（周四）晚上19:30-21:30直播

导语

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境，尝试从不同视角梳理大语言模型可解释性的科学方法论。

大模型的知识回路是如何形成的？如何利用稀疏自编码器（SAE）这个新兴的解释性工具来“理解” LLM 的行为？如何利用它来实现可控的文本分类和文本生成？本次分享将围绕这几个核心问题展开。两位主讲人将详细介绍稀疏自编码器的工作原理、训练方法、并和大家一起讨论它的应用前景和未来挑战。

分享简介

本次分享首先介绍语言模型内部知识回路的形成过程并展现理解LLM的难点：多义性。为了解决每一维编码了多个互相正交的知识，我们进一步介绍稀疏自编码器（Sparse Auto Encoder）这个打破多义性迈向单义性的新兴的解释性工具。我们会进一步讨论稀疏自编码器的三个应用前景，包括如何利用它来“理解” LLM 的行为（以 Anthropic Haiku 为例)，以及如何利用它来实现可控的文本分类和文本生成。作为一个新兴的技术，分享会将以讨论该方向的前景与挑战结束。

分享大纲

大语言模型的知识回路的形成过程

语言模型知识召回的回路

回路视角下语言模型是如何学习新知识

稀疏自编码器简述

Polysemantic下可解释的挑战

稀疏自编码器的原理

稀疏自编码器的架构与训练

稀疏自编码器的应用

SAE用于模型分析：大型语言模型的生物学原理

SAE用于文本分类：去除“捷径”特征，提升分类泛化性

SAE用于文本生成：增强模型安全意识，抵御越狱攻击

讨论

如何更好地利用SAE来理解更复杂的模型行为（如数学推理）？

SAE是否能更好地实现可控文本生成？

核心概念

稀疏自编码器 Sparse Auto Encoder(SAE)

知识回路 Knowledge Circuits

多义性 Polysemanticity

参考文献

Yunzhi, Yao, et al. Knowledge Circuits in Pretrained Transformers. NeurIPS 2024

Yixin, Ou, et al. How do llms acquire new knowledge? a knowledge circuits perspective on continual pre-training. ACL 2025

Huben, Robert, et al. "Sparse autoencoders find highly interpretable features in language models." The Twelfth International Conference on Learning Representations. 2023.

Gao, Leo, et al. "Scaling and evaluating sparse autoencoders." The Thirteenth International Conference on Learning Representations.

Anthropic. "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning." Transformer Circuits Thread. 2023. https://transformer-circuits.pub/2023/monosemantic-features

Anthropic. "On the Biology of a Large Language Model." Transformer Circuits Thread. 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html

Shu, Dong, et al. "A survey on sparse autoencoders: Interpreting the internal mechanisms of large language models." arXiv. 2025.

Wu, Xuansheng, et al. "Self-regularization with latent space explanations for controllable llm-based classification." KDD. 2025.

Wu, Xuansheng, et al. "Interpreting and steering llms with mutual information-based explanations on sparse autoencoders." arXiv. 2025.

主讲人简介

姚云志，浙江大学计算机科学与技术学院博士生，导师为陈华钧教授与张宁豫教授，目前是UCLA的Nanyun Peng组访问研究学者。研究方向为大语言模型知识增强，知识编辑与可解释性。

吴烜圣，佐治亚大学计算机系四年级博士生，研究方向为可用的大语言模型解释性（Usable XAI），关注于如何更好地理解知识在模型隐空间的表示以实现更好的模型控制。他已发表同行评审论文14篇，累计引用量700+，曾于腾讯 AI Lab、百度 NLP、亚马逊Rufus等业内顶尖团队实习。

参与方式

参与时间2025年7月17日（周四）晚上19:30-21:30

报名加入社群交流

https://pattern.swarma.org/study_group_issue/945?from=wechat

扫码参与「大模型可解释性」读书会，加入社群，获取系列读书会永久回看权限，与社区的一线科研工作者沟通交流，共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境，尝试从以下四个视角梳理大语言模型可解释性的科学方法论：

自下而上：Transformer circuit 为什么有效？

自上而下：神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚？

复杂科学：渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力？

系统工程：如何拥抱不确定性，在具体的业界实践中创造价值？

五位发起人老师会带领大家研读领域前沿论文，现诚邀对此话题感兴趣的朋友，一起共创、共建、共享「大模型可解释性」主题社区，通过互相的交流与碰撞，促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者，探索复杂系统与智能本质的交叉学科探索者，还是追求模型安全可信的工程实践者，诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动，每周四晚19:30-21:30，预计持续分享8-10周左右。