集智俱乐部 07月18日 12:12
大模型知识回路的形成与SAE在可解释中的潜力丨周六直播·大模型可解释性读书会
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

集智俱乐部联合多位专家发起「大模型可解释性」读书会,旨在突破大模型“黑箱”困境。本次分享将聚焦稀疏自编码器(SAE)这一新兴工具,深入探讨其在理解LLM行为、实现可控文本分类与生成方面的应用。活动将解析知识回路形成、多义性问题,并展望SAE在更复杂模型行为分析及可控生成中的前景与挑战,为AI可解释性研究和实践提供新视角。

💡 **大模型可解释性面临“黑箱”困境,需要科学方法论突破。** 文章指出,大模型内部知识回路的形成过程复杂且存在多义性问题,这使得理解其行为变得困难。本次读书会旨在从多个视角(如Transformer circuit、神经网络决策逻辑、复杂科学理论、系统工程)梳理大语言模型可解释性的科学方法论,以应对这一挑战。

🗄️ **稀疏自编码器(SAE)是理解LLM行为的新兴解释性工具。** SAE通过打破多义性、迈向单义性,为解析模型内部运作提供了有效途径。文章将详细介绍SAE的原理、架构与训练方法,并以Anthropic Haiku为例,展示如何利用SAE来“理解”大型语言模型的行为,揭示模型内部的知识表示。

🚀 **SAE在文本分类与生成领域具有广阔的应用前景。** 研究表明,SAE可用于去除文本分类中的“捷径”特征,从而提升模型的泛化能力。同时,在文本生成方面,SAE能够增强模型安全意识,抵御“越狱”攻击。文章还将探讨SAE在理解更复杂模型行为(如数学推理)以及实现更可控文本生成方面的潜力。

🤝 **读书会汇聚学界与业界力量,共同探索前沿领域。** 本次活动由集智俱乐部联合上海交通大学、阿里云、彩云科技及多所高校的专家共同发起,旨在通过研读前沿论文、交流讨论,促进对大模型可解释性的深入理解,并邀请对AI可解释性理论、复杂系统与智能本质、模型安全可信实践感兴趣的各界人士共同参与。

2025-07-17 18:29 上海

2025年7月19日(周六)上午10:00-12:00直播

导语


集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境,尝试从不同视角梳理大语言模型可解释性的科学方法论。


大模型的知识回路是如何形成的?如何利用稀疏自编码器(SAE)这个新兴的解释性工具来“理解” LLM 的行为?如何利用它来实现可控的文本分类和文本生成?本次分享将围绕这几个核心问题展开。两位主讲人将详细介绍稀疏自编码器的工作原理、训练方法、并和大家一起讨论它的应用前景和未来挑战。


分享简介


本次分享首先介绍语言模型内部知识回路的形成过程并展现理解LLM的难点:多义性。为了解决每一维编码了多个互相正交的知识,我们进一步介绍稀疏自编码器(Sparse Auto Encoder)这个打破多义性迈向单义性的新兴的解释性工具。我们会进一步讨论稀疏自编码器的三个应用前景,包括如何利用它来“理解” LLM 的行为(以 Anthropic Haiku 为例),以及如何利用它来实现可控的文本分类和文本生成。作为一个新兴的技术,分享会将以讨论该方向的前景与挑战结束。


分享大纲



核心概念



参考文献


    Yunzhi, Yao, et al. Knowledge Circuits in Pretrained Transformers. NeurIPS 2024

    Yixin, Ou, et al. How do llms acquire new knowledge? a knowledge circuits perspective on continual pre-training. ACL 2025

    Huben, Robert, et al. "Sparse autoencoders find highly interpretable features in language models." The Twelfth International Conference on Learning Representations. 2023.

    Gao, Leo, et al. "Scaling and evaluating sparse autoencoders." The Thirteenth International Conference on Learning Representations.

    Anthropic. "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning." Transformer Circuits Thread. 2023. https://transformer-circuits.pub/2023/monosemantic-features

    Anthropic. "On the Biology of a Large Language Model." Transformer Circuits Thread. 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html

    Shu, Dong, et al. "A survey on sparse autoencoders: Interpreting the internal mechanisms of large language models." arXiv. 2025.

    Wu, Xuansheng, et al. "Self-regularization with latent space explanations for controllable llm-based classification." KDD. 2025.

    Wu, Xuansheng, et al. "Interpreting and steering llms with mutual information-based explanations on sparse autoencoders." arXiv. 2025.


主讲人简介



姚云志,浙江大学计算机科学与技术学院博士生,导师为陈华钧教授与张宁豫教授,目前是UCLA的Nanyun Peng组访问研究学者。研究方向为大语言模型知识增强,知识编辑与可解释性。


吴烜圣,佐治亚大学计算机系四年级博士生,研究方向为可用的大语言模型解释性(Usable XAI),关注于如何更好地理解知识在模型隐空间的表示以实现更好的模型控制。他已发表同行评审论文14篇,累计引用量700+,曾于腾讯 AI Lab、百度 NLP、亚马逊Rufus等业内顶尖团队实习。


参与方式


参与时间

2025年7月19日(周六)上午10:00-12:00

报名加入社群交流

https://pattern.swarma.org/study_group_issue/945?from=wechat

扫码参与「大模型可解释性」读书会,加入社群,获取系列读书会永久回看权限,与社区的一线科研工作者沟通交流,共同探索大模型可解释性这一前沿领域的发展。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:

自下而上:Transformer circuit 为什么有效?

自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?

复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?

系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?


五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。


读书会已于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享8-10周左右。



详情请见:破解AI黑箱的四重视角:大模型可解释性读书会启动

点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型可解释性 稀疏自编码器 LLM AI安全 文本生成
相关文章