大语言模型的涌现

集智俱乐部 11小时前

大语言模型的涌现｜集智百科

本文探讨了大语言模型（LLMs）中涌现现象，即模型在达到一定规模后突然展现出新能力。文章首先追溯了涌现的历史定义，然后详细介绍了LLMs中涌现的实例，包括少量样本提示和增强提示策略下的任务表现。接着，文章讨论了基于下游任务的涌现的影响因素和争议，并深入研究了LLMs的结构涌现，提出了信息涌现（IE）的量化指标，以及基于Transformer架构的多尺度解释。最后，文章强调了理解LLMs涌现对于模型发展的重要性，并探讨了未来研究方向。

💡 涌现现象是指大语言模型在达到特定规模后，突然获得小规模模型不具备的能力，如数学推理、链式思维等。这种能力跃迁并非线性增长，而是与模型规模、训练数据和微调策略等因素相互作用。

🧠 少量样本提示和增强提示策略是诱发涌现现象的关键。少量样本提示通过提供少量示例引导模型，而增强提示则通过添加背景知识、约束或中间步骤（如思维链）来提升模型表现。这些策略在模型规模增大时，效果显著提升。

🧐 基于下游任务的涌现受到多种因素的影响，包括度量指标的选择。非连续的度量可能导致涌现现象的出现，而连续的度量则可能显示平滑的性能增长。但也有研究表明，即使使用连续度量，涌现现象依然存在，说明其真实性。

⚙️ 结构涌现是理解大语言模型涌现的关键。通过量化信息涌现（IE），可以衡量模型从token序列中提取语义信息的能力。IE指标可以更准确地反映模型对句子含义的理解，并且与模型能力的提升相关联。

🔬 大语言模型的宏观语义理解能力与其微观token处理过程相互作用，共同决定了模型的涌现行为。研究者认为，从结构或动力学的角度对模型进行度量，有助于解释和调控涌现现象，从而推动大语言模型的发展。

原创集智百科团队 2025-06-13 22:36 北京

导语

大语言模型（LLMs）的快速发展使人们看到很多神奇的现象，比如神经标度律、涌现、顿悟等等。其中涌现现象是指，某种能力在小规模模型中不存在，但当模型增长到一定规模时，突然拥有了这项能力[1]。可见，涌现现象不能通过简单地外推小规模模型的能力来预测[1]，而度量和理解大语言模型的涌现对大模型进一步的发展至关重要。

“集智百科精选”是一个长期专栏，持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目，集智百科希望打造复杂性科学领域最全面的百科全书，欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入，文末可以扫码报名加入百科志愿者！

↑↑↑扫码直达百科词条

关键词：大语言模型，涌现，神经标度律，少量样本提示，增强提示策略，Transformer，渗流模型，信息涌现

范卓仪，梁金，徐然，杨明哲 | 作者

张江 | 审校

读书会推荐

大语言模型的涌现现象彰显了AI可解释性理论的重要性。它关乎到人类对大模型的信任，对其发展的管束，以及未来进一步研发大语言模型的方向。

集智俱乐部也策划了「大模型可解释性」读书会，其中一个视角就是从复杂科学视角拆解大模型的推理能力的可解释性，邀请你加入：

1. 历史溯源

2. 大语言模型能力的涌现现象

2.1 使用少量样本提示的任务

2.2 使用增强提示策略的任务

3. 基于下游任务的涌现的影响因素及争议

4. 大语言模型的结构涌现

4.1 量化大语言模型的信息涌现

4.2 基于大语言模型结构的多尺度解释

5. 大语言模型涌现的机制解释

5.1 知识量子理论

5.2 渗流模型

5.2.1 基本定义

5.2.2 形式语言学习中的涌现能力

5.2.3 涌现的渗流模型

5.2.4 实验验证

6. 总结

1. 历史渊源

涌现这个概念在物理学、生物学和计算机科学等领域已经得到长期讨论。诺贝尔物理奖获得者菲利普·安德森在一篇名为 “多者异也 (More is Different)”[2][3]的文章中提出：涌现是指系统中定量的变化所导致的行为上定性的变化。 Jason Wei等人[1]沿用了安德森对于涌现定性的定义，首次在大语言模型领域提出判断模型能力是否发生涌现的定性标准：某种能力在小规模模型中不存在，但当模型增长到一定规模时（定量的变化），这项能力才突然出现（定性的变化）。也就是说，涌现是一种整体行为上的剧烈变化，不能通过研究小规模模型进行直接预测[4]。

这些能力包括数学推理（如多步计算与逻辑判断）、链式思维（Chain-of-Thought，CoT）推理、编程与代码生成、跨任务泛化能力（如零样本任务迁移）、事实知识记忆、多语言翻译与理解等。所有这些能力往往在较小模型上完全缺失或表现极差。研究表明，这些涌现并非线性延伸，而是与模型规模、训练数据量、指令微调策略等因素交互产生的非平滑性能跃迁。

足够复杂的大语言模型除了具有涌现现象，还会出现神经标度律（Neural Scaling Laws）、顿悟（Grokking）、双下降（Double Descent）等现象。神经标度律是大模型训练中最常见的现象，即随着模型的规模增加（包括数据规模、训练迭代次数等），模型能力表现以一个幂律的形式增长 [5]。顿悟是指对于同一个大模型，随着训练的进行，训练损失会很快收敛，但测试损失需要训练足够长的时间后才会突然收敛到和训练损失一致的水平 [6]。双下降是指模型的表现随着模型规模变大（或随着训练的进行）不是一个单调变化的关系，而是会在某些时候，模型的损失反而会随着模型规模的增加而上升，达到一个峰值再继续下降 [7]。这些现象和涌现现象不同，但背后的底层机制很可能是相通的。许多学者试图为这些现象（包括涌现）提供一个统一的理论框架来解释[8]。

诸如神经标度律等现象，人们在大语言模型之前也有在一般的神经网络上发现。而对于涌现现象，Wei等人系统比较了不同规模的语言模型在使用标准提示（直接给问题）和链式提示（给出推理步骤）下的表现，发现只有大型语言模型才能充分利用链式思维提示，且性能随着规模增长出现“非线性跃迁”。链式思维提示本身并不会自动赋予模型推理能力，只有在模型参数规模足够大时，它才能引发复杂推理能力的“跃迁”，这正是大语言模型涌现现象的核心表现之一[9]。该团队在另一项探讨了一种通过指令微调提升语言模型零样本学习能力方法的研究中发现，指令调整带来的性能提升只有在模型规模足够大的情况下才会显现[10]。Google DeepMind主导的一项研究通过设计大规模基准测试（Beyond the imitation game, BIG-bench）来系统地评估大语言模型的智能水平和能力边界，并探索其随规模变化时的行为模式。通过对GPT-3、PaLM、以及多个中小规模模型等进行性能随参数规模变化的测试，研究人员发现了任务随规模变化的两种性能增长模式。大语言模型的性能在一类任务表现为线性增长，如语言建模、基本问答；在另一类任务出现突破式表现，如代码生成、数学证明、复杂逻辑任务，从几乎完全不会，到某一规模后突然具备该能力[11]。

近年来现有大型语言模型的时间线（规模大于 10B）

从技术发展史角度看，涌现能力的发现标志着自然语言处理研究范式的根本转变。传统自然语言处理采用任务特定模型，针对每项任务单独设计和训练系统，而现代大型语言模型通过海量数据预训练获得通用能力，再通过提示工程适应各种下游任务。这种转变的核心驱动力正是模型规模的指数级增长——从GPT-3的1750亿参数到PaLM的5400亿参数，再到当前万亿级模型，规模扩大使下游任务表现出神经标度律和涌现能力[12]。

大语言模型的涌现能力

2. 大语言模型能力的涌现现象

模型规模的改变主要体现在训练计算量，模型参数量和训练数据集的大小[13][14]这三个因素上。研究者通常会分析模型的能力随训练计算量或模型参数量的增加而变化的曲线，而不会绘制针对训练集大小的曲线。通常，每个模型的训练计算量是以 FLOPs (Floating Point Operations, 浮点运算数) 来衡量的[14]。模型能力关于参数量与模型能力关于 FLOPs 有形状相似的曲线，这是因为大多数密集Transformer语言模型家族（即采用全连接自注意力机制的模型）的训练计算量大致与模型参数量成比例[13]。研究者通常在训练模型时使用固定大小的训练集[15][16]，因此较难见到模型能力随训练数据集大小而变化的报告。下表[1]列出了一些大语言模型的涌现能力及其出现的规模（以训练所需的浮点运算次数和模型参数数量衡量）。

各种涌现能力出现的模型规模

为了使生成式 AI 模型产生最佳输出，可以采用提示(Prompt)来构建或设计指令。在输入和输出文本的任务中，提示是向AI模型解释其任务的自然语言文本，包含请求、指令、示例，以及任务的背景信息、完成任务的步骤等。按照提示内容的差异，可以将提示简单划分为少量样本提示(Few-Shot Prompting)和增强提示(Augmented Prompting)。前者是一个到数个输入信息和输出结果的示例（如下图所示）；后者是更复杂的提示，比如思维链提示、不包括示例的任务描述、草稿本(Scratchpad)技术（模型在解决问题时需要分解并思考中间步骤，但这些思考不必呈现给用户）等，更复杂的提示能够进一步提高语言模型的能力。

2.1 使用少量样本提示的任务在不同任务上，以模型规模为x轴，以模型能力为y轴绘制曲线，可以观察到模型能力随着模型规模增大的变化情况，并发现模型能力发生明显提升的部分。在达到一定规模之前模型表现平平，之后能力提升至远高于随机水平，这就表示模型能力出现了涌现的现象。下图展示了五个语言模型家族使用少量样本提示时，在八类任务上展现的涌现能力。

少量样本提示中8个涌现现象的例子，引自^[1]

BIG-Bench.BIG-Bench是一个用于语言模型评估的众包基准测试套件，包含超过200个基准测试[17]，下图A-D展示了来自BIG-Bench的四种表现出涌现的任务。图A展示了一个算术计算基准测试，测试3位数加减法以及2位数乘法。GPT-3和LaMDA[18]在训练计算量为几个数量级时准确率接近零，之后，GPT-3的训练计算量在达到2 × 1022 FLOPs（约有13B参数），LaMDA达到1023 FLOPs（约为68B参数）时，模型能力急剧跃升至远高于随机水平。类似的涌现行为也发生在相同规模的其他任务上，例如国际音标转写（图B）、从混乱字母中恢复单词（图C）以及波斯语问答（图D）。

TruthfulQA.TruthfulQA 基准测试可以衡量回答问题真实性的能力[19]，图2E展示了少量提示模型在TruthfulQA基准测试上的能力。这个基准测试是刻意针对GPT-3模型而策划的，因此即使规模扩大到最大，GPT-3的能力也没有超过随机水平。小型Gopher模型在训练计算量扩大到最大，即5×1023 FLOPs（280B参数）之前，能力也没有超过随机水平，而在达到这一规模后，能力跃升至超过随机水平20%以上[20]。

基于文本网格世界中的概念域映射 (Grounded conceptual mappings). 图F展示了基于文本网格世界中的概念域映射任务[21]，这里语言模型必须学会映射一个概念域，例如将一个基于文本网格世界的基本方向映射出来。同样，只有使用最大的GPT-3模型，能力才会跃升至超过随机水平。

多任务语言理解（Multi-task language understanding）. 图G展示了大规模多任务语言理解（MMLU）基准测试，该测试汇总了涵盖数学、历史、法律等多个领域的57项测试[22]。对于GPT-3、Gopher和Chinchilla模型，训练FLOPs约为1022（参数约为10B）或更小时，模型在所有主题上的平均表现并不比随机猜测更好，而将规模扩大到3到5×1023训练FLOPs（70B-280B参数），模型能力大幅超越随机水平。这一结果可能意味着对于没有检索或访问外部记忆功能的密集语言模型而言，解决涵盖大量主题的知识型问题所需的规模可能需要超过这个数值。

语境中的词语（Word in Context, WiC). 图H展示了一个语义理解基准测试：语境中的词语基准测试[23]。值得注意的是，即使模型规模扩大到最大（约5×1023 FLOPs），GPT-3和Chinchilla也无法获得优于随机水平的正确率。而PaLM扩大到2.5×1024 FLOPs（540B参数）时，最终出现了超越随机的能力。这些结果可能表明，WiC问题的解决还受模型本身特性或其他因素的影响，可能无法仅靠扩大规模来达到。

2.2 使用增强提示策略的任务增强提示是指通过在用户原始问题之外添加补充信息（如背景知识、具体约束或示例）来引导大模型生成更精准、高质量的回复。下面是一些会用到增强提示的任务。

推理任务推理任务，特别是涉及多个步骤的任务，对于语言模型和更广泛的自然语言处理模型来说一直具有挑战性[20][24][25]。最近的一种称为思维链(Chain-of-Thought, CoT)提示的提示策略，能够引导模型在给出最终答案之前生成一系列中间步骤，最终帮助模型解决问题[9][26][27]。正如下图A所示，当规模扩大到1023训练 FLOPs（约100B参数）时，思维链提示超越了没有中间步骤的标准提示。当在少样本提示后附加解释来增强提示时，也观察到了类似的能力提升涌现[28]。

指令跟随(Instruction Following)另一种日益增多的研究旨在使语言模型通过阅读一段对于任务的描述来执行新任务，但不给出少量样本示例。通过在混合了各种指令式任务的数据上进行微调，语言模型已被证明能够进行适当的响应[10][29][30][31]。如图B所示，这种指令微调技术对于训练FLOPs为7×1021（8B参数）或更小的模型有损害，只有当规模扩大到1023训练FLOPs（约100B参数）时，才会提高模型能力[10]（尽管有研究者随后发现，这种指令跟随的行为也可以通过微调更小的 encoder-decoder T5 模型来诱导[30]）。

程序执行考虑涉及多个步骤的计算任务，例如大数相加或执行计算机程序。有研究者展示了通过微调语言模型以预测中间输出：草稿本(Scratchpad)技术是一种令模型在输出最终答案之前将问题分解为多个中间步骤的技术，和思维链技术不同，草稿本的中间步骤可以不使用自然语言，也可以不暴露给用户，就像是打草稿。这种技术能使模型更有效地执行多步骤计算任务[25]。研究发现，在8位数相加任务中，使用草稿本技术仅仅对训练FLOPs约为9×1019（40M参数）或更大的模型有帮助（如图C所示）。

模型校准（Calibration）模型校准能够衡量模型预测其回答正确率的能力，代表了模型回答问题的可靠程度。举个例子，当模型给出回答A的采样概率是90%时，说明它有九成把握自己做对了，而如果实际情况真的是10次问题中有9次做对了，说明模型有很高的校准能力。研究者使用平均校准误差（Expected Calibration Error，ECE）来度量模型校准能力的大小。有研究者比较了两种衡量校准的情境[32]：一种是T/F判断题，在提示中会给出一段陈述，让模型给出“正确”或者“错误”的回答。另一种则是单选题，让大模型直接在多个选项中选择正确的答案。如图D所示，在二选一的情境下，模型在大约3×1023训练FLOPs（52B参数）的时候出现了涌现现象，而单选题的情境下模型校准能力一直以幂律的形式平滑增长。

3. 基于下游任务的涌现的影响因素及争议

上述提及的大语言模型涌现现象在判定上始终围绕两个关键特征：度量结果的突变性和突变的不可预测性[33]。而这并不意味着它一定是关于模型性质的度量。涌现现象的发生，可能只是研究者的选择所造成的幻觉[33]。

所谓幻觉是指大模型的涌现现象来自人为的度量指标选择。非线性的或不连续的度量导致我们观察到模型能力的突变和涌现，如果改变度量，则会观察到模型能力的连续变化。这一点可以通过对不同度量方式的定性分析而展现[33]：比如，假设模型有N个参数(N>0)，模型的每token的交叉熵随参数量增加而以幂函数的形式下降：

假设存在一个真实的但未知的概率分布 p以及一个具有N个参数的模型，它给出的预测分布为，根据交叉熵的定义：, 其中V是可能的tokens的集合。由于p是未知的，可以用观测token v∗的one-hot分布来替代，于是得到

因此模型在给定输入的情况下，正确预测出单个token的概率为：

如下图a所示，此时模型能力的度量指标（p(single token correct)随模型规模(模型参数量N)的变化可以得到平缓增长的曲线。而若某任务是L位整数加法，当模型输出正确结果时，记录模型正确率为1，否则记为0，则此时模型的性能和模型参数量的关系为：

如下图b所示，可以观察到在一个线性-对数图中，只是因为度量的变化，我们就观察到了模型能力随模型规模增大而非线性增长的曲线，即呈现出了涌现能力的现象。这一模式和已发表的涌现现象（图b里的小图）是一致的。而如果我们把上面的正确率指标换成线性的指标，比如token编辑距离(Token Edit Distance)，如下图c所示，则会发现模型能力又随模型规模展现出平滑、连续和可预测的变化，即未出现涌现现象。

依据类似的分析，研究者认为选择非连续的度量，就会发现涌现现象；如果换用连续度量，就不会有涌现现象[33]。

总之，一些突变且不可预测的模型能力提升可以被如下因素所解释[33]：

1. 研究者采用了和每token错误率成非线性或非连续关系的度量指标，导致以每token错误率衡量的规模曲线平滑、连续且可预测的情况下，新指标呈现出突变和不可预测的曲线；

2. 在较小的参数范围内，由于分辨率（Resolution，在此被定义为可测的最小区间）不足，无法估计模型性能；

3. 在较大参数范围内采样不足。

但也有学者进一步发现，即使以连续性的度量指标来刻画（比如交叉熵），我们也能看到模型在某些任务上的表现有涌现式的增长[34]。这说明涌现现象依然是真实存在的，而不完全是因为指标选取造成的幻觉。而且指标的连续性也不是选取合适指标的黄金标准，我们应该选取对任务适配的指标。比如以计算10+11=21为例，如果用token编辑距离作为评估指标，模型输出22时，距离等于1，输出11时，距离也等于1，但显然22比11更接近正确答案21。这时候再用token编辑距离作为评估指标就不合理了[35]。鉴于此，有学者提出关于涌现现象更为完整的定义[35]：

一项能力C被称为随着某种规模（如数据量、计算资源、参数数量等）的增长而涌现，需满足以下三个条件：

P1: 在需要能力C的任务上，模型表现呈现非线性的明显提升；

P2: 有多个任务同时出现这种非线性提升，不是只在某单一任务上发生。

P3: 模型获得了一个数据生成过程的底层结构（即对任务本质的理解或表达），这种结构对学会能力C是关键的，并且能力C的涌现与这个结构学习的进展密切相关。

在这篇文章[35]当中，作者其实已经意识到，模型展现的涌现现象和它底层的某些结构是相关的。而在这种结构的层次上做度量，比单纯地刻画下游任务上的表现对于研究大语言模型的涌现来说更为关键。

4. 大语言模型的结构涌现

在结构上，主流大语言模型均基于Transformer架构，根据历史输入预测下一个token的概率分布。Token是自然语言处理中文本切分的最小单位（字、词或子词）。大语言模型使用token来理解和处理文本，把句子分解为token后再进行模型计算和生成。然而，人类对于语言的理解不是在token的层次上，而是在语义（semantics）的层次上。我们可以通过对多个token的排列组合来理解和表达语义。所谓对大语言模型的结构进行度量和解释，便是基于Transformer模块的行为，对模型在token和语义层次上的动力学进行量化分析。这里的动力学机制由模型的权重参数和运行方式决定。

如前所述，目前大多数对于大语言模型涌现的刻画聚焦在具体下游任务的表现上，且都是定性的结论。这类涌现现象可以被看作是大语言模型的功能涌现。然而，结构决定功能。有没有可能在发生功能涌现的同时，大语言模型的内部也在发生结构上的涌现呢？这里的结构既指模型中的网络连接结构，又指模型的前向计算过程的动力学。自菲利普·安德森的《多者异也》之后，复杂性科学中对于复杂系统的涌现有了更多的认识。在观察者角度下，一个复杂系统同时具有微观和宏观尺度上的动力学，比如对于大语言模型来说，微观动力学是从已有的token生成下一个token，宏观动力学则可以是语义上的接龙和变化。作为一个对涌现定量研究的理论框架，因果涌现理论提出当宏观动力学因果效应强度大于微观动力学上的因果效应强度时，复杂系统发生涌现现象[36][37]。我们猜想，大语言模型之所以会出现任务能力上的涌现或突变，背后对应着动力学机制上的涌现。如果我们想要解释甚至调控大语言模型的涌现现象，就需要从结构或动力学的角度对大语言模型的结构涌现进行度量，以及给出相应的理论解释。这样得到的量化结果不依赖于具体的任务设定或人为设定指标时额外引入的非线性。

4.1 量化大语言模型的信息涌现受到Hoel[36][37]和Rosas[38]等人的因果涌现理论的启发，Chen等人[39]提出一种叫做信息涌现（Information Emergence, IE）的定量指标，来量化大语言模型从token序列中提取语义信息的能力。其核心观点是，如果大语言模型在整个序列上的熵减超过了一个个单个token的熵减，那么我们认为该大语言模型发生了涌现。

大语言模型的下一个token预测机制（Next-token-prediction，NTP）可以被建模为一个马尔可夫过程，如下图所示。对于任意的Transformer模块 l ，给定输入token长度T和隐状态维度D，输入表征由表示，输出表征为，其中。一个模块的输出表征就是下一个模块的输入表征。以图中第0块中第2个token的输出表征（）为例，它接收来自输入表征和的信息，满足条件。可见，整个动力学过程由条件概率表示。当条件概率被给定时，每一个模块的输出表征状态仅由该模块的输入表征决定，所以它可以被假设为是一个马尔可夫过程。

NTP机制与马尔可夫过程的类比。

在这个动力学过程中有微观变量和宏观变量。微观变量指仅受单个输入token影响的token，例如 h⁰ 满足转移概率；宏观变量则聚合所有输入token的信息，例如满足转移概率。在这样的定义下，NTP机制可以看作是从最微观尺度向最宏观尺度逐步粗粒化的过程。根据《多者异也》的理论，有时候，宏观变量的行为状态无法从任何一个微观变量中推出，但这并不意味着宏观变量可以无中生有。文中除了马尔可夫假设以外，还提出了随附性假设[39]，即当一个系统的微观动力学机制确定时，它的宏观动力学机制也就随之确定了。

基于以上两个假设，文章中对大语言模型的信息涌现做了如下定义[39]：

对于任意的Transformer模块 l ，表示宏观变量，表示微观变量，MI(·，·) 表示互信息，模块 l 的IE强度定义为：

给定一个序列和Transformer模块，我们如何得到宏微观变量？假设给定的输入序列是“large language model”，那么为了得到每一个token作为微观变量时的输入输出表征，我们需要把每一个token作为当前输入的首个token。比如输入是“large language model”时，我们可以得到“large”作为微观输入表征时的输出表征；把输入序列改成“language model”，就可以得到“language”作为微观输入表征时的输出表征；把输入序列改成“model”，就可以得到“model”作为微观输入表征时的输出表征。而对于宏观变量，则是全序列“large language model”输入时最后一个token（“model”）对应的输入和输出表征。这样做保证了微观变量状态只取决于单个的token，而宏观变量状态则取决于整个序列的信息。

计算互信息需要知道变量的概率分布。为了在大语言模型的高维状态空间上估计概率分布，作者使用了互信息神经估计算法（Mutual information neural estimation，MINE）[40]来得到宏微观变量的概率分布。

下图展示了IE更加体现语义忠实度（Semantics Faithfulness），即一个指标能否真实反映语言模型理解句子含义的能力。该实验使用了OpenOrca数据集中的例子，计算随着输入变长，大语言模型对语义把握的能力是否一直增长。传统的度量指标包括准确率、模型的损失等等。而从下图中可以看出，随着输入变长，这些指标并不总是单调增长的，而且波动很大。与之相比，IE总是在增长（即图中曲线总为正值），而且结果非常稳定。

IE和其他指标随着token数量增加的增长幅度的变化。纵轴度量的计算方式是(value(t) − value(t − 1))/value(t)。

IE可以用来直接指示大模型能力的提升。研究中评估了8个算术任务（一位数和两位数的加减乘除）的表现与IE值之间的关联关系（如下图所示）。当参数量达到109至1010时，任务性能出现显著提升，表明存在涌现现象。在同一参数范围内，平均IE值也显著增加。

研究中评估了8个算术任务的表现与信息涌现指标IE之间的关联

4.2 基于大语言模型结构的多尺度解释根据前文提及的因果涌现理论，涌现的发生涉及从微观到宏观的多个尺度。当人们在用语言交谈时，实际上在传递宏观层面的语义，和知识量子较为相似。它与大模型参数的对应关系是大模型可解释性的关键所在，同时是非常复杂的。往往一个语义要与多个参数相对应，而同一个参数也会参与不同语义的形成当中，即神经元的多义性，因为语言世界中的概念（语词之间有意义的排列组合）一般远多于神经网络的参数。那大语言模型是否真正把握了语言中的宏观规律，并且主要由这些宏观的理解来完成任务呢？

近期，开发Claude大模型的团队Anthropic公司提出了一系列基于Claude行为表现的大模型可解释性工作 [41][42]，名为AI生物学（AI biology）。他们对于大模型解释的架构主要来自跨层转码器（Cross-Layer Transcoder，CLT）的应用。如下图所示，CLT内部有编码器和解码器，每一个CLT模块把某一层的残差作为输入，解码的输出则重构预测该层后续所有层的输出，同时考虑解码器权重的正则化，使得token和CLT表征之间的对应关系可以尽可能稀疏。

CLT的示意图

根据训练好的CLT，我们可以根据CLT权重和隐变量的激活程度构建输入token、中间层表征以及预测token之间的因果图，也就能看清大模型作出预测的路径是怎样的了。下面我们主要介绍三个案例来分析大模型内部的“思考过程”。第一个问题是，大模型如何横跨多种语言完成交流？

面对同一个问题（“小”的反义词是什么）的不同语言表述，大模型内部除了有针对不同语言的专门的模块以外，还有一个语义理解的共享模块。

上图是一个高度简化版的因果图，提示词是多国语言版本的相同问题：“小的反义词是什么”。每一个语言下的问题都会涉及一个和语言相关模块，提示大模型要用特定的语言回答。更重要的是，它们都用到一个共享的表征，其中涉及3个概念：“小”、“反义词”、“大”。这个表征与特定的语言无关。而且模型越大，这种共享表征占比就更多。这证实了大模型的“思考”发生在一个与语言种类无关的抽象的语义空间里。它说明，从一种语言中学到的知识，Claude可以直接迁移到其他语言当中。

第二个问题是，大模型如何写诗？人们之前猜测，因为大模型每次都只预测下一个词，所以不会对一首诗做整体规划，而是每次预测下一个词的时候一方面保证结尾押韵，另一个方面保证它是通顺合理的。结果，团队发现Claude在写诗时有在做提前规划，如下图所示。比如在第一行诗的结尾“grab it”的后面，模型马上开始考虑以“rabbit”作为第二句的结尾来押韵。因果图的要义在于我们可以对某个变量施加干预，看看会发生什么，这也是神经科学家研究大脑功能的方法论。在AI生物学这个工作里，作者可以通过修改某一个CLT的隐变量来达成干预的目的。如果我们去除中间层“rabbit”这个表征，大模型还有其他的候选韵脚，比如“habit”。如果把中间层的词换成“green”，大模型仍然可以以它作为结束完成一首有意义的小诗。

图中浅蓝色部分是提示词，橙红色部分是输出。

如果我们把词语接龙的过程看成是一个动力学过程，原本微观动力学是只预测下一个词，只会在最后一个词的时候考虑韵脚的问题。结果大模型是先确定了最后的韵脚词和候选词，再给出这句话的每一个词。这相当于是先“想”清楚了整个段落的宏观目标，再决定具体的微观上的词语选择，即发生了跨尺度的向下因果。如果这种能力是在达到某个规模阈值后拥有的，不难想象大模型会在各种写作和推理任务上表现有突然的提升。

第三个问题是，大模型如何完成各种数学计算任务？我们知道，大模型不会有针对数学任务的专门训练，一切相关的训练也都是在文本学习中完成的。而涌现现象，也往往是在数学推理这样复杂的任务上显著地体现出来。那大模型在完成数学运算时，究竟是靠强大的记忆力把所有计算结果都记住了，还是像我们在小学里学的那样，一步步学会的？事实上，大模型针对数学运算有两条并行的思考路径，如下图所示。

计算的36+59的内部思考过程。

一方面，大模型会对结果有一个粗糙的估计，给出结果的一个范围，对应图中蓝色的部分。另一方面，大模型也会做精确的计算，如图中紫色的部分，对个位数给出一个精确的结果。有意思的是，如果让大模型解释自己是如何做出这道题的，它似乎意识不到自己真正的“心算”过程，而是模仿人类的解释，说自己计算了个位数进位了1到十位数。

5. 大语言模型涌现的机制解释

大语言模型为什么会出现涌现现象？通过上文的讨论我们知道，有些涌现现象可能来自幻觉（度量指标的选取），但有很多涌现现象即使是用连续的指标度量也会被观测到。对于这些真实的涌现现象，我们能否预测什么时候大语言模型会发生涌现，甚至干预和调控这个过程？许多研究者致力于为大语言模型的涌现提出理论解释。首先，我们可以粗浅地从观察到的现象中归纳出一些结论。

涌现能力主要出现在多步骤复杂任务上，而知识密集型任务通常遵循平滑的神经标度律。模型可能需要足够容量来构建中间表示，才能分解和解决复杂问题。当模型规模不足时，其内部"工作记忆"可能无法支持多步推理所需的临时信息存储和操作。对于在高质量数据上训练的模型，涌现现象可以在较少的训练计算量或较少的模型参数的情况下出现。涌现能力也会受模型训练充分程度的影响，当今的语言模型很可能没有得到最佳训练[14]，而且我们对于如何最佳地训练模型的理解也将随着时间的推移而发展，因此已有研究通常只能提供关于是否出现涌现现象的部分证据。总体而言，一种明智的做法是将涌现视为许多相关变量的函数。有研究者认为模型是否出现涌现现象，可以被看作模型参数规模、训练数据量大小、训练充分程度和具体任务类型等多种因素的未知函数[12]。

5.1 知识量子理论2023年，MIT的Tegmark团队借鉴量子的概念，提出了知识量子理论来诠释大语言模型的各种现象，包括神经标度律、涌现等[34]。作者们假设，知识是以知识量子（knowledge quanta）的形式一份一份存在在自然语言当中的。当大语言模型进行训练和学习时，就是在学一个个知识量子。下表给出的，是作者们通过对梯度进行聚类得到的知识量子的示例。

自动发现的大语言模型知识量子
Cluster 50: 递增数列片段
Cluster 100: 换行预测片段
01-Mi Querencia (Simón Díaz)\n02-Tonada De Luna Llena (Simón Díaz)\n03-Sabana (José Salazar/Simón Díaz)\n04-Caballo Viejo (Simón Díaz)\n05-Todo Este Campo Es Mío (Simón Díaz)\n06-La Pena Del Becerrero (Simón Díaz)\n07
Pursuant to 5TH CIR. R. 47.5, the court has determined\n that this opinion should not be published and is not precedent\n except under the limited circumstances set forth in 5TH CIR.\n
...from opening a through road or street for public use across said public park in the Park of The City of Riverton." (Emphasis supplied.)\nAppealing from that order, the city asserts (1) plaintiffs have no standing or right to maintain the action; (2) that the proposed road was in an undedicated part of the park; (3) that the proposed road was an access road and not a through street or part of the city's street system.(4
TO PERFORM QUADRATIC REGRESSION\nON THE TI84 GRAPHING CALCULATOR.\nDETERMINE HOW WELL THE REGRESSION MODEL FITS THE DATA.\nAND THEN MAKE PREDICTIONS USING THE REGRESSION EQUATION.\nIN STATISTICS, REGRESSION ANALYSIS INCLUDES\nANY TECHNIQUES USED FOR MODELING \n
4. Introduction\n5. Chapter 1: What Is Trust?\n6. Chapter 2: Trust Brings Rest\n7. Chapter 3: Who Can I Trust?\n8. Chapter 4: The Folly of Self-Reliance\n9. Chapter 5: Trust God and Do Good (Part 1)\n10. Chapter 6: Trust God and Do Good (Part 2)\n11. Chapter 7: At All Times\n12. Chapter 8
creddump is free software: you can redistribute it and/or modify\nit under the terms of the GNU General Public License as published by\nthe Free Software Foundation, either version 3 of the License, or\n(at your option) any later version.\n\ncreddump is distributed in the hope that it will be useful.\n
The chosen sites were recorded as:0 = sound (n = 13);1 = first visible sign of noncavitated lesion seen only when the tooth is dried;2 = visible noncavitated lesion seen when wet and dry;3 = microcavitation in enamel;4 = noncavitated lesion extending into dentine seen as an undermining shadow;5 = small cavitated lesion with visible dentine (less than 50% of surface);6
/**\nCopyright (c) 2019. The Android Open Source Project\n\nLicensed under the Apache License, Version 2.0 (the "License");\nyou may not use this file except in compliance with the License.\n
QCBlock List Msg = 0x0a \nGet Latest Status Msg = 0x0b \nLatest Status Msg = 0x0c \nPrepare Block HashMsg = 0x0d \nGet View Change Msg = 0x0e \nPing Msg = 0x0f
children have a lack of maturity and an underdeveloped\n sense of responsibility, leading to recklessness, impul-\nsivity, and heedless risk-taking... Second, children\n are more vulnerable to negative influences and\n outside pressures, including from their family and\n peers; they have limited control over their own envi-\n

自动发现的大语言模型知识量子
Cluster 50: 递增数列片段	Cluster 100: 换行预测片段
01-Mi Querencia (Simón Díaz)\n02-Tonada De Luna Llena (Simón Díaz)\n03-Sabana (José Salazar/Simón Díaz)\n04-Caballo Viejo (Simón Díaz)\n05-Todo Este Campo Es Mío (Simón Díaz)\n06-La Pena Del Becerrero (Simón Díaz)\n07	Pursuant to 5TH CIR. R. 47.5, the court has determined\n that this opinion should not be published and is not precedent\n except under the limited circumstances set forth in 5TH CIR.\n
...from opening a through road or street for public use across said public park in the Park of The City of Riverton." (Emphasis supplied.)\nAppealing from that order, the city asserts (1) plaintiffs have no standing or right to maintain the action; (2) that the proposed road was in an undedicated part of the park; (3) that the proposed road was an access road and not a through street or part of the city's street system.(4	TO PERFORM QUADRATIC REGRESSION\nON THE TI84 GRAPHING CALCULATOR.\nDETERMINE HOW WELL THE REGRESSION MODEL FITS THE DATA.\nAND THEN MAKE PREDICTIONS USING THE REGRESSION EQUATION.\nIN STATISTICS, REGRESSION ANALYSIS INCLUDES\nANY TECHNIQUES USED FOR MODELING \n
4. Introduction\n5. Chapter 1: What Is Trust?\n6. Chapter 2: Trust Brings Rest\n7. Chapter 3: Who Can I Trust?\n8. Chapter 4: The Folly of Self-Reliance\n9. Chapter 5: Trust God and Do Good (Part 1)\n10. Chapter 6: Trust God and Do Good (Part 2)\n11. Chapter 7: At All Times\n12. Chapter 8	creddump is free software: you can redistribute it and/or modify\nit under the terms of the GNU General Public License as published by\nthe Free Software Foundation, either version 3 of the License, or\n(at your option) any later version.\n\ncreddump is distributed in the hope that it will be useful.\n
The chosen sites were recorded as:0 = sound (n = 13);1 = first visible sign of noncavitated lesion seen only when the tooth is dried;2 = visible noncavitated lesion seen when wet and dry;3 = microcavitation in enamel;4 = noncavitated lesion extending into dentine seen as an undermining shadow;5 = small cavitated lesion with visible dentine (less than 50% of surface);6	/**\nCopyright (c) 2019. The Android Open Source Project\n\nLicensed under the Apache License, Version 2.0 (the "License");\nyou may not use this file except in compliance with the License.\n
QCBlock List Msg = 0x0a \nGet Latest Status Msg = 0x0b \nLatest Status Msg = 0x0c \nPrepare Block HashMsg = 0x0d \nGet View Change Msg = 0x0e \nPing Msg = 0x0f	children have a lack of maturity and an underdeveloped\n sense of responsibility, leading to recklessness, impul-\nsivity, and heedless risk-taking... Second, children\n are more vulnerable to negative influences and\n outside pressures, including from their family and\n peers; they have limited control over their own envi-\n

比如上表中展示的50号聚类得到的知识量子，便是专门负责对数字序号进行预测的知识（每个例子最后的粗体标注内容是该知识量子所涵盖的）。而100号聚类得到的知识量子，是对于代码中换行符号的预测。这些知识量子的重要性及使用频率可以非常不同。根据齐普夫定律，作者假设知识量子在语料中的分布服从幂律分布。所以这正是作者能够从知识量子理论中推出神经标度律的关键假设所在。

那么，知识量子理论能否用来解释涌现，以及建立起涌现和神经标度律之间的关联呢？如下图所示，交叉熵损失随着模型参数规模的增大会有不同的下降方式，一种是当参数规模达到某一阈值时损失突然大幅下降，便说明在这个任务上大模型出现涌现现象；另外则是损失平滑线性地下降，这便对应的是神经标度律。作者发现，当任务只和单个量子相关（Monogenic）的时候，损失的变化呈现为涌现；而如果任务和多个量子都相关（Polygenic），损失的变化趋势便呈现为神经标度律。按照这种分析，神经标度律其实是大量知识量子各自涌现结果的平均现象。

当任务涉及单个量子时，loss的变化体现为涌现；涉及多个量子时，体现为神经标度律

5.2 渗流模型渗流模型（Percolation Model）最早用于描述物质在多孔介质中的渗透过程。当网络的连通性达到某一临界点时，系统会发生显著变化，形成大规模的连通区域。在该临界点之前，系统中的连接是局部的、碎片化的；而一旦超过这一临界阈值，连接会迅速扩展，形成全局连通的集群。近年来，这一模型被借用来解释神经网络，特别是大语言模型中的涌现现象。

涌现是自然科学中的一个特征现象，它与相变的概念紧密相关，即当改变某个控制变量(例如,温度)时，系统的基本结构(例如,晶体中六角构型的形成)会发生系统性的变化，并同时影响它的一些性质（如物质固态、液态、气态之间的转变）。下图是固液气相变和大模型能力涌现类比的示意图。Lubana等人[35]定义了机器学习中涌现的类似表征：识别模型行为中影响其下游能力并导致性能突然提升的系统性变化(例如，学习一种语言的句法会影响所有下游的能力)。

涌现现象在学习过程中类似物质相变的不同阶段，强调模型能力随着训练规模的增加而突变。

如前文所述，该研究对能力的涌现现象做出如下定义：

若模型在某一相关维度（如数据量、计算量、参数量）上扩展时，能力C满足以下三个条件，则称其为“涌现”：

P1（非线性性能提升）：该能力相关任务的性能表现出现非线性跃升；

P2（多任务共现）：多个不同任务同时表现出非线性性能提升；

P3（结构性学习）：模型学习了数据生成过程中的某种结构，这一结构对于学习能力C至关重要，且能力C的非线性增长与该结构的学习过程直接相关。

该定义赋予“涌现”比“在某个任务上性能突增”更广的含义：它要求模型学习到对多个能力都有下游影响的结构性知识，并因此在多个任务上表现出突然的性能提升。从这个角度看，“涌现”的其实是结构，而观察到的是模型能力的变化，如果能通过分析那些同时出现性能跃升的任务，推测出它们之间所共享的结构，并据此设计评估指标，那么就有可能预测在一次独立训练中能力何时会突然出现。

该研究提出一个基于渗流模型的理论框架来建模那些需要模型组合未见过的实体和描述性属性的能力的涌现过程。该研究提出概念类（concept class）的结构，将概念类抽象为二分图（concept class），并将语言学习过程建模为二分图上的渗流问题。在以二分图表征的语言模型训练过程中，节点（如实体、属性等）通过边（如实体与属性的配对）连接在一起。随着训练数据和参数规模的增加，节点之间逐渐形成一个“连通子图”，一旦这个子图的规模突破某个阈值，模型就会展现出新的能力。这一过程与渗流模型中“临界阈值”概念相似，表示模型从局部学习到全局能力的跃升。

5.2.1 基本定义实体（entities）：“主语”和“宾语”统称为实体，所有实体组成集合E。

属性（properties）：描述性和关系性的词语统称为属性，所有属性构成集合K。

概念类（concept class）：一个概念类被定义为一个属性子集K_C⊆K，表示属于该类的实体所具备的属性。从一个概念类中随机采样的两个实体，往往共享部分属性——这为训练模型提供了判断它们是否属于同一类的信号。

类型约束图：类型约束图G=(E,K,I)是一个二分图（bipartite graph），其中节点为实体集E与属性集K，边集I表示实体是否具备某一属性（即是否连接）。

各类实体与描述词、动词之间的连接关系

5.2.2 形式语言学习中的涌现能力Lubana等人使用形式语言构建实验系统进一步研究语言学习中的涌现能力，即在线学习场景下数据扩展引发的涌现。

实验中训练模型执行如下三种任务：

自由生成（Free generation）：模型需生成一个完全合法的句子，即同时符合语法规则与类型约束。

打乱复原（Unscrambling）：给定一个被随机打乱的句子 token 集合，模型需将其复原为一个合法句子。

条件生成（Conditional Generation）：给定一组包含实体或属性的 token，模型需在生成句子时正确地使用这些 token 并保持合法性。

任务示例

设模型输入为x，输出为f(x)，定义如下评估指标。

语法性/类型检查（Grammaticality / Type Check）：用于自由生成任务

完全匹配 / Token 准确率（Exact Match / Per Token Accuracy）：用于打乱复原任务

条件满足率（Conditions Satisfied）：用于条件生成任务

合法 token 的平均概率（Avg. Probability of Valid Tokens）：用于描述型句子的自由生成与打乱复原任务

Lubana等人将模型的表现绘制为训练迭代次数的函数，由于实验处于一个在线学习 + 恒定步长的训练设定中，该分析等价于研究数据扩展的效果。结果如下图所示，揭示出模型学习动态中存在三个清晰的阶段。

对结构的学习驱动能力的涌现：(a)语法性与类型检查准确率随训练迭代变化：语法习得阶段（灰）、关系约束习得阶段（粉）、描述约束习得阶段（绿）；(b)打乱复原的表现：在阶段边界附近，这个任务出现明显性能跃迁；(c)条件生成的表现：在阶段边界附近，这个任务出现明显性能跃迁；(d)训练损失随时间变化：每个结构被学会的时点伴随一次损失下降；(e)描述性/相关性句子的表现：打乱复原任务在描述句子上的提升，主要由描述约束习得驱动。

阶段1：语法获取

最初阶段，模型迅速学习生成符合语法规则的句子（该过程可由“语法性准确率”指标衡量），在大约 100 次迭代内，模型就能生成高度语法正确的句子。但在这一阶段，打乱复原（unscrambling）和条件生成（conditional generation）等任务的表现仍然很差。不过，正当语法性显著提升时，token 准确率开始提升，表明模型对一种广义结构（即语法）的掌握，正在对其他能力的学习产生影响。

阶段2：关系性类型约束的获取

在大约第 1000 次迭代时，模型在“关系型类型检查”上的表现突然从几乎为零跳跃至近乎完美。这一跃迁正好伴随着所有任务（尤其是自由生成任务）的损失突降。这一涌现恰好发生在模型首次达到最高语法性准确率的时间点。这表明，一旦模型学会了数据的第一个结构（语法），它很快就会学习第二个结构（关系型类型约束）。描述型约束（descriptive constraints）的表现也有所提升（因而“整体类型检查”准确率上升），但仍徘徊在略高于 0.1 的水平。因此，模型在此阶段主要依赖其语法知识，并未真正掌握描述型类型约束。在该阶段中，可以观察到打乱复原与条件生成任务的表现也突然跃升，所有评估指标均显著改善。尤其是这些任务的损失曲线也显示出再次下降的趋势（图d）。图e显示，这些性能提升主要来源于无需依赖描述约束的句子（即只需语法与关系型知识即可完成的任务）。

阶段3：描述性类型约束的学习

在第二阶段中，模型在描述类型检查上的表现几乎无增长。然而，随着训练继续推进，模型进入第三阶段。此阶段以表现增长率的斜率突变为边界特征，表现为描述型类型检查的准确率从饱和区突然转为与 log(数据量/迭代数) 成正比的增长。随后不久，可以观察到打乱复原与条件生成任务也出现类似增长趋势。这说明在本阶段，模型终于开始学习并利用描述性约束来提升更复杂任务的性能。通过放大图中的曲线，可以观察到在这些任务上仍存在一个微小但清晰的损失跳跃。考虑到此时模型仅接受了约 10⁴ 次迭代训练，而实体-属性组合的训练样本只覆盖了 15% 左右（即 p=0.15），那么模型最高只能获得约 15% 的表现（这与实际观察相符），理论最大也不超过 20%。然而我们观察到该任务最终可达到 30–35% 的准确率，说明模型已经超越记忆性学习，开始泛化出新的实体-属性配对。若模型仅靠记忆，它无法在未见过的配对上表现良好。因此可以说明模型正在根据类型约束图的结构，隐式地推理哪些实体和属性可以共同出现。这表明第二阶段主要以“记忆”为主，而第三阶段标志着从记忆式解决方案向泛化式解决方案的过渡。

以上现象在广泛实验设置下高度稳定：

模型始终先学会语法和类型约束两种结构；

然后在多个狭义任务上表现出突发性跃升；

从物理类比角度看，“语法性”和“类型检查”可视为序参量（order parameters）；

它们大致决定了模型在何时可能会对某任务表现出“涌现”特征。

5.2.3 涌现的渗流模型该研究提出一种理论框架，用于建模那些需要模型组合未曾见过的实体与描述属性的能力的涌现过程，例如“描述型类型约束”的学习。这些能力除了能让模型在自由生成中更准确地构造句子，还可提升更狭义的任务，如条件生成与打乱复原。如果模型能够理解哪些实体和属性属于同一“概念类”，那么即使它们在训练数据中从未同时出现过，它仍然可以判定这种组合是“合理”的。因此，可以将概念类（concept classes）抽象为二分图（bipartite graph），并将模型对其学习过程类比为图上的渗流（percolation）过程。

数据的矩阵表示

概念密度矩阵用于表示概念类的数据分布：矩阵的行和列分别对应实体和属性，矩阵值表示每个组合的数据密度（例如实体-描述词配对的出现频次）。

概率密度矩阵：设D是一个|E|×|K|的矩阵，其元素为0到1之间的实数。每个元素D_e_k表示实体-属性对(e,k)的密度（例如表示该特定组合的数据量）,其中e∈{1,...,|E|}和k∈{1,...,|K|}分别是实体和属性的索引。

以实体{Man, Lawyer, Telephone}和属性{Walk, Stoic, Ring}为例，矩阵D可为：，表示“Man–Walk”和“Man–Stoic”经常同时出现，“Telephone–Ring”也存在，但“Lawyer–Ring”未曾出现。

组合学习过程

概念传播矩阵可以建模从非完整数据中推断新组合的过程：

概念传播矩阵：第n阶概念传播矩阵(n>0)定义为T⁽ⁿ⁾=(DD^T)ⁿD=CⁿD，其中C:=DD^T。通过n次传播，模型能从原始矩阵D中推断出哪些组合是合理的。

将D映射为一个二分图，其中左侧节点表示实体，右侧节点表示属性，边表示它们在训练中被共同观察。在这个图中若两个节点（实体和属性）之间存在最短路径长度为2k+1，则只有在传播步数n>k 时，传播矩阵才为非零。若两个节点处于完全不连通的子图中，那么无论传播多少次，该组合都永远无法被学习（即=0，对任意n成立）。

例如，“Man–Walk”可能可达，“Lawyer–Ring”永远不可达，意味着后者不能合理组合。

描述性约束的渗流转变

在二分图框架下，泛化（或概念类的学习）可以定义为：尽管概念密度矩阵稀疏，但实体-属性连接对的大型集群仍然能够形成。关键问题是考察当T^∞中非零元素占所有可能对|E|×|K|的比例（代表模型能泛化出多少“未见过但合理”的实体–属性组合）。这种情况恰好对应于二分图上的键渗流（bond percolation）问题。

在键渗流中，我们研究最大连通集群的规模如何随每条边（键）存在概率p的变化而变化。通常存在一个临界阈值p_c:当p<p_c时，图处于不连通相，大多数节点孤立或属于小集群；当p>p_c时，图转变为连通相，出现跨越大部分图的巨型连通簇。这种从主要不连通状态到存在宏观集群的转变是渗流过程的标志特征，且随着节点数的增加，这一转变会愈发陡峭。

将构成看不见的概念(例如,实体和属性)的能力投射为二分图上的渗流：(a)若概念类仅部分出现在训练集中，或实体-属性连接稀疏，图中节点将形成多个“孤立簇”（见左图，颜色不同表示不同连通区域）；随着更多概念类被加入（虚线边表示新增连接），这些小簇开始合并（中图）；随着更多概念类被加入（虚线边表示新增连接），这些小簇开始合并（中图）。(b)我们的理论将这种转变建立为二阶相变，其中最大团簇的大小随着连接节点对的比例非线性地增加。

在简单渗流场景中（图的连接边随机选择，概率为p），渗流阈值为（当|E|和|K|较大时）。这意味着当约|E||K|条边被连接时（总可能边数为），系统的连通簇会出现质变。对于p>pc，最大簇的节点数迅速增长，任取一对实体–属性，其在同一簇中的概率趋近于常数。

渗流阈值对应于模型从对组合的稀疏学习转向完整表征概念类的临界点。当边数量超过阈值时，模型能够推断未见过的组合，即使这些实体-属性对未在训练数据中显式共现。模型还应能在此阈值后区分不同的概念类；在社区检测问题（如随机块模型）中，分区检测阈值与pc具有相同的标度律。由于在线学习中的迭代次数增加应对应于p的增加（即观察更多实体–属性配对），模型性能发生转变的迭代点应与成正比。

5.2.4 实验验证基于图论的理论框架可以预测结构学习过程的“渗流相变”行为，尤其是在模型试图泛化出未见过但合理的实体–属性组合时。实证检验设置如下：实体数固定，属性数取不同值，模型架构、学习率、数据分布等保持一致，记录每次训练的描述型类型检查准确率随训练迭代数的变化曲线，并从中估计“涌现点”——即描述类型检查准确率开始显著上升的训练迭代t。

描述结构涌现点的理论与实证对比

实验结果如上图所示，模型对描述性结构的学习，确实存在一个清晰的“转折点”，这个转折点的位置正比于，该现象符合渗流理论中的临界点预测。

6. 总结

在大语言模型百花齐放的今天，我们很容易观察到大语言模型在特定能力上表现出的非线性跃迁特征：当模型规模较小时，这些能力完全不存在；但当参数规模突破某一临界点后，模型会突然展现出如复杂推理、上下文学习等新能力。这便是涌现现象。如果说平滑增长的神经标度律承诺我们，只要投入足够的资源，大模型的能力一定会持续增长。那么涌现现象便是在说，我们有可能四两拨千斤，在有些时候，只要让投入资源的规模再扩大一点，就可以获得出乎意料的超额回报。于是对于大模型涌现的描述、解释和预测是值得关注的重要课题。

但目前，学者们对于大模型涌现的描述更多停留在定性层面，而且受到下游任务设计、度量指标选取等诸多因素的影响。本词条综述了部分对于大模型涌现的代表性研究，而对于大模型涌现的机制解释，对于涌现、顿悟、神经标度律的统一理论解释，还有很大的领域空白，尤其是在如何借鉴复杂系统研究中的涌现相关理论上。未来随着可解释性人工智能技术的进一步发展，我们将对大模型涌现现象有更加深刻的理解。

作者一

作者二

作者三

作者四

本词条由集智俱乐部众包生产，难免存在纰漏和问题，欢迎大家留言反馈或者前往对应的百科词条页面进行修改，一经修改，可以获得对应的积分奖励噢！

加入我们

亲爱的社区成员和知识爱好者：

我们正在寻找对知识分享充满热情的志愿者，加入我们的集智百科词条编写团队！无论你是某个领域的专家，还是对某一主题有浓厚兴趣，我们都欢迎你的加入。通过编写和编辑百科词条，你将有机会为全球读者提供准确、权威的信息，同时提升自己的写作和研究能力。

我们需要的帮助

编写新的集智百科词条，涵盖复杂系统、人工智能等多个领域

更新和完善现有词条，确保信息的准确性和时效性

校对和审核其他志愿者提交的内容，确保词条质量

我们希望你具备

良好的写作能力，能够清晰、简洁地表达复杂的概念

对某一领域有深入了解或浓厚兴趣

具备基本的网络搜索和信息整理能力

有责任心和团队合作精神，愿意为知识共享贡献力量

如果你对知识分享充满热情，愿意为全球读者提供有价值的信息，请立即加入我们！

扫码填表，添加负责人微信

让我们一起，用知识连接世界！

参考文献

1. Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E. H., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., & Fedus, W. (2022). Emergent Abilities of Large Language Models (arXiv:2206.07682). arXiv. https://doi.org/10.48550/arXiv.2206.076822. P. W. Anderson,More Is Different.Science, 177(4047): 393-396, 1972. DOI:10.1126/science.177.4047.3933. Jacob Steinhardt. Future ml systems will be qualitatively different, 2022. URL https://bounded-regret. ghost.io/future-ml-systems-will-be-qualitatively-different/. Accessed May 20, 2022.4. Bernardo A. Huberman and Tad Hogg. Phase transitions in artificial intelligence systems. Artificial Intelligence, 33(2):155–171, 1987. URL https://www.sciencedirect.com/science/article/ abs/pii/0004370287900336.5. Jared Kaplan, Sam McCandlish, Tom Henighan, et al. Scaling Laws for Neural Language Models. arXiv:2001.08361, 20206. Ziming Liu, Ouail Kitouni, Niklas Nolte, et al. Towards Understanding Grokking: An Effective Theory of Representation Learning. arXiv:2205.10343, 20227. Preetum Nakkiran, Gal Kaplun, Yamini Bansal, et al. Deep Double Descent: Where Bigger Models and More Data Hurt. arXiv:1912.02292, 20198. Huang, Y., Hu, S., Han, X., Liu, Z., & Sun, M. (2024). Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition (arXiv:2402.15175). arXiv. https://doi.org/10.48550/arXiv.2402.151759. Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): [[1]].10. Wei, Jason, et al. "Finetuned language models are zero-shot learners." arXiv preprint arXiv:2109.01652 (2021).11. Srivastava, Aarohi, et al. "Beyond the imitation game: Quantifying and extrapolating the capabilities of language models." arXiv preprint arXiv:2206.04615 (2022).12. 张俊林, 大语言模型的涌现能力：现象与解释. 2023. 知乎. https://zhuanlan.zhihu.com/p/62143865313. Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020. URL https://arxiv.org/abs/2001.0836114. Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. NeurIPS, 2022. URL https://arxiv.org/abs/2203.15556.15. Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. NeurIPS, 2020. URL https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html16. Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv preprint arXiv:2112.11446, 2021. URL https://arxiv.org/abs/ 2112.11446.17. BIG-Bench. Beyond the imitation game: Measuring and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022. URL https://arxiv.org/abs/2206.04615.18. Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H-T., Jin, A., Bos, T., Baker, L., Du, Y. et al. LaMDA: Language models for dialog applications. arXiv preprint arXiv:2201.08239, 2022. URL https://arxiv.org/abs/2201.08239.19. Lin, S., Hilton, J., & Evans, O. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958, 2021. URL https://arxiv.org/abs/2109.07958.20. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoﬀmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S. et al. Scaling language models: Methods, analysis and insights from training Gopher. arXiv preprint arXiv:2112.11446, 2021. URL https://arxiv.org/abs/ 2112.11446.21. Patel, R. & Pavlick, E. Mapping language models to grounded conceptual spaces. ICLR, 2022. URL https://openreview.net/forum?id=gJcEM8sxHK.22. Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., & Steinhardt, J. Measuring massive multitask language understanding. ICLR, 2021a. URL https://openreview.net/ forum?id=d7KBjmI3GmQ.23. Pilehvar, M. T. and Camacho-Collados, J. WiC: the word-in-context dataset for evaluating context-sensitive meaning representations. NAACL, 2019. URL https://aclanthology.org/N19-1128.24. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E. et al. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258, 2021. URL https://arxiv.org/abs/2108.07258.25. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D. et al. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021. URL https://openreview.net/forum?id=iedYJm92o0a.26. Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021. URL https://arxiv.org/abs/2110.14168.27. Suzgun, M., Scales, N., Scharli, N., Gehrmann, S., Tay, Y., Chung, H.Y., Chowdhery, A., Le, Q.V., Chi, E.H., Zhou, D., & Wei, J. Challenging BIG-Bench tasks and whether chain-of-thought can solve them. arXiv preprint arXiv:2210.09261, 2022. URL https://arxiv.org/abs/2210.09261.28. Lampinen, A.k., Dasgupta, I., Chan, S. C.Y., Matthewson, K., Tessler, M.H., Creswell, A., McClelland, J.L., Wang, J.X., & Hill, F. Can language models learn from explanations in context? Findings of EMNLP, 2022. URL https://arxiv.org/abs/2204.02329.29. Ouyang,L., Wu, J., Jiang, X., Almeida, D., Wainwright, C.L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A. et al. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022. URL https://arxiv.org/abs/2203.02155.30. Sanh, V., Webson, A., Raﬀel, C., Bach, S., Sutawika, L., Alyafeai, Z., Chaﬃn, A., Stiegler, A., Scao, T.L., Raja, A. et al. Multitask prompted training enables zero-shot task generalization. ICLR, 2022. URL https://openreview.net/forum?id=9Vrb9D0WI4.31. Chung, H.W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S. et al. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416, 2022. URL https://arxiv.org/abs/2210.11416.32. Kadavath, S., Conerly, T., Askell, A., Henighan, T., Drain, E., Perez, E., Schiefer, N., Hatfield-Dodds Z., et al. (2022) Language Models (Mostly) Know What They Know.(arXiv:2207.05221). arXiv. https://arxiv.org/abs/2207.0522133. Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? (arXiv:2304.15004). arXiv. https://doi.org/10.48550/arXiv.2304.1500434. Michaud, E. J., Liu, Z., Girit, U., & Tegmark, M. (n.d.). The Quantization Model of Neural Scaling. https://arxiv.org/abs/2303.1350635. Lubana, E. S., Kawaguchi, K., Dick, R. P., & Tanaka, H. (2024). A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language (arXiv:2408.12578). arXiv. https://doi.org/10.48550/arXiv.2408.1257836. E. P. Hoel, L. Albantakis, and G. Tononi. Quantifying causal emergence shows that macro can beat micro. Proceedings of the National Academy of Sciences, 110(49):[[2]], 2013.37. E. P. Hoel, L. Albantakis, W. Marshall, and G. Tononi. Can the macro beat the micro? integrated information across spatiotemporal scales. Neuroscience of Consciousness, 2016(1):niw012, 2016.38. F. E. Rosas, P. A. Mediano, H. J. Jensen, A. K. Seth, A. B. Barrett, R. L. Carhart-Harris, and D. Bor. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data. PLoS computational biology, 16(12):e1008289, 2020.39. Chen, H., Yang, X., Zhu, J., & Wang, W. (2024). Quantifying Semantic Emergence in Language Models (arXiv:2405.12617). arXiv.40. M. I. Belghazi, A. Baratin, S. Rajeshwar, S. Ozair, Y. Bengio, A. Courville, and D. Hjelm. Mutual information neural estimation. In International conference on machine learning, pages531–540. PMLR, 2018.41. Lindsey, et al., "On the Biology of a Large Language Model", Transformer Circuits, 2025.42. Ameisen, et al., "Circuit Tracing: Revealing Computational Graphs in Language Models", Transformer Circuits, 2025.

参考文献可上下滑动查看

大模型可解释性读书会读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境，尝试从以下四个视角梳理大语言模型可解释性的科学方法论：

自下而上：Transformer circuit 为什么有效？

自上而下：神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚？

复杂科学：渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力？

系统工程：如何拥抱不确定性，在具体的业界实践中创造价值？

五位发起人老师会带领大家研读领域前沿论文，现诚邀对此话题感兴趣的朋友，一起共创、共建、共享「大模型可解释性」主题社区，通过互相的交流与碰撞，促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者，探索复杂系统与智能本质的交叉学科探索者，还是追求模型安全可信的工程实践者，诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会计划于2025年6月19日启动，每周四晚19:30-21:30，预计持续分享10周左右。

详情请见：破解AI黑箱的四重视角：大模型可解释性读书会启动

推荐阅读

1.AI何以涌现：复杂适应系统视角的ChatGPT和大语言模型｜新春特辑

2.大语言模型与多智能体系统读书会：大模型赋能机器人涌现群体智能

3.ChatGPT 为啥那么牛？语言模型足够大就会涌现出新能力

4. 涌现动力学如何用来分析复杂系统？ | 新课上线

5. 游戏化科研——让我们突破内卷、共研涌现

6. 探索者计划 | 集智俱乐部2025内容团队招募（全职&兼职）

7. 加入集智，玩转复杂，共创斑图！集智俱乐部线下志愿者招募

点击“阅读原文”，报名读书会