掘金 人工智能 04月02日 10:46
【漫话机器学习系列】185.神经网络参数的标准初始化(Normalized Initialization of Neural Network Parameter
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了神经网络参数初始化的重要性,重点介绍了标准初始化方法。通过归一化处理,该方法有助于避免梯度消失或爆炸,从而提升模型训练的效率和稳定性。文章还提供了代码示例,并与其他初始化方法进行了对比,为读者提供了全面的理解。

💡 权重初始化对神经网络训练至关重要,不当的初始化可能导致梯度消失或爆炸,影响模型性能。

⚖️ 标准初始化方法通过将权重初始化为均匀分布的随机值,并结合归一化系数,确保了初始权重的方差适中,避免了训练早期出现的不稳定问题。

📐 标准初始化公式的核心在于平衡输入和输出神经元的数量,即通过考虑输入神经元数量 (m) 和输出神经元数量 (n) 的均值 (m+n) 来确定权重范围,从而使得不同层之间的激活值在初始状态下具有相似的方差。

💻 在PyTorch和TensorFlow等深度学习框架中,标准初始化方法均有对应的函数可以调用,方便开发者在实践中应用。

🆚 除了标准初始化,Xavier 初始化、He 初始化和 LeCun 初始化等方法也各有特点,适用于不同的激活函数和网络结构。

神经网络参数的标准初始化

1. 引言

在深度学习中,神经网络的权重初始化对训练效果和收敛速度有着至关重要的影响。如果初始化不当,可能会导致梯度消失或梯度爆炸问题,使得网络难以训练。因此,研究合适的初始化方法是深度学习中的一个重要课题。本文将介绍 神经网络参数的标准初始化(Normalized Initialization of Neural Network Parameters) ,并解析其数学公式与实际应用。


2. 神经网络权重初始化的重要性

在训练神经网络时,权重通常是随机初始化的,而不可能全部设为零。若所有权重初始值均为零,则神经元的输出也会完全相同,导致神经网络无法学习不同的特征。

然而,如果权重的初始值过大或过小,则可能会导致:

    梯度消失(Vanishing Gradient) :在反向传播过程中,梯度逐层传递,如果权重较小,则梯度会逐步衰减,导致前层权重更新缓慢甚至停止更新,影响模型训练。梯度爆炸(Exploding Gradient) :若权重初值过大,反向传播时梯度可能指数级增长,导致训练不稳定。

因此,我们需要合理选择权重的初始化方法,使得神经网络可以更快收敛,并且避免梯度消失或爆炸问题。


3. 归一化初始化方法(Normalized Initialization)

为了避免上述问题,LeCun 等人提出了一种归一化初始化方法,即 标准初始化(Normalized Initialization) 。其核心思想是:

将全连接层的参数 Wi,jW_{i,j} 初始化为一个均匀分布的随机值,其范围取决于神经元的输入数量 m 和输出数量 n

数学表达式如下:

Wi,jU(6m+n,6m+n)W_{i,j} \sim U\left(-\sqrt{\frac{6}{m+n}}, \sqrt{\frac{6}{m+n}}\right)

其中:

    U(a, b) 代表均匀分布,数值范围在 [a, b] 之间。m 代表该层神经元的输入数量。n 代表该层神经元的输出数量。6m+n\sqrt{\frac{6}{m+n}} 是归一化系数,它确保初始权重的方差适中,不会过大或过小。

为什么要取 6m+n\sqrt{\frac{6}{m+n}} 作为边界?

    这是为了确保不同层之间的激活值在初始状态下具有相似的方差,从而防止梯度消失或梯度爆炸。这个公式来源于均匀分布的方差计算,在合适的假设下,它能够保持网络层输出的方差在一定范围内,避免训练初期数值不稳定的问题。

4. 直观理解

该公式的核心思想是:

    输入神经元(m)较多时,为了避免累积过大的加权和,权重范围需要变小。输出神经元(n)较多时,为了确保神经元之间的激活值分布均匀,权重范围也需要调整。通过取 m 和 n 的均值(m+n),可以在输入和输出之间取得平衡,使权重初始化更合理。

图像中也清晰地标注了:

    红色部分(m):表示输入的个数。蓝色部分(n):表示输出的个数。

5. 代码实现

在深度学习框架(如 TensorFlow、PyTorch)中,可以很方便地使用标准初始化方法。例如,在 PyTorch 中,可以使用 nn.init.uniform_ 进行初始化:

import torchimport torch.nn as nnimport torch.nn.init as initlayer = nn.Linear(in_features=256, out_features=128)m, n = layer.in_features, layer.out_featuresbound = (6 / (m + n)) ** 0.5init.uniform_(layer.weight, -bound, bound)print(f"Weight initialized in range: (-{bound:.4f}, {bound:.4f})")

运行结果

Weight initialized in range: (-0.1250, 0.1250)

如果使用 TensorFlow / Keras,可以用 tf.keras.initializers.RandomUniform 进行初始化:

import tensorflow as tfinitializer = tf.keras.initializers.RandomUniform(minval=-bound, maxval=bound)layer = tf.keras.layers.Dense(128, kernel_initializer=initializer)

6. 其他初始化方法对比

除了标准初始化(Normalized Initialization),还有一些常见的初始化方法:

初始化方法公式适用场景
标准初始化(本文方法)Wi,jU(6m+n,6m+n)W_{i,j} \sim U(-\sqrt{\frac{6}{m+n}}, \sqrt{\frac{6}{m+n}})适用于全连接层
Xavier 初始化(Glorot 初始化)Wi,jU(6m+n,6m+n)W_{i,j} \sim U(-\sqrt{\frac{6}{m+n}}, \sqrt{\frac{6}{m+n}})适用于 Sigmoid/Tanh
He 初始化(Kaiming 初始化)Wi,jN(0,2m)W_{i,j} \sim \mathcal{N}(0, \frac{2}{m})适用于 ReLU 激活函数
LeCun 初始化Wi,jN(0,1m)W_{i,j} \sim \mathcal{N}(0, \frac{1}{m})适用于 Leaky ReLU/Sigmoid

可以看到,标准初始化与 Xavier 初始化的公式相同,适用于 Sigmoid/Tanh 激活函数。如果使用 ReLU,则推荐使用 He 初始化,因为它更适合 ReLU 变换的性质。


7. 结论

神经网络的权重初始化是影响训练效果的重要因素,标准初始化方法提供了一种有效的解决方案,使得网络在训练初期保持稳定,避免梯度消失或爆炸。对于不同的网络架构和激活函数,还可以选择 He 初始化或 Xavier 初始化,以获得更优的训练效果。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

神经网络 权重初始化 深度学习 标准初始化 梯度消失
相关文章