掘金 人工智能 07月10日 13:58
BN LN
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了深度学习中两种重要的归一化技术:批归一化(BN)和层归一化(LN)。文章首先总结了BN的优势,包括稳定输入分布、加速训练、正则化以及避免梯度消失。随后,详细介绍了Transformer模型中Pre-LN的使用及其原因,包括Pre-LN的定义、无需warm-up策略、更快的收敛速度、减少超参调整难度、缓解梯度消失、增强泛化能力和降低训练不稳定性等,从而阐述了Pre-LN对Transformer模型的优化。

✨ BN(批归一化)通过解决内部协变量偏移(ICS)问题,稳定了每一层神经网络的输入分布。这使得可以使用更大的学习率,从而加速模型的训练速度。

💡 BN还具有正则化作用,有助于减少dropout的使用,避免了极端值造成的过拟合问题。此外,BN能够避免数据落入饱和性激活函数的饱和区间,从而防止梯度消失的发生。

🌟 Pre-LN(Pre-Layer Normalization)是Transformer模型中Layer Normalization(LN)的一种改进。与Post-LN不同,Pre-LN将LN应用于每个子层(注意力子层和前馈神经网络子层)之前。

🚀 Pre-LN不需要warm-up策略,因此收敛速度比Post-LN更快。同时,它减少了超参调整的难度,因为不需要调整warm-up相关的参数。

💪 Pre-LN通过归一化每层的输入,缓解了梯度消失问题,使得模型能够训练更深的网络结构。它还增强了模型的泛化能力,并降低了训练过程中的不稳定性。

1. BN的优势总结

2. LN优势总结

在Transformer模型中,Layer Normalization(LN,层归一化)是一种常用的归一化技术。Pre - LN(Pre - Layer Normalization)是对传统LN使用方式的一种改进,以下是关于Pre - LN的介绍及其原因: ### 1. Pre - LN的定义 在传统的Transformer架构中,Layer Normalization通常应用在残差连接之后,即“先计算注意力机制和前馈神经网络,再进行层归一化”,其计算流程可以表示为:[ \begin{align*} \text{Attention Output}&=\text{Attention}(\text{Input})\ \text{FFN Output}&=\text{FFN}(\text{Attention Output})\ \text{Output}&=\text{LN}(\text{Attention Output}+\text{Input}+\text{FFN Output}) \end{align*} ] 而Pre - LN则是将Layer Normalization应用在每个子层(注意力子层和前馈神经网络子层)之前,计算流程变为: [ \begin{align*} \text{LN - Input - Attention}&=\text{LN}(\text{Input})\ \text{Attention Output}&=\text{Attention}(\text{LN - Input - Attention})\ \text{LN - Input - FFN}&=\text{LN}(\text{Input}+\text{Attention Output})\ \text{Output}&=\text{FFN}(\text{LN - Input - FFN}) \end{align*} ] ### 2. 使用Pre - LN的原因

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

BN LN Pre-LN Transformer 归一化
相关文章