BN LN

掘金人工智能 07月10日 13:58

BN LN

本文探讨了深度学习中两种重要的归一化技术：批归一化（BN）和层归一化（LN）。文章首先总结了BN的优势，包括稳定输入分布、加速训练、正则化以及避免梯度消失。随后，详细介绍了Transformer模型中Pre-LN的使用及其原因，包括Pre-LN的定义、无需warm-up策略、更快的收敛速度、减少超参调整难度、缓解梯度消失、增强泛化能力和降低训练不稳定性等，从而阐述了Pre-LN对Transformer模型的优化。

✨ BN（批归一化）通过解决内部协变量偏移（ICS）问题，稳定了每一层神经网络的输入分布。这使得可以使用更大的学习率，从而加速模型的训练速度。

💡 BN还具有正则化作用，有助于减少dropout的使用，避免了极端值造成的过拟合问题。此外，BN能够避免数据落入饱和性激活函数的饱和区间，从而防止梯度消失的发生。

🌟 Pre-LN（Pre-Layer Normalization）是Transformer模型中Layer Normalization（LN）的一种改进。与Post-LN不同，Pre-LN将LN应用于每个子层（注意力子层和前馈神经网络子层）之前。

🚀 Pre-LN不需要warm-up策略，因此收敛速度比Post-LN更快。同时，它减少了超参调整的难度，因为不需要调整warm-up相关的参数。

💪 Pre-LN通过归一化每层的输入，缓解了梯度消失问题，使得模型能够训练更深的网络结构。它还增强了模型的泛化能力，并降低了训练过程中的不稳定性。

1. BN的优势总结

通过解决ICS的问题，使得每一层神经网络的输入分布稳定，在这个基础上可以使用较大的学习率，加速了模型的训练速度起到一定的正则作用，进而减少了dropout的使用。当我们通过BN规整数据的分布以后，就可以尽量避免一些极端值造成的overfitting的问题使得数据不落入饱和性激活函数（如sigmoid，tanh等）饱和区间，避免梯度消失的问题

2. LN优势总结

在Transformer模型中，Layer Normalization（LN，层归一化）是一种常用的归一化技术。Pre - LN（Pre - Layer Normalization）是对传统LN使用方式的一种改进，以下是关于Pre - LN的介绍及其原因： ### 1. Pre - LN的定义在传统的Transformer架构中，Layer Normalization通常应用在残差连接之后，即“先计算注意力机制和前馈神经网络，再进行层归一化”，其计算流程可以表示为：[ \begin{align*} \text{Attention Output}&=\text{Attention}(\text{Input})\ \text{FFN Output}&=\text{FFN}(\text{Attention Output})\ \text{Output}&=\text{LN}(\text{Attention Output}+\text{Input}+\text{FFN Output}) \end{align*} ] 而Pre - LN则是将Layer Normalization应用在每个子层（注意力子层和前馈神经网络子层）之前，计算流程变为： [ \begin{align*} \text{LN - Input - Attention}&=\text{LN}(\text{Input})\ \text{Attention Output}&=\text{Attention}(\text{LN - Input - Attention})\ \text{LN - Input - FFN}&=\text{LN}(\text{Input}+\text{Attention Output})\ \text{Output}&=\text{FFN}(\text{LN - Input - FFN}) \end{align*} ] ### 2. 使用Pre - LN的原因

缓解梯度消失问题

加快训练收敛速度

增强模型的泛化能力

降低训练过程中的不稳定性

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

BN LN Pre-LN Transformer 归一化

相关文章

Import AI 364: Robot scaling laws; human-level LLM forecasting; and Claude 3

Trends in Computer Vision with Georgia Gkioxari - #549

Social Commonsense Reasoning with Yejin Choi - #518

Trends in Natural Language Processing with Sameer Singh - #445

AI趨勢周報第252期：取代Transformer？LSTM之父發表新LLM架構

How ‘Chain of Thought’ Makes Transformers Smarter

This AI Paper by Toyota Research Institute Introduces SUPRA: Enhancing Transformer Efficiency with Recurrent Neural Networks

This AI Paper from Huawei Introduces a Theoretical Framework Focused on the Memorization Process and Performance Dynamics of Transformer-based Language Models (LMs)

Octo: An Open-Sourced Large Transformer-based Generalist Robot Policy Trained on 800k Trajectories from the Open X-Embodiment Dataset

惊喜发现又祛魅一项能力：读论文 CS 专业一路走来被论文折磨，现以为脱离苦海，但又不得不紧跟看 LLM SD 论文，痛点就是：看不下去，精神涣散?‍♂️啃能读完...