Uitleg
Batch Normalization (BatchNorm) normaliseert input van elke laag naar mean=0, std=1 gebaseerd op huidige batch. Dit verlaagt internal covariate shift en maakt training stabiel en sneller.
BatchNorm voegt twee traineerbare parameters toe (scale, shift) per feature-channel na normalisatie. Tijdens training gebruikt het batch-statistieken, tijdens inference/testing gemiddelde van batch-statistieken (running average).
BatchNorm stelt hogere learning rates toe, is regularisatie-effect (reduceert overfitting), en helpt met covariate shift. Het is nu standard practice in deep learning. Layer normalisatie, group normalisatie zijn varianten voor verschillende contexts.
⚡ Voorbeelden
- •CNN met batch normalisatie trainen sneller en met hogere nauwkeurigheid
- •Transformers gebruiken layer normalization (variant van BatchNorm)
- •BatchNorm helpt gradient-flow en reduceert initialiseratie-gevoeligheid