Uitleg
Gradient descent is een fundamenteel optimalisatie-algoritme dat gebruikt wordt in bijna alle machine learning en deep learning-modellen. Het doel is om de loss-functie te minimaliseren door parameters (gewichten) stap voor stap in de richting van de steepest descent aan te passen.
Het algoritme berekent gradiënten (afgeleiden) van de loss ten opzichte van elke parameter, en werkt parameters bij in tegengestelde richting van de gradiënt. De grootte van de stap wordt bepaald door de learning rate. Een kleine learning rate convergeert langzaam, een grote rate kan overschrijden.
Er zijn variaties: batch gradient descent gebruikt alle data, stochastic gradient descent één voorbeeld, en mini-batch gradient descent een kleine groep. Momentum en adaptive learning rates (Adam) verbeteren convergentie. Gradient descent is essentieel voor trainingen van neurale netwerken.
⚡ Voorbeelden
- •Bij het trainen van een regressiemodel worden gewichten iteratief aangepast totdat de MSE-fout minimaal is
- •Neurale netwerken gebruiken gradient descent miljarden keren tijdens training
- •Adaptive methoden als Adam passen learning rates per parameter aan voor snellere convergentie