Deep LearningGevorderd

Gradient-probleem

Uitdaging bij trainingen van diepe netwerken waar gradiënten verdwijnen of exploderen.

Uitleg

Gradient-probleem bestaat uit twee gerelateerde fenomenen: vanishing gradients (gradiënten worden bijna nul) en exploding gradients (gradiënten worden enorm groot). Dit maakt training van diepe netwerken moeilijk.

Vanishing gradients gebeuren omdat backprop gradiënten vermenigvuldigt via lagen. Met veel lagen en bepaalde activation-functies (sigmoid) kunnen gradiënten exponentieel klein worden. Exploding gradients kunnen happen als gewichten iniatilisering slecht.

Losingen omvatten: betere initialiseringsschema's (He initialization), activation-functies (ReLU), batch normalisatie, skip connections, en LSTM/GRU voor RNNs. Dit waren major blockers voor deep learning totdat deze technieken ontwikelingen.

Voorbeelden

  • Sigmoid activation: gradiënt ≤ 0.25, product via 100 lagen ≈ 0, geen training
  • ReLU activation: gradiënt = 1 (if active), preserved gradient via lagen
  • LSTM gates: controleert gradiënt-flow voor long-term dependencies

Trefwoorden

backpropagation-probleemdiepe-netwerkengradient-flowtraining-stabiliteit

Gerelateerde termen

Gerelateerde begrippen

Backpropagation

Over deze term

Wat is Gradient-probleem?

Uitdaging bij trainingen van diepe netwerken waar gradiënten verdwijnen of exploderen.