Uitleg
Attention is een mechanisme dat bepaalt op welke delen van input men moet focussen bij het produceren van output. Het is geïnspireerd op hoe menselijke aandacht werkt: als je een zin leest, focus je op relevante woorden.
Attention berekent gewichten (0-1) voor alle inputs en gebruikt deze om weighted sum van inputs te maken. Self-attention is speciale vorm waar inputs afhankelijkheden berekenen met zichzelf. Multi-head attention gebruikt meerdere attention-heads parallel.
Attention maakt het mogelijk om long-range afhankelijkheden efficiënt te leren zonder recurrent loops. Dit is kernidee achter transformers-succes. Attention-mechanismes worden nu overal gebruikt in modern deep learning.
⚡ Voorbeelden
- •Machine translation: attention bepaalt welk bron-woord relevant is voor elk target-woord
- •Transformers gebruiken multi-head attention voor parallel relevantie-berekeningen
- •Vision transformers gebruiken attention over image patches