Deep LearningGevorderd

Transformer

Modern neurale netwerk-architectuur gebaseerd op attention die staat van de kunst wordt voor NLP.

Uitleg

Transformers zijn revolutionaire neurale netwerk-architectuur geïntroduceerd in 2017 die op attention-mechanismen zijn gebaseerd in plaats van recurrent loops. Ze processeren gehele sequenties parallel in plaats van stap-voor-stap.

Transformers bestaan uit encoder en decoder met multiple attention-lagen. Self-attention laagjes bepalen welke parts van input het meest relevant zijn. Deze architectuur leidt tot veel snellere training en betere prestaties dan RNNs.

Transformers zijn basis van grootste taalmodellen: BERT, GPT, ChatGPT. Ze domineren modern NLP en worden ook gebruikt voor computer vision (Vision Transformers). Hun succes komt van parallellisme en vermogen om long-range dependencies te leren.

Voorbeelden

  • BERT en GPT gebruiken transformers voor natuurlijke taalverwerking
  • ChatGPT is een transformer-gebaseerd taalmodel dat miljarden parameters heeft
  • Vision Transformers wenden transformer-architectuur toe op afbeeldingen

Trefwoorden

attention-gebaseerdparallel-verwerkingself-attentionmodern-architectuur

Gerelateerde termen

Gerelateerde begrippen

Attention-mechanisme, Encoder-Decoder

Over deze term

Wat is Transformer?

Modern neurale netwerk-architectuur gebaseerd op attention die staat van de kunst wordt voor NLP.