Uitleg
Knowledge distillation traint een klein student model om de voorspellingen van een groot teacher model na te bootsen. Dit stelt het student model in staat kennis van het grotere model te benutten zonder zijn omvang te erven. Dit wordt gedaan door zachte targets (probability distributions) in plaats van harde labels.
Distillatie is zeer effectief voor het creëren van compacte modellen met sterke prestaties.
⚡ Voorbeelden
- •DistilBERT leert van volledige BERT voor 40% kleinere model
- •MobileNets getraind via knowledge distillation van ResNets
- •Kleine taalmodellen geleerd van grote modellen
Trefwoorden
transfertrainingcompressieefficiëntiestudent-teacher