Uitleg
Scaling laws (schaalwetten) zijn empirische wetmatigheden die voorspellen hoe de prestaties van AI-modellen verbeteren als je ze meer rekenkracht, meer trainingsdata of meer parameters geeft. Ze zijn fundamenteel voor het begrijpen waarom huidige AI-modellen zo krachtig zijn.
De bekendste scaling laws zijn beschreven in onderzoek van OpenAI en Google DeepMind. De kern is verrassend eenvoudig: de prestaties van een taalmodel verbeteren voorspelbaar als je het model groter maakt, meer data geeft en langer traint. Deze relatie volgt een wiskundige machtswet.
Scaling laws verklaren de "wapenwedloop" in de AI-industrie: bedrijven investeren miljarden in grotere modellen en meer rekenkracht omdat de scaling laws voorspellen dat dit tot betere modellen leidt. Het debat gaat over of deze trend oneindig doorzet of dat er op een gegeven moment grenzen worden bereikt.
⚡ Voorbeelden
- •GPT-4 is beter dan GPT-3 grotendeels omdat het meer parameters en trainingsdata heeft, conform scaling laws
- •Scaling laws voorspelden dat een model met 100 miljard parameters een bepaalde nauwkeurigheid zou halen
- •Chinchilla-onderzoek van DeepMind toonde aan dat de verhouding tussen data en modelgrootte cruciaal is