Uitleg
Cross-validatie is een kritieke techniek om machine learning-modellen eerlijk te evalueren. In plaats van data slechts in train en test te splitsen, wordt data in k gelijke delen (folds) opgesplitst. Het model wordt k keer getraind: k-1 folds voor training, 1 fold voor testing.
Dit proces wordt herhaald totdat elke fold eenmaal is gebruikt als testset. De eindperformantie is het gemiddelde van alle k runs. Dit geeft een betrouwbaarder schattting van hoe het model op onziene data zal presteren dan één enkele train-test split.
K-fold cross-validatie (meestal k=5 of k=10) helpt overfitting te detecteren en hyperparameters eerlijk te vergelijken. Stratified cross-validatie zorgt ervoor dat klassebalans behouden blijft in elke fold, wat belangrijk is voor ongebalanceerde datasets.
⚡ Voorbeelden
- •Bij 5-fold cross-validatie wordt model 5 keer getraind op verschillende 80%-subsets van data
- •Cross-validatie helpt overfitting detecteren wanneer training-score veel hoger is dan cross-validatie-score
- •Datawetenschappers gebruiken cross-validatie om verschillende algoritmen eerlijk te vergelijken