Uitleg
K-Means is een van de meest gebruikte ongecontroleerde leer-algoritmen voor clustering. Het verdeelt data in k clusters door datapunten toe te wijzen aan dichtstbijzijnde cluster-centroid, vervolgens centroids bij te werken.
Het algoritme itereert: 1) Wijs punten toe aan dichtstbijzijnde centroid 2) Bereken nieuwe centroïden als gemiddelde van punten in cluster. Dit herhaalt totdat convergentie. Het algoritme minimaliseert within-cluster variatie.
Het voornaamste nadeel is dat je k van tevoren moet kiezen. Elbow method helpt: plot variantie tegen k en kies waar "elleboog" optreedt. K-Means werkt goed voor sferische clusters maar niet goed voor andere vormen. Andere algoritmen (DBSCAN) kunnen betere vormen behandelen.
⚡ Voorbeelden
- •Klantsegmentatie: k-means groepeer klanten in 5 clusters gebaseerd op aankoopgedrag
- •Imageclusterering: groepeer 1 miljoen afbeeldingen in 100 clusters voor thumbnail-generatie
- •Document-clustering: groepeer nieuwsartikelen in 10 topics gebaseerd op woord-frequentie