PCA

Principal Component Analysis: techniek om data naar lagerdimensionale ruimte te transformeren met behoud van variantie.

Uitleg

Principal Component Analysis (PCA) is een populaire dimensiereductie-techniek die data naar een lagerdimensionale ruimte transformeert. Het vindt "principal components" - nieuwe assen die de variantie in data maximaliseren.

PCA werkt door de covariantiematrix van data te berekenen en eigenwaarden/eigenvectoren te vinden. Eigenvectoren met grootste eigenwaarden worden geselecteerd als principale componenten. Dit zorgt ervoor dat maximale informatie behouden blijft met minder dimensies.

PCA is ongecontroleerd (gebruikt geen labels) en lineair. Non-lineaire alternatieven (UMAP, t-SNE) kunnen beter werken als data non-lineair is. PCA wordt veel gebruikt voor visualisatie (naar 2D/3D) en als preprocessing-stap.

Voorbeelden

  • Face recognition reduceert 10000 pixel-features naar 100 PCA-components voor snelle matching
  • Gene expression data met 20000 genen wordt gereduceerd naar 50 components voor clustering
  • PCA visualiseert MNIST-handgeschreven nummers in 2D om clusters te zien

Trefwoorden

principale-componenteneigenwaarde-decompositievariantie-maximaliseringunsupervised

Gerelateerde termen

Gerelateerde begrippen

Dimensiereductie

Over deze term

Wat is PCA?

Principal Component Analysis: techniek om data naar lagerdimensionale ruimte te transformeren met behoud van variantie.