TF-IDF

Een statistische maat die het belang van een woord in een document weerspiegelt, veel gebruikt in tekstanalyse.

Uitleg

TF-IDF staat voor Term Frequency-Inverse Document Frequency. Het is een numerieke statistiek die weerspiegelt hoe belangrijk een woord voor een document is in een collectie documenten.

TF-IDF combineert twee componenten: TF (hoe vaak een woord in het document voorkomt) en IDF (hoe zeldzaam het woord is in het gehele corpus). Woorden die vaak voorkomen maar niet interessant zijn (zoals "de" of "het"), krijgen een lage waarde.

Hoewel TF-IDF ouder is dan moderne deep learning-methoden, blijft het zeer effectief voor taken als documentclassificatie, zoekopdracht-relevantie en het identificeren van kernwoorden.

Voorbeelden

  • In een collectie sportartikelen krijgt het woord "voetbal" een hoge TF-IDF-waarde
  • Zoekmachines gebruiken TF-IDF om relevante documenten voor zoekopdrachten te rangschikken
  • Het algoritme helpt om stopwoorden automatisch te detecteren en te filteren

Trefwoorden

tekstanalyserelevantiestatistische-methodeinformation-retrieval

Gerelateerde termen

Gerelateerde begrippen

Tokenisatie, Embedding, Text Mining

Over deze term

Wat is TF-IDF?

Een statistische maat die het belang van een woord in een document weerspiegelt, veel gebruikt in tekstanalyse.