Benchmark

Een benchmark is een standaardtaak of dataset waarmee het prestatie van verschillende AI-modellen eerlijk kan worden vergeleken.

Uitleg

Benchmarks zijn cruciaal voor AI-onderzoek: ze stellen modelcreators in staat hun werk objectief te vergelijken. Iedereen trainend op dezelfde dataset en meetend op dezelfde metrics.

Beroemde benchmarks: ImageNet (beeldherkenning), GLUE (natuurlijke taalverwerking), SQuAD (vraagbeantwoording). Wanneer een nieuw model een benchmark verslaat, weet iedereen dat het een echt vooruitgang is.

Echter, benchmarks hebben beperkingen. Een model kan hoog scoren op een benchmark maar slecht presteren op echte-wereldproblemen die heel anders zijn. Benchmarks zijn middels, geen einddoel.

Voorbeelden

  • ImageNet-benchmark: honderden groepen honderd-categorieën beeldherkenning
  • GLUE-benchmark: negen natuurlijke taalverwerkingstaken gecombineerd
  • OpenAI-modellen rapportdeert prestaties op benchmarks zoals ARC, MMLU

Trefwoorden

standaardvergelijkingevaluatiedatasetmetriek

Gerelateerde termen

Gerelateerde begrippen

Dataset

Over deze term

Wat is Benchmark?

Een benchmark is een standaardtaak of dataset waarmee het prestatie van verschillende AI-modellen eerlijk kan worden vergeleken.