Uitleg
Een tokenizer is een cruciaal onderdeel van elk taalmodel. Het is verantwoordelijk voor het vertalen van menselijk leesbare tekst naar een reeks numerieke tokens die het model kan verwerken, en andersom. Zonder tokenizer kan een taalmodel geen tekst begrijpen.
Verschillende modellen gebruiken verschillende tokenizers. GPT-modellen gebruiken BPE (Byte Pair Encoding), terwijl andere modellen WordPiece of SentencePiece gebruiken. De keuze van tokenizer beïnvloedt hoe efficiënt het model tekst verwerkt en hoeveel van het context window elke tekst inneemt.
Een interessant gevolg van tokenisatie is dat dezelfde tekst bij verschillende modellen een ander aantal tokens oplevert. Het woord "ongelooflijk" kan bij het ene model één token zijn en bij het andere twee of drie tokens. Dit heeft directe invloed op kosten (bij API-gebruik) en op hoeveel tekst in het context window past.
⚡ Voorbeelden
- •De GPT-4 tokenizer verdeelt "aiwoordenboek" in meerdere tokens omdat het geen veelvoorkomend woord is
- •Tokenizers voor niet-Engelse talen zijn vaak minder efficiënt, waardoor Nederlandse tekst meer tokens kost
- •OpenAI's tiktoken-bibliotheek laat je vooraf berekenen hoeveel tokens je tekst bevat