Uitleg
Een embedding is een manier om woorden, zinnen of documenten te representeren als getallenvectoren. Deze vectoren proberen de semantische betekenis van de tekst vast te leggen, zodat woorden met vergelijkbare betekenis dicht bij elkaar liggen in de vectorruimte.
Embeddings zijn cruciaal voor moderne AI, omdat ze tekstuele informatie in een vorm omzetten die neurale netwerken kunnen verwerken. Door woorden als vectoren weer te geven, kunnen modellen relaties tussen woorden ontdekken, zoals "Parijs - Frankrijk + Nederland = Amsterdam".
Er zijn verschillende soorten embeddings, van eenvoudige word-level embeddings tot geavanceerde sentence embeddings die hele zinnen kunnen representeren.
⚡ Voorbeelden
- •Word2Vec maakt embeddings waarbij woorden met vergelijkbare context dicht bij elkaar liggen
- •Sentence-transformers produceren embeddings voor hele zinnen, nuttig voor gelijkaardigheidszoekingen
- •OpenAI's embedding-model zet tekst om in 1536-dimensionale vectoren voor semantische zoekopdrachten