Uitleg
Multimodale modellen kunnen verscheidene informatietypes verwerken: tekst, afbeeldingen, geluid, video enz. In plaats van specialisatie in één modaliteit, begrijpen ze relaties tussen hen.
Voorbeelden zijn GPT-4V (Vision), CLIP (tekst en afbeeldingen) en Gemini (meerdere modaliteiten). Deze modellen zijn flexibeler en kunnen rijkere taken uitvoeren.
Multimodale modellen voegen meer informatie samen wat betere begrijping geeft. Ze zijn fundamenteel voor slimme assistenten, content-analyse en meer.
⚡ Voorbeelden
- •GPT-4V kan afbeeldingen analyseren: je geeft het een foto en het beschrijft wat het ziet
- •CLIP begrijpt zowel tekst als afbeeldingen wat zero-shot image classification toelaat
- •Gemini van Google kan video, tekst en afbeeldingen in dezelfde prompt verwerken
Trefwoorden
cross-modalmulti-inputtypeflexibiliteitrijke-representatie