Multimodaal Model

Q: Wat is Multimodaal Model?

AI-model dat meerdere inputtypen (tekst, afbeeldingen, geluid) kan verwerken.

Uitleg

Multimodale modellen kunnen verscheidene informatietypes verwerken: tekst, afbeeldingen, geluid, video enz. In plaats van specialisatie in één modaliteit, begrijpen ze relaties tussen hen.

Voorbeelden zijn GPT-4V (Vision), CLIP (tekst en afbeeldingen) en Gemini (meerdere modaliteiten). Deze modellen zijn flexibeler en kunnen rijkere taken uitvoeren.

Multimodale modellen voegen meer informatie samen wat betere begrijping geeft. Ze zijn fundamenteel voor slimme assistenten, content-analyse en meer.

⚡ Voorbeelden

•GPT-4V kan afbeeldingen analyseren: je geeft het een foto en het beschrijft wat het ziet
•CLIP begrijpt zowel tekst als afbeeldingen wat zero-shot image classification toelaat
•Gemini van Google kan video, tekst en afbeeldingen in dezelfde prompt verwerken

Uitleg

⚡ Voorbeelden

Trefwoorden

Gerelateerde termen

Gerelateerde begrippen

Over deze term

Wat is Multimodaal Model?