Uitleg
Mixture of Experts (MoE) is een architectuur voor neurale netwerken waarbij het model is opgedeeld in meerdere gespecialiseerde "experts". Bij elke invoer selecteert een router-netwerk welke experts het meest relevant zijn, en alleen die experts worden geactiveerd. De rest van het netwerk blijft inactief.
Dit maakt MoE-modellen bijzonder efficiënt: een model met 1 biljoen parameters hoeft bij elke invoer slechts een fractie daarvan te gebruiken (bijvoorbeeld 100 miljard). Hierdoor kun je een enorm krachtig model bouwen dat toch snel genoeg is om praktisch te gebruiken.
MoE wordt gebruikt in veel moderne AI-modellen. Mixtral van Mistral AI is een bekend voorbeeld, evenals Google's Switch Transformer. Er wordt gespeculeerd dat ook GPT-4 een MoE-architectuur gebruikt, hoewel OpenAI dit nooit heeft bevestigd. MoE is een van de sleuteltechnologieën die de huidige generatie grote taalmodellen mogelijk maakt.
⚡ Voorbeelden
- •Mixtral 8x7B heeft 8 experts van elk 7 miljard parameters, maar activeert er slechts 2 per token
- •MoE maakt het mogelijk om een model van 1 biljoen parameters net zo snel te laten draaien als een model van 100 miljard
- •De router in een MoE-model leert welke expert het beste is voor wiskundevragen versus taalvragen