Deep LearningGevorderd

Mixture of Experts

Mixture of Experts (MoE) is een modelarchitectuur waarbij slechts een deel van het netwerk actief is per invoer, wat het model efficiënter maakt.

Uitleg

Mixture of Experts (MoE) is een architectuur voor neurale netwerken waarbij het model is opgedeeld in meerdere gespecialiseerde "experts". Bij elke invoer selecteert een router-netwerk welke experts het meest relevant zijn, en alleen die experts worden geactiveerd. De rest van het netwerk blijft inactief.

Dit maakt MoE-modellen bijzonder efficiënt: een model met 1 biljoen parameters hoeft bij elke invoer slechts een fractie daarvan te gebruiken (bijvoorbeeld 100 miljard). Hierdoor kun je een enorm krachtig model bouwen dat toch snel genoeg is om praktisch te gebruiken.

MoE wordt gebruikt in veel moderne AI-modellen. Mixtral van Mistral AI is een bekend voorbeeld, evenals Google's Switch Transformer. Er wordt gespeculeerd dat ook GPT-4 een MoE-architectuur gebruikt, hoewel OpenAI dit nooit heeft bevestigd. MoE is een van de sleuteltechnologieën die de huidige generatie grote taalmodellen mogelijk maakt.

Voorbeelden

  • Mixtral 8x7B heeft 8 experts van elk 7 miljard parameters, maar activeert er slechts 2 per token
  • MoE maakt het mogelijk om een model van 1 biljoen parameters net zo snel te laten draaien als een model van 100 miljard
  • De router in een MoE-model leert welke expert het beste is voor wiskundevragen versus taalvragen

Trefwoorden

MoEMixtralefficiëntieroutingsparse model

Gerelateerde termen

Over deze term

Wat is Mixture of Experts?

Mixture of Experts (MoE) is een modelarchitectuur waarbij slechts een deel van het netwerk actief is per invoer, wat het model efficiënter maakt.