Uitleg
Reinforcement learning is fundamenteel anders van supervised learning. In plaats van gelabelde voorbeelden krijgt het model feedback in de vorm van beloningen of straffen.
Een agent verkent een omgeving, voert acties uit, en ontvangt beloningen voor goede acties en straffen voor slechte. Het leert hierdoor een strategie (policy) die de totale beloning maximaliseert over tijd.
Dit is vergelijkbaar met het trainen van een hond: je geeft een beloning als het hond iets goed doet. Reinforcement learning werkt goed voor taken met duidelijke doelen en beloningsstructuren, maar kan langzaam zijn omdat veel verkend moet worden.
⚡ Voorbeelden
- •AlphaGo leerde Go spelen via reinforcement learning door miljarden spellen te spelen
- •Robotica: train een robot om taken uit te voeren via beloningen voor geslaagde acties
- •Speeloptimalisatie: train AI om videospel-AI beter te spelen via beloningen voor doelstellingen