Uitleg
RLHF staat voor Reinforcement Learning from Human Feedback. Het is een trainingmethode waarbij menselijke evaluatoren rangschikken welke outputs van een AI-model het beste zijn. Deze voorkeurinformatie gebruikt het systeem vervolgens om zichzelf te verbeteren.
Dit proces was cruciaal voor het succes van ChatGPT en andere geavanceerde taalmodellen. In plaats van modellen alleen op tekstvoorspelling te trainen, trainen we ze ook om hulpvaardig, waarheidsgetrouw en onschuldig te zijn.
RLHF combineert traditioneel reinforcement learning (machines leren door beloning en straf) met menselijke feedback, wat ervoor zorgt dat AI-systemen beter aansluiten op menselijke waarden en verwachtingen.
⚡ Voorbeelden
- •ChatGPT werd getraind met RLHF: menselijke evaluatoren rangschikten 30.000 verschillende AI-reacties
- •Openstable diffusion Fine-tuning met RLHF leidt tot afbeeldingen die beter aansluiten op gebruikersverwachtingen
- •RLHF helpt modellen sarcasme beter te detecteren omdat menselijke feedback nuances van taal kan vangen