Alignment

Het probleem van ervoor zorgen dat AI-systemen menselijke waarden en doelstellingen begrijpen en volgen.

Uitleg

AI alignment richt zich op het garanderen dat AI-systemen doen wat humans willen dat ze doen, zelfs wanneer ze autonoom opereren. Dit is een kritiek onderzoeksgebied omdat AI-systemen onbedoelde gevolgen kunnen hebben.

Alignmentonderzoek omvat het trainen van modellen met menselijk feedback, het definiëren van duidelijke doelstellingen en het werken aan mechanismen om er zeker van te zijn dat AI-systemen altijd in het belang van de mens werken.

Voorbeelden

  • ChatGPT's fine-tuning met menselijk feedback zodat het veilig en nuttig antwoordt
  • Systemen ontwerpen zodat ze schade voorkomen zelfs onder anomale omstandigheden
  • AI-doelstellingen definiëren zodat ze menselijke waarden weerspiegelen

Trefwoorden

doelstellingenwaardencontroleveiligheidintentie

Over deze term

Wat is Alignment?

Het probleem van ervoor zorgen dat AI-systemen menselijke waarden en doelstellingen begrijpen en volgen.