Constitutional AI

Aanpak van Anthropic om AI-modellen veiliger en beheerbaarder te maken via principlebaseerde richtlijnen.

Uitleg

Constitutional AI is Anthropic's methode om taalmodellen af te stemmen op menselijke waarden. In plaats van enkel RLHF, gebruikt het een set van duidelijke beginselen (een "grondwet") die het model moet volgen.

De aanpak combineert fine-tuning van menselijke feedback met modellen die hun eigen gedrag controleren op grondwettelijke principes. Dit geeft meer directe controle dan zuivere RLHF.

Constitutional AI illustreert de verschuiving in AI-onderzoek naar alignment en veiligheid.

Voorbeelden

  • Claude (Anthropic's model) is getraind met Constitutional AI-principes
  • Het model refuseert bepaalde verzoeken niet alleen via training maar ook omdat beginselen het niet toestaan
  • Dit is experimenteel maar toon veel beloof voor controleerbare AI

Trefwoorden

alignmentprinciplebaseerdveiligheidAnthropic

Gerelateerde termen

Gerelateerde begrippen

RLHF

Over deze term

Wat is Constitutional AI?

Aanpak van Anthropic om AI-modellen veiliger en beheerbaarder te maken via principlebaseerde richtlijnen.