Uitleg
Red teaming in AI betekent adversarische testen waar teams actief proberen AI-systemen ongewenst gedrag of toxische output te krijgen. Dit helpt ontwikkelaars kwetsbaarheden vóór productie te vinden en op te lossen.
Bedrijven als OpenAI voeren red teaming uit met externe experts om gevaarlijke potentiaal van hun modellen beter te begrijpen.
⚡ Voorbeelden
- •Prompts vinden die ChatGPT hazardous advies laten geven
- •Beelden manipuleren zodat gezichtsherkenning faalt
- •Wetenschappers die proberen groot taalmodel schadelijke code genereren
Trefwoorden
testenbeveiligingaanvalgevolgenrobustheid