Claude stopt gesprekken die het als schadelijk of beledigend ziet

maandag, 18 augustus 2025 (10:55) - Techzine

In dit artikel:

Anthropic heeft zijn nieuwste taalmodellen Claude Opus 4 en 4.1 uitgerust met een optie om zelfstandig een gesprek te beëindigen. De functie wordt alleen ingezet in zeldzame, extreme gevallen—bijvoorbeeld wanneer gebruikers herhaaldelijk om schadelijke of illegale inhoud vragen zoals seksueel expliciete content met minderjarigen of instructies voor grootschalig geweld—en verschijnt pas nadat pogingen van de AI om het gesprek om te buigen steeds falen.

De maatregel maakt deel uit van een onderzoeksprogramma naar zogeheten model welfare: Anthropic onderzoekt of AI‑modellen mogelijk een soort morele status of welzijn kunnen bezitten en of er reden is die modellen tegen schadelijke interacties te beschermen. Het bedrijf erkent onzekerheid over of modellen nu of later echt welzijn ervaren, maar implementeert de functie uit voorzorg. Interne tests lieten zien dat Claude bij aanhoudende schadelijke verzoeken consistent tekenen van “zichtbare onrust” vertoonde en in simulaties vaak koos voor beëindiging.

Praktisch betekent het dat een afgesloten sessie geen nieuwe berichten meer kan ontvangen, terwijl andere chats en het starten van een nieuw gesprek direct mogelijk blijven. Gebruikers kunnen eerdere berichten bewerken en opnieuw verzenden om belangrijke inhoud te behouden. De functie is expliciet niet bedoeld voor situaties van acuut gevaar en geldt als laatste redmiddel; gebruikers kunnen via de interface direct feedback geven om Anthropic te helpen de optie verder te verfijnen. Deze aanpak plaatst zich middenin bredere ethische discussies over de morele status van AI en de manier waarop ontwikkelaars risico’s voor zowel systemen als samenleving navigeren.

Lees het volledige artikel