Anthropic blokkeert misbruik Claude voor cybercrime
In dit artikel:
Anthropic meldt dat zijn interne systemen recentelijk meerdere pogingen hebben geblokkeerd om het AI-model Claude te misbruiken. Aanvallers probeerden het systeem te laten schrijven van gerichte phishing-mails, het ontwikkelen of herstellen van kwaadaardige code en het stelselmatig omzeilen van beveiligingsfilters door herhaalde, verfijnde prompts. Ook werden er pogingen gedetecteerd om beïnvloedingscampagnes op te zetten en laaggeschoolde kwaadwillenden stap-voor-stap instructies te geven.
De bevindingen staan in een recent rapport waarin Anthropic casestudies deelt om anderen bewust te maken van deze risico’s. Het bedrijf publiceerde geen technische indicatoren zoals IP-adressen of exacte prompts; wel zijn de betrokken accounts geblokkeerd en zijn de contentfilters verscherpt nadat de activiteiten werden ontdekt. Anthropic benadrukt dat het strikte veiligheidsprotocollen volgt, met regelmatige tests en externe beoordelingen, en kondigt aan vergelijkbare meldingen te blijven publiceren bij grote dreigingen.
Het incident is geen op zichzelf staand geval: ook Microsoft, OpenAI en Google krijgen vergelijkbare zorgen over misbruik van grote taalmodellen te verwerken. Tegelijkertijd zetten beleidsmakers in — de EU met de AI Act en Amerikaanse instanties via vrijwillige veiligheidsafspraken — om strengere kaders en praktijken af te dwingen. De zaak onderstreept de groeiende uitdaging voor leveranciers om balans te vinden tussen toegankelijkheid van krachtige AI en het voorkomen van cybercriminaliteit.