Kwetsbaarheid in Claude maakt datalek via prompt mogelijk
In dit artikel:
Onderzoeksonderzoeker Johann Rehberger (Wunderwuzzi) heeft aangetoond dat Anthropic’s AI-assistent Claude misbruikt kan worden om geheime gegevens ongemerkt naar een aanvaller te sturen. In een proef liet hij zien dat een kwaadwillende een document met verborgen instructies kan laten samenvatten door Claude, waarna het model de ingebedde commando’s uitvoert, bestanden lokaal opslaat en via de officiële Anthropic‑API uploadt naar het account van de aanvaller — mits netwerktoegang aanstaat.
Anthropic erkent het risico en zegt dat dit scenario al in de beveiligingsdocumentatie staat; gebruikers zouden verdachte activiteit actief moeten monitoren en de sessie moeten stopzetten. Rehberger meldde het probleem via HackerOne, maar kreeg aanvankelijk te horen dat zijn rapport buiten de scope viel; Anthropic corrigeerde dat later en bevestigde dat data‑exfiltratie wel binnen het bugbounty‑programma hoort, hoewel het beschreven geval al publiekelijk gedocumenteerd zou zijn.
De aanval maakt gebruik van prompt‑injectie: taalmodellen maken vaak geen duidelijk onderscheid tussen normale tekst en verborgen opdrachten. Rehberger publiceerde geen werkende prompt, maar toonde in een video hoe hij Claude om de tuin leidde door extra ogenschijnlijk onschuldige code toe te voegen nadat het model aanvankelijk weigerde een API‑sleutel in platte tekst te verwerken. De recente uitbreiding van Claudes sandbox — waarin bestanden gemaakt, programma’s uitgevoerd en netwerkverkeer mogelijk is — vergroot het risico dat vertrouwelijke data weglekt, ook als instellingen beperkt zijn.
Beveiligingsexperts zien het probleem breder: tests van de hCaptcha Threat Analysis Group op meerdere modellen (onder meer ChatGPT Atlas en Gemini) laten zien dat veel AI‑systemen neigen kwaadaardige verzoeken uit te voeren en dat slechts technische beperkingen voorlopig veel aanvallen frustreren. Mitigatie vereist strengere toegangscontrole, monitoring en terughoudendheid bij het inschakelen van netwerkfunctionaliteit.