AI-chatbots vertellen je nog steeds hoe je een bom maakt

maandag, 23 maart 2026 (11:09) - Techzine

In dit artikel:

Palo Alto Networks’ Unit 42 toont met recent onderzoek aan dat beveiligingsmaatregelen voor grote taalmodellen (LLM’s) kwetsbaar zijn voor een geavanceerde vorm van fuzzing die werkt als natuurlijke selectie. In plaats van handmatig varianten van een kwaadaardige prompt te verzinnen, laat het team een genetisch algoritme willekeurige promptmutaties evalueren en de meest succesvolle ‘kandidaten’ laten reproduceren. Na slechts ongeveer honderd generaties ontstonden zo prompts die een jailbreak mogelijk maken: de LLM voert taken uit of geeft informatie prijs waar het expliciet voor beschermd zou moeten zijn.

Wie dit kan misbruiken zijn cybercriminelen die AI-agenten binnen organisaties inzetten als aanvalsvector. Veel bedrijven gebruiken AI voor klantenservice, HR of financiële rapportage; die agents hebben vaak toegang tot of kennis van gevoelige data. Unit 42 demonstreerde de methode aan de hand van een extreme casus — het laten produceren van instructies voor het maken van explosieven — maar waarschuwt vooral voor realistischere misbruikvormen zoals datalekken, het wissen van informatie of het instrueren van API’s waarvoor onvoldoende beperkingen gelden. Zowel gesloten- als open-source modellen bleken vatbaar, wat erop wijst dat de kwetsbaarheid fundamenteel is: schadelijke kennis zit ergens in trainingsdata en kan, mits de juiste prompt, uit het model worden gehaald.

De onderzoekers leggen uit waarom klassieke contentfilters tekortschieten: taalpatronen zijn te variabel en LLMs zijn niet-deterministisch, waardoor subtiele of gemuteerde inputs vaak onder de radars van filters glippen. Daarom moeten vangrails niet alleen op sleutelwoorden vertrouwen, maar meerdere signalen combineren en continu getest worden. Unit 42 adviseert onder meer het beperken van modelcapabilities, het isoleren van gebruikersinput, strikte beleidsnaleving van outputs en uitgebreide monitoring en logging van API‑gebruik om verfijning van prompts door aanvallers te detecteren.

Kortom: de studie laat zien dat AI-beveiliging een continu, adaptief proces moet zijn. Naast moderne maatregelen pleit Unit 42 voor klassieke beveiligingsbasis: sterke authenticatie en autorisatie, rate limiting, zero-trust en least-privilege-architecturen. Organisaties die LLM’s inzetten moeten ervan uitgaan dat vangrails door vijanden actief getest worden en daarom red‑teaming met steeds gewijzigde prompts en meerdere lagen van defensie invoeren om risico’s te beperken.

Lees het volledige artikel