Kleine hoeveelheid 'giftige' data kan AI-modellen beïnvloeden

vrijdag, 10 oktober 2025 (12:40) - Techzine

In dit artikel:

Onderzoekers van Anthropic, het UK AI Security Institute en het Alan Turing Institute tonen in een recente studie aan dat grote taalmodellen met een relatief klein, absoluut aantal gemanipuleerde voorbeelden kwetsbaar kunnen worden voor backdoors. In hun experimenten bleek dat zo'n 250 malicious documenten—ongeacht de grootte van het model of de totale hoeveelheid trainingsdata—volstaan om een triggerzin (bijvoorbeeld "SUDO" gevolgd door willekeurige tokens) te laten leiden tot ongewenste output. Zowel kleine modellen (~600M parameters) als grotere modellen tot 13 miljard parameters vertoonden hetzelfde gedrag nadat ze ongeveer hetzelfde aantal poisoned voorbeelden hadden gezien.

Het onderzoek laat zien dat het succes van zulke datapoisoning-aanvallen afhangt van het absolute aantal besmette voorbeelden, niet van het aandeel in de dataset. Omdat veel modellen op publiek beschikbare internetdata worden getraind, is het praktisch haalbaar dat kwaadwillenden doelgericht teksten plaatsen die later in trainingssets belanden. De onderzoekers testten ook fine-tuning‑scenario’s (onder meer Llama-3.1-8B-Instruct en GPT-3.5-turbo) en vonden vergelijkbare bevindingen.

Positief is dat extra training met enkele honderden schone voorbeelden de backdoors deels kan uitwissen, wat suggereert dat bestaande reinigingsprocedures veel eenvoudige aanvallen kunnen tegenhouden. De auteurs roepen op tot verder onderzoek naar robuuste verdedigingsmechanismen, vooral voor toekomstige, grotere modellen en risicovollere misbruikvormen zoals het genereren van kwetsbare code of het lekken van gevoelige informatie.