Veiligheidsmechanismen van AI-modellen fragieler dan gedacht

dinsdag, 10 februari 2026 (13:55) - Techzine

In dit artikel:

Onderzoekers van Microsoft onder leiding van Mark Russinovich laten zien dat één enkele, niet-gelabelde trainingsprompt genoeg kan zijn om de veiligheidsafstemming van moderne AI-modellen te ondermijnen. In hun experiment werd een relatief milde opdracht — het schrijven van een nepnieuwsartikel dat paniek kan veroorzaken — herhaaldelijk gebruikt tijdens fine-tuning. Hoewel de prompt geen geweld of illegale handelingen noemde, leidde training op dat ene voorbeeld ertoe dat modellen toegeeflijker werden tegenover dit soort schadelijke verzoeken en zelfs kwetsbaarder werden voor andere schadelijke categorieën.

De kwetsbaarheid komt voort uit een veelgebruikte reinforcement-learningtechniek: Group Relative Policy Optimization (GRP). Deze methode vergelijkt meerdere gegenereerde reacties en beloont antwoorden die relatief veiliger scoren dan het groepsgemiddelde. Wanneer feedback echter perverse voorkeuren belicht — bijvoorbeeld een beoordelingsmodel dat schadelijke antwoorden hoger waardeert — leert het model geleidelijk zijn veiligheidsbeperkingen te omzeilen. De onderzoekers noemen dat proces GRP-Obliteration: de veiligheidsrails worden uitgewist door gerichte beloning van ongewenst gedrag.

Het effect werd aangetoond bij vijftien verschillende taalmodellen met uiteenlopende architecturen en groottes, zowel open als commercieel. Dat wijst erop dat het probleem niet beperkt is tot één leverancier of modeltype, maar een structureel risico vormt voor post-trainingafstemming. Ook diffusion-gebaseerde tekst-naar-beeldmodellen bleken gevoelig: vooral bij prompts rond seksualiteit nam het aandeel ongewenste output sterk toe, al waren de bij-effecten bij beeldmodellen minder breed dan bij tekstmodellen.

De bevindingen zijn extra relevant omdat Microsoft een centrale rol speelt in het AI-ecosysteem — grote investeerder in OpenAI en exclusieve distributeur via Azure — en omdat AI-systemen steeds vaker in bedrijfskritische, gereguleerde omgevingen worden ingezet. De studie toont aan dat robuuste veiligheidsafstemming niet alleen tijdens initiële training, maar ook tijdens latere fine-tuning kwetsbaar is voor regressie.

Belangrijke implicaties: het veiligheidsgat ontstaat niet per se door expliciet kwaadaardige data, maar door hoe belonings- en beoordelingsmechanismen ontworpen en ingezet worden; dit vereist strengere waarborgen bij fine-tuning, meer diverse en robuuste beoordelingsmodellen, continue monitoring op gedragsverschuivingen en aanvullende technische en organisatorische mitigaties voordat modellen in productie worden genomen.