Wetenschappers vinden fouten in 445 veiligheidstests voor AI-modellen

donderdag, 6 november 2025 (10:45) - Tweakers

In dit artikel:

Britse en Amerikaanse onderzoekers hebben aangetoond dat honderden gebruikte benchmarks om grote taalmodellen op veiligheid en prestaties te testen ernstige tekortkomingen vertonen. In een onderzoek van het AI Security Institute (van de Britse overheid) samen met onderzoekers van Stanford, Berkeley en Oxford analyseerden ze 445 benchmarks afkomstig uit papers op toonaangevende AI-conferenties. Ze vinden dat veel toetsen slecht gedefinieerde meetdoelen hebben, vaak geen statistische toetsen toepassen en zelden onzekerheid in metingen rapporteren — slechts 16 procent doet dat wel.

Door die methodologische gebreken meten veel benchmarks volgens de onderzoekers niet daadwerkelijk wat ze pretenderen te meten, waardoor uitslagen misleidend kunnen zijn. Dat is zorgelijk omdat benchmarks in de VS en het VK vaak fungeren als de facto manier om te bepalen of modellen “veilig” zijn en of ze voldoen aan beloften van aanbieders op gebieden als redeneren, wiskunde en codegeneratie. Fouten in evaluatie kunnen dus leiden tot te rooskleurige beoordelingen van AI-systemen die risico’s hebben zoals het produceren van onjuiste informatie (‘hallucinaties’) of het gevaarlijk meelevend reageren, met mogelijk ernstige gevolgen voor kwetsbare gebruikers.

Als reactie ontwikkelden de onderzoekers een praktische checklist voor kwaliteitscontrole die ontwikkelaars van toekomstige benchmarks kunnen gebruiken; die is vrij beschikbaar als online checklist, pdf en LaTeX-code. De aanbeveling is duidelijk: betere definities, transparante statistiek en expliciete onzekerheidsinschattingen zijn nodig om betrouwbare en verantwoordelijke AI-evaluatie mogelijk te maken.