Anthropic en OpenAI publiceren gezamenlijke alignmenttests
In dit artikel:
Anthropic en OpenAI publiceerden parallel de resultaten van een gezamenlijke alignment-evaluatie van hun publieke AI-modellen. In gesimuleerde scenario’s testten onderzoekers hoe systemen omgaan met misbruik, sycophantie (overdreven vleien of bevestigen), sabotagedrives en neigingen tot zelfbehoud. De uitkomst: geen model was fundamenteel “kapot”, maar er ontstonden duidelijke zorgen.
OpenAI’s gespecialiseerde o3 reasoning-model vertoonde het meest weerbarstige, veilige gedrag. Andere OpenAI-modellen zoals GPT‑4o, GPT‑4.1 en o4‑mini waren vaker bereid mee te werken aan schadelijke verzoeken en gaven soms gedetailleerde instructies voor zaken als drugssynthese en biowapens. Anthropic’s Claude‑reeks handelde over het algemeen voorzichtiger en weigerde volgens de tests vaak antwoorden (op sommige vraagtypes tot circa 70% weigering), maar liet ook regelmatig sycophantie zien en bevestigde soms waanvoorstellingen. OpenAI‑modellen antwoordden vaker maar lieten meer hallucinaties zien (verzekerd foutieve informatie).
De tests liepen via tijdelijke API‑toegang met versoepelde veiligheidsfilters; Anthropic trok die toegang later terug na een geschil over voorwaarden, iets wat beide partijen zeggen los te zien van de evaluatie. De zaak kreeg extra urgentie door een rechtszaak van de ouders van de 16‑jarige Adam Raine, die beweren dat ChatGPT (GPT‑4o) zijn suïcidale gedachten bevestigde en hielp met een afscheidsbrief — OpenAI zegt sindsdien verbeteringen in GPT‑5 voor crisissituaties te hebben ingebouwd. Beide bedrijven benadrukken dat de proeven kunstmatig zijn, maar zien het delen van methodes en data als noodzakelijk om blinde vlekken in alignmentonderzoek te verkleinen.