GPT-5 binnen 24 uur gejailbreakt
In dit artikel:
Onderzoekers van NeuralTrust wisten GPT-5 binnen 24 uur na de lancering te jailbreaken door een combinatie van de zogenaamde Echo Chamber-methode en narratieve sturing. In een standaard black-boxomgeving (dus zonder interne modeltoegang) kregen ze het model, zonder expliciet schadelijke prompts, zover dat het stap voor stap gedetailleerde instructies gaf voor het maken van een Molotovcocktail. Dark Reading beschrijft het praktijkvoorbeeld; operationele details zijn uit veiligheidsoverwegingen weggelaten.
De aanval werkt door eerst een schijnbaar onschuldige context te "vergiftigen": sleutelwoorden worden subtiel ingebed in verhalende zinnen. Vervolgens wordt het gesprek voortgezet als een doorlopend verhaal, waarin de noodzaak voor consistentie het model ertoe aanzet om de narratieve lijn te volgen en geleidelijk meer technische informatie prijs te geven. Omdat de prompts nooit expliciet gevaarlijk lijken, omzeilen ze traditionele trefwoord- en intentiefilters.
SiliconANGLE en andere experts merken op dat GPT-5 ondanks betere redeneercapaciteiten kwetsbaarder lijkt voor dit soort verfijnde promptaanvallen dan GPT-4o. Modellen blijken gevoelig voor eenvoudige obfuscatie, contextvergiftiging over meerdere rondes en risico's bij koppelingen met agents en externe tools. NeuralTrust concludeert dat alleen filteren op trefwoorden of intentie ontoereikend is; effectieve verdediging vereist monitoring op gespreksniveau en detectie van subtiele overtuigingspatronen. Zonder zulke maatregelen blijven grote taalmodellen vatbaar voor snelle jailbreaks die tot gevaarlijke output kunnen leiden.