Cloudflare biedt excuses aan na wereldwijde storing, wat ging er mis?
In dit artikel:
Op 18 november leidde een intern softwareprobleem bij Cloudflare tot de grootste storing bij het bedrijf sinds 2019: wereldwijd vielen tientallen populaire diensten tijdelijk weg, van ChatGPT en X tot Spotify, Canva, Authy en de website van IKEA. Niet een externe DDoS- of ransomware-aanval bleek de oorzaak, maar een fout in het Bot Management-systeem van Cloudflare — de betaalde dienst die zonder CAPTCHA’s schadelijk botverkeer filtert.
Wat er precies misging: het Bot Management gebruikt zogenoemde “feature files” — compacte configuratiebestanden die aangeven welk gedrag bots vertonen. Deze bestanden worden razendsnel door Cloudflares wereldwijde netwerk verspreid en mogen technisch maximaal 200 features bevatten; tijdens normaal gebruik bevat een file doorgaans ongeveer 60 features. Door een onjuiste wijziging in de permissies van een database ontstonden meerdere duplicaten van één feature file, waardoor het bestand twee keer zo groot werd en de limiet overschreed. De software sloeg daarop “in paniek”, volgens CEO Matthew Prince, en weigerde vervolgens toegang tot sites die afhankelijk zijn van deze anti-botmodule.
De storing begon rond 11:20 Nederlandse tijd en gedroeg zich onconventioneel: gebruikers wereldwijd ervoeren wisselend wel en geen toegang, vaak in een ritme van ongeveer vijf minuten. Die cadans werd veroorzaakt door een ClickHouse-databasecluster dat elke vijf minuten een query uitvoert om een nieuwe feature file te genereren; zodra meerdere nodes foutief geconfigureerde bestanden uitrolden, leidde dat tot grote, gefragmenteerde uitval. Cloudflare identificeerde en repareerde het probleem binnen enkele uren: rond 13:00 weigerde het systeem massaal toegang, de eerste remediemaatregelen grepen anderhalf uur later, en tegen circa 17:00 waren de foutmeldingen weer normaal.
Belangrijke context: Cloudflare verwerkt direct zo’n 20 procent van al het webverkeer en indirect een veel groter deel, omdat veel sites afhankelijk zijn van hun diensten als reverse proxy of beveiligingslaag. Die centrale positie maakt het bedrijf zeer invloedrijk — en kwetsbaar: fouten in software die wereldwijd uitgerold wordt, kunnen grote delen van het internet raken. Cloudflare bouwt populariteit op met gebruiksgemak en een freemium-model, plus agressieve mitigatie van DDoS- en botdreigingen, maar deze storing illustreert de keerzijde van die concentratie.
De incidenten bij Cloudflare doen denken aan de CrowdStrike-storing van 19 juli 2024, waarbij ook een update met een net iets afwijkend formaat data leidde tot grootschalige uitval. De parallel is dat beide problemen ontstonden doordat software niet robuust genoeg bleek tegen invoer die buiten de verwachte grenzen viel. Bij Cloudflare overwoog de fout een logische limiet — verbindingssnelheid en geheugen vereisen dat zulke updatebestanden compact blijven — maar de snelheid van wereldwijde uitrol vergroot ook het risico dat een fout zich razendsnel verspreidt.
Cloudflare erkent de ernst van de storing; Prince noemde een dergelijke uitval “onacceptabel” en gaf aan dat het bedrijf maatregelen zal treffen om de weerbaarheid van zijn systemen te vergroten, zonder daarbij de botbestrijdingscapaciteiten te verminderen. Mogelijke mitigaties zijn strengere controles op bestandsgrootte en aanpassingen in de manier waarop updates en databasewijzigingen worden gevalideerd en uitgerold. Tegelijk is er een fundamenteel trade-off: hoe sneller en consistenter beleid en updates verspreid worden, hoe hoger de impact wanneer iets fout gaat.
Praktische les voor organisaties: afhankelijkheid van één provider brengt risico’s met zich mee. Hoewel de meeste Cloudflare-storingen kort duren en zelden existentiële schade veroorzaken, kunnen ze wel werkuren en omzet kosten. Bedrijven wordt aangeraden vooraf noodplannen te maken, alternatieve routes of backups te overwegen en zich bewust te zijn van welke cruciale functies zij aan externe diensten uitbesteden.