Amazon: bug in geautomatiseerd DNS-beheer zorgde voor kettingreactie AWS-storing

vrijdag, 24 oktober 2025 (15:00) - Tweakers

In dit artikel:

Amazon schrijft in een blogpost dat een storing op 19 oktober in regio US‑East‑1 werd veroorzaakt door een fout in het DNS‑beheersysteem rond DynamoDB, waardoor wereldwijd veel websites en diensten uitvielen. Tijdens de lokale nacht ontstond een racecondition tussen twee geautomatiseerde DNS‑enactors: doordat de ene enactor vertraagd een nieuw plan toepaste terwijl de andere ondertussen het inmiddels verouderde plan verwijderde, raakten DNS‑records zonder IP‑adressen. Dat leidde tot massale API‑fouten bij verbindingen met DynamoDB en veroorzaakte een kettingreactie: afhankelijke systemen zoals EC2 en de Network Load Balancer functioneerden niet meer goed en verergerden het probleem door verkeerde foutafhandeling (bijv. het verwijderen van nodes). Amazon zegt maatregelen te hebben getroffen om herhaling te voorkomen: de omstandigheden voor raceconditions zijn aangepakt, EC2 is begrensd op wachtrijgedrag om opeenhoping van verzoeken te voorkomen, en de NLB mag niet meer in één keer grote hoeveelheden capaciteit weghalen na gefaalde health checks. Deze wijzigingen moeten de risico’s op soortgelijke wereldwijde uitval in de toekomst aanzienlijk verkleinen.