Amazon: bug geautomatiseerd DNS-database zorgde voor kettingreactie AWS-storing

zaterdag, 25 oktober 2025 (16:00) - Tweakers

In dit artikel:

Amazon meldt dat de wereldwijde uitval op 19 oktober begon door een fout in DynamoDB, de NoSQL-database binnen AWS. In het datacenter US‑East‑1 ontstond rond middernacht lokaal een racecondition waarbij DNS-records hun IP-adressen verloren, waardoor gebruikers massaal API-fouten zagen bij verbinding met DynamoDB.

De oorzaak lag bij een conflict tussen twee geautomatiseerde DNS‑enactors: de ene maakte voortdurend nieuwe plannen, de andere registreerde en voerde die plannen met vertraging uit terwijl de eerste ondertussen verouderde plannen verwijderde. Dat proces resulteerde in lege DNS‑records. Omdat meerdere andere AWS‑componenten, zoals EC2 en de Network Load Balancer (NLB), afhankelijk zijn van DynamoDB, schakelde de storing zich door naar deze systemen en ontstond een kettingreactie van fouten — onder meer doordat NLB‑fouten leidden tot het verwijderen van nodes, wat het probleem verergerde.

Amazon zegt inmiddels maatregelen te hebben genomen: aanpassingen om de kans op raceconditions te verkleinen, begrenzing van EC2‑verwerking via wachtrijen om opeenstapeling van verzoeken te voorkomen, en een limiet op hoeveel capaciteit een NLB per mislukte gezondheidscheck mag verwijderen. Een update verduidelijkte bovendien dat DynamoDB een databasefunctiie is, niet een beheersysteem zoals eerder foutief vermeld.