Savukārt tīkla stāvokļa izplatīšanās aizkave tika pārnesta uz tīkla slodzes balansētāju, uz kuru AWS pakalpojumi paļaujas, lai nodrošinātu stabilitāti. Rezultātā AWS klienti saskārās ar savienojuma kļūdas no ASV-East-1 reģiona. Ietekmētās AWS tīkla funkcijas ietvēra Redshift klasteru izveidi un modificēšanu, Lambda izsaukumus un Fargate uzdevumu palaišanu, piemēram, Apache Airflow pārvaldītās darbplūsmas, Outposts dzīves cikla darbības un AWS atbalsta centru.
Pagaidām Amazon ir atspējojis DynamoDB DNS plānotāju un DNS Enactor automatizāciju visā pasaulē, kamēr tas darbojas, lai labotu sacensību nosacījumus un pievienotu aizsardzību, lai novērstu nepareizu DNS plānu piemērošanu. Inženieri veic izmaiņas arī EC2 un tā tīkla slodzes balansētājā.
Brīdinājuma stāsts
Ookla izklāstīja veicinošo faktoru, ko Amazon neminēja: to klientu koncentrācija, kuri maršrutē savu savienojumu caur US-East-1 galapunktu, un nespēja maršrutēt apkārt reģionam. Ookla paskaidroja:
Skartais US-EAST-1 ir AWS vecākais un visvairāk izmantotais centrs. Reģionālā koncentrācija nozīmē, ka pat globālās lietotnes bieži tur noenkuro identitātes, stāvokļa vai metadatu plūsmas. Ja reģionālā atkarība neizdodas, kā tas bija šajā gadījumā, ietekme izplatās visā pasaulē, jo daudzi “globālie” skursteņi kādā brīdī šķērso Virdžīniju.
Mūsdienu lietotnes apvieno pārvaldītos pakalpojumus, piemēram, krātuvi, rindas un bezservera funkcijas. Ja DNS nevar droši atrisināt kādu kritisku galapunktu (piemēram, šeit iesaistītā DynamoDB API), kļūdas tiek kaskādes, izmantojot augšupējās API, un rada redzamas kļūmes lietotnēs, kuras lietotāji nesaista ar AWS. Tieši to Downdetector ierakstīja Snapchat, Roblox, Sign, Ring, HMRC un citos.
Pasākums kalpo kā brīdinājuma stāsts visiem mākoņpakalpojumiem: svarīgāk par sacensību apstākļu un līdzīgu kļūdu novēršanu ir novērst atsevišķus tīkla dizaina kļūmes punktus.
“Ceļš uz priekšu,” sacīja Okla, “ir nevis nulles neveiksmes, guess gan ierobežota neveiksme, kas panākta, izmantojot vairāku reģionu projektus, atkarību daudzveidību un disciplinētu gatavību incidentiem, ar regulatīvo uzraudzību, kas virzās uz to, lai mākoni uzskatītu par valsts un ekonomiskās noturības sistēmiskām sastāvdaļām.”












