Home Tehnoloģija AWS pārtraukuma garā aste

AWS pārtraukuma garā aste

8
0

Plašais Amazon Internet Companies mākoņdatošanas pārtraukums, kas sākās agrā pirmdienas rītā, ilustrēja interneta trauslo savstarpējo atkarību, jo lielākās komunikācijas, finanšu, veselības aprūpes, izglītības un valdības platformas visā pasaulē cieta traucējumus. Dienai ejot, AWS diagnosticēja un sāka strādāt, lai novērstu problēmu, kuras cēlonis bija uzņēmuma kritiskais ASV-EAST-1 reģions, kas atrodas Virdžīnijas ziemeļos. Taču ietekmes kaskādei bija vajadzīgs laiks, lai pilnībā atrisinātu.

Pētnieki, pārdomājot incidentu, īpaši uzsvēra pirmdienas pārtraukuma ilgumu, kas sākās pirmdien, 20. oktobrī, ap plkst. 3:00 ET. AWS statusa atjauninājumos paziņoja, ka pirmdien līdz plkst. 18:01 ET “visi AWS pakalpojumi atgriezās normālā režīmā.” Pārtraukums bija tieši saistīts ar Amazon DynamoDB datu bāzes lietojumprogrammu saskarnēm, un, pēc uzņēmuma domām, tas “ietekmē” 141 citu AWS pakalpojumu. Vairāki tīkla inženieri un infrastruktūras speciālisti WIRED uzsvēra, ka kļūdas ir saprotamas un neizbēgamas tā sauktajiem “hiperskaloriem”, piemēram, AWS, Microsoft Azure un Google Cloud Platform, ņemot vērā to sarežģītību un lielo izmēru. Taču viņi arī atzīmēja, ka šai realitātei nevajadzētu vienkārši atbrīvot mākoņpakalpojumu sniedzējus, ja tiem ir pagarināts dīkstāves laiks.

“Vārds” retrospektīvs “ir galvenais. Pēc fakta ir viegli noskaidrot, kas nogāja greizi, taču AWS vispārējā uzticamība parāda, cik grūti ir novērst katru kļūdu,” saka Ira Vinklere, uzticamības un kiberdrošības uzņēmuma CYE galvenā informācijas drošības virsniece. “Ideālā gadījumā tā būs mācība, un Amazon īstenos vairāk darbinieku atlaišanas, kas novērstu tādas katastrofas rašanos nākotnē vai vismaz neļautu viņiem palikt bez darba tik ilgi, kamēr viņi to darīja.”

AWS neatbildēja uz WIRED jautājumiem par klientu atveseļošanās ilgumu. AWS pārstāvis saka, ka uzņēmums plāno publicēt vienu no saviem “pēcpasākuma kopsavilkumiem” par incidentu.

“Es nedomāju, ka tas bija tikai “notiek lietas” pārtraukums. Es būtu gaidījis pilnīgu atlīdzināšanu daudz ātrāk,” saka Džeiks Viljamss, Hunter Technique pētniecības un attīstības viceprezidents. “Lai sniegtu viņiem noteiktās, kaskādes kļūmes, viņiem nav liela pieredze darbā, jo viņiem bieži nav pārtraukumu. Tas ir viņu nopelns. Taču ir ļoti viegli iejusties domāšanā par atļaujas piešķiršanu šiem uzņēmumiem, un mēs nedrīkstam aizmirst, ka viņi šo situāciju rada, aktīvi cenšoties piesaistīt savai infrastruktūrai arvien vairāk klientu. Neatkarīgi no tā, vai viņi paši pārvalda finansiālus pakalpojumus vai to, kas viņiem nav.”

Incidentu izraisīja pazīstams tīmekļa pārtraukumu vaininieks — “domēna vārdu sistēmas” atrisināšanas problēmas. DNS būtībā ir interneta tālruņu grāmatas mehānisms, lai novirzītu tīmekļa pārlūkprogrammas uz pareizajiem serveriem. Tā rezultātā DNS problēmas ir bieži sastopams pārtraukumu avots, jo to dēļ pieprasījumi var neizdoties un saturs netiek ielādēts.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here