L'interruzione di Microsoft Azure mostra la dura realtà dei fallimenti del cloud

La piattaforma cloud Azure di Microsoft , i suoi servizi 365 ampiamente utilizzati, Xbox e Minecraft hanno iniziato a subire interruzioni intorno a mezzogiorno (ora orientale) di mercoledì, a causa di quella che Microsoft ha definito "una modifica involontaria della configurazione". L'incidente, che segna la seconda interruzione importante di un provider cloud in meno di due settimane, evidenzia l'instabilità di una rete Internet costruita in gran parte su infrastrutture gestite da pochi giganti della tecnologia.
I problemi di Microsoft hanno avuto origine specificatamente dalla rete di distribuzione di contenuti Front Door di Azure e sono emersi poche ore prima dell'annuncio degli utili programmato da Microsoft. Il sito web dell'azienda, inclusa la pagina dedicata alle relazioni con gli investitori, era ancora inattivo mercoledì pomeriggio, e anche la pagina di stato di Azure , dove Microsoft fornisce gli aggiornamenti, presentava problemi intermittenti.
Mercoledì, Microsoft ha descritto negli aggiornamenti di stato di aver avviato un processo di rollback sequenziale delle versioni recenti del suo ambiente fino a individuare l'"ultima configurazione valida nota". Alle 15:01 ET, l'azienda ha dichiarato di aver identificato e distribuito questa configurazione stabile e che "i clienti potrebbero iniziare a vedere i primi segnali di ripristino. Stiamo attualmente ripristinando i nodi e instradando il traffico attraverso nodi sani".
Un portavoce di Microsoft ha dichiarato: "Stiamo lavorando per risolvere un problema che riguarda Azure Front Door e che sta influenzando la disponibilità di alcuni servizi. I clienti dovrebbero continuare a controllare gli avvisi sullo stato dei servizi". L'azienda non ha risposto immediatamente alle domande di WIRED sulla natura della modifica alla configurazione che ha causato l'interruzione.
Oltre a verificarsi in concomitanza con la presentazione dei risultati finanziari di Microsoft, l'interruzione arriva nove giorni dopo che il rivale di Azure, Amazon Web Services, ha subito un'interruzione massiva che ha avuto un impatto su siti e servizi in tutto il mondo. I principali fornitori di servizi cloud, spesso definiti "hyperscaler", standardizzano e spesso migliorano la sicurezza e l'affidabilità di base per i propri clienti, ma problemi e interruzioni possono trasformarli in singoli punti di errore per ampie fasce di servizi digitali critici.
"Anche la pagina sullo stato delle interruzioni di Azure è inattiva", afferma Davi Ottenheimer, responsabile di lunga data delle operazioni di sicurezza e della conformità e vicepresidente di Inrupt, azienda di infrastrutture dati. "Un altro errore di modifica della configurazione: viviamo nell'era delle violazioni dell'integrità, più che mai."
Azure ha impedito ai clienti di apportare modifiche alla configurazione delle proprie istanze mentre lavorava per risolvere il problema. L'azienda ha dichiarato in un aggiornamento alle 15:22 ET che prevede una "completa mitigazione" della situazione entro le 19:20 ET.
"Le organizzazioni possono pensare di essere protette dalla scelta del provider cloud, ma le dipendenze sono più profonde", afferma Munish Walther-Puri, docente a contratto presso IANS Research ed ex direttore del rischio informatico per la città di New York. "Quando i partner chiave si affidano ad altri hyperscaler, l'esposizione si moltiplica. Man mano che l'intelligenza artificiale diventa il livello successivo dell'infrastruttura critica, queste interruzioni dimostrano la fragilità della nostra dorsale digitale".
wired




