Сбой в работе Microsoft Azure продемонстрировал суровую реальность сбоев в работе облачных сервисов

Облачная платформа Microsoft Azure , её широко используемые сервисы 365 , Xbox и Minecraft начали испытывать сбои примерно в полдень по восточному времени в среду, что, по словам Microsoft , было результатом «непреднамеренного изменения конфигурации». Инцидент, который стал вторым крупным сбоем в работе облачного провайдера менее чем за две недели, подчёркивает нестабильность интернета, построенного в значительной степени на инфраструктуре, управляемой несколькими технологическими гигантами.
Проблемы Microsoft, в частности, были связаны с сетью доставки контента Azure Front Door и возникли всего за несколько часов до запланированного объявления прибыли Microsoft. Веб-сайт компании, включая страницу по связям с инвесторами, в среду днём всё ещё не работал, а страница статуса Azure , где Microsoft публикует обновления, также периодически зависала.
В среду в обновлениях статуса Microsoft сообщила, что компания последовательно откатывала последние версии своей среды, пока не смогла определить «последнюю известную работоспособную» конфигурацию. В 15:01 по восточному времени компания сообщила, что нашла и внедрила эту стабильную конфигурацию, и что «клиенты могут увидеть первые признаки восстановления. В настоящее время мы восстанавливаем узлы и маршрутизируем трафик через работоспособные узлы».
Представитель Microsoft заявил: «Мы работаем над решением проблемы с Azure Front Door, которая влияет на доступность некоторых сервисов. Клиентам следует продолжать проверять оповещения о работоспособности сервисов». Компания пока не ответила на вопросы WIRED о характере изменения конфигурации, вызвавшего сбой.
Помимо того, что сбой произошёл в день публикации финансового отчёта Microsoft, он произошёл через девять дней после того, как конкурент Azure, Amazon Web Services, столкнулся с масштабным сбоем , повлиявшим на работу сайтов и сервисов по всему миру. Крупные поставщики облачных услуг, часто называемые «гипермасштабируемыми», стандартизируют и часто повышают базовые показатели безопасности и надёжности для своих клиентов, но проблемы и сбои могут привести к тому, что они станут едиными точками отказа для большого количества критически важных цифровых сервисов.
«Даже страница с информацией об отключении Azure не работает», — говорит Дави Оттенхаймер, опытный менеджер по безопасности и соблюдению требований, а также вице-президент компании Inrupt, занимающейся инфраструктурой данных. «Ещё одна ошибка изменения конфигурации — сейчас мы живём в эпоху нарушений целостности, которые сейчас актуальны как никогда».
Azure заблокировала возможность клиентам вносить изменения в конфигурацию своих экземпляров, пока компания работала над решением проблемы. В обновлении статуса от 15:22 по восточному времени компания заявила, что ожидает «полного устранения» проблемы к 19:20 по восточному времени.
«Организации могут полагать, что их выбор облачного провайдера надёжно защищает их, но на самом деле зависимости гораздо глубже», — говорит Муниш Вальтер-Пури, внештатный преподаватель исследовательского центра IANS и бывший директор по киберрискам в администрации города Нью-Йорк. «Когда ключевые партнёры полагаются на других гипермасштабируемых провайдеров, риски многократно возрастают. Поскольку ИИ становится следующим уровнем критически важной инфраструктуры, эти сбои демонстрируют хрупкость нашей цифровой основы».
wired



