НовостиОбзорыСобытияIT@WorkРеклама
Сети/Серверы/СХД/ЦОД:

Блог

Крупнейшие инфраструктурные сбои 2013 года: Xbox, Visa, HostMonster

Кто виноват и что делать?

[spoiler]
предыдущая часть тут

4-е место. Запуск в ноябре игровой приставки Xbox One, подключающейся через Сеть к облачной игровой системе на Windows Azure маркетологи раскручивали месяцами. Инвестиции в разработку контроллера составили 100 млн. долл. Под игровое облако было выделено 300 тыс. серверов, однако вскоре после её запуска начались длительные проблемы с производительностью, отказывали сети и системы хранения данных. Представители Microsoft утверждали противоречивые вещи, дескать, то ли проблемы в ЦОДах с СХД реально были, то ли их инженеры неверно сконфигурировали DNS-имена (действительно, пострадали и пользователи office365.com), а запуск Xbox One просто совпал с этой недоработкой. Надо отметить, что Xbox Live уже отрубался в апреле, когда вышло обновление для Call of Duty: BlackOps ][, и серверы просто не справились с нагрузкой желающих скачать DLC.

3-е место. Январский отказ работы карт Visa по всей Канаде был вызван отключением питания в ЦОДе, где работали процессинговые системы Total System Services Inc.

2-е место. Августовский аппаратный сбой в ходе планового серверного сопровождения ЦОДа Endurance International Group вызвал почему-то каскадное отключение всей сети, в которой хостилось 5 млн. сайтов провайдеров BlueHost, HostGator, HostMonster.
Endurance известна как раз стремлением портировать ведущих, но разрозненных провайдеров на свою единую инфраструктуру, что, как оказалось, далеко не всегда правильно. Причины эпичности этого сбоя пользователям так и не были разъяснены.

Резюме. Фактически ни в одном случае сбой нельзя полностью списать на природные катаклизмы. Как минимум на 51% главным виновником везде оказывался человеческий фактор -- в каких-то случаях неизбежные естественные ошибки, где-то откровенное раздолбайство. Лекарство тоже известно -- шлифовка технологичности всех рабочих процессов, мониторинг-контроль за каждым участком работы, а главное, автоматизация.

окончание следует