НовостиОбзорыСобытияIT@WorkРеклама
Сети/Серверы/СХД/ЦОД:

Блог

Крупнейшие инфраструктурные сбои 2013-го: Obamacare и др.

Провал реформы американского здравоохранения сопровождался не только множеством организационных неудач, но также и самым эпическим технопровалом года.

[spoiler]Стартовавшая 1 октября 2013 г. и призванная улучшить схемы медицинского страхования, реформа оказалась столь непродуманной, что Обаме в ноябре пришлось официально извиняться за множество просчётов. При этом существенную роль в неудаче сыграли ИТ: именно сайту Healthcare.gov была отведена ключевая роль в обеспечении американцев, не имеющих страховых полисов, таковыми -- посредством покупок страховок на электронных биржах.

Но уже в первый день сайт системы работал с перебоями, а затем главный ЦОД прекратил функционирование, что привело к полной остановке региональных отделений во всех штатах. К декабрю сайт якобы научили держать пиковую нагрузку в 50 тысяч пользователей и ежедневно обрабатывать 800 тыс. запросов. Сегодня, по заверениям менеджеров, сайт работает уже 90% времени :) Но заметно подтормаживает при его эксплуатации по прямому назначению, из-за чего миллионы потенциальных участников программы, коих намеревались электронно застраховать уже к марту, разочаровались в проекте.

Кстати, по нагрузке: облачная NoSQL СУБД Amazon DynamoDb выдерживает миллион обращений в сутки -- по тарифу где-то тысяча долларов в месяц, запускаясь с нуля за одну минуту -- при этом линейно масштабируясь по нагрузке с гарантированным временем отклика менее 10 мс.

Впрочем, корень проблемы с Healthcare.gov не только в разработчиках, но и в самом Обаме, который давил на руководство, чтобы они успели к сроку. Но даже десять мам не родят ребёнка за один месяц, и ИТ-руководство подстраховалось, нажаловавшись в СМИ, что дескать мы выполнили к 1 октября лишь 40% намеченного, так как сроки постоянно сокращались. На этот официальный облачный госпроект компания Verizon Terremark получила, кстати, сущие копейки: 15,5 млн. долл. на пять лет.

1 октября после отказа одного из сетевых компонент в ЦОДе Terremark сперва отрубился головной сайт, а потом по цепочке и региональные. Главе фирмы принялись в панике названивать из Белого дома, инженеры были переведены на круглосуточный режим работы, однако даже после апгрейда и установки дополнительного железа полноценно перезапустить систему не удалось: новые пользователи уже не могли зарегистрироваться. Конкуренты Verizon поёрничали по этому поводу: дескать, сегодня пользователи так привыкли к качеству Amazon и Google, что ожидают того же и от государственных систем.

Впрочем, архитектура системы, после её анализа относительно независимыми экспертами, как выяснилось, тоже оставляла желать лучшего, а спроектирована была на троечку, что сжатыми сроками сложно оправдать. Программированием занималась канадская CGI Group, и американские эксперты с радостью назначили иностранцев козлами отпущения: например, браузер при обращении к серверу грузит неимоверное количество крупных и ненужных файлов и плагинов (92 «штуки»!), которые сильно тормозят его работу. Из 92 файлов 56 оказались индивидуальными JavaScript-скриптами! ещё десятки -- индивидуальными CSS-файлами! :) Многие из скриптов при этом вели «самостоятельное» общение с сервером, перегружая его множеством запросов и поедая серверный трафик. Этот сайт эксперты по безопасности даже обозвали одним огромным DDOS-ботом, предположив, что спасёт проект только его полное переделывание с нуля. Так, отклика на AJAX-запрос приходилось ждать почти 17 секунд!

Вот здесь подробный анализ: http://apmblog.compuware.com/2013/10/22/diagnosing-obamacare-website-performance-issues-with-apm-tools/

UI тоже оказался не на высоте: при сбоях или отказе в обслуживании пользователи никакой информации не получали. СМИ удалось неофициально выведать у программистов проекта, что в качестве методологии был выбран классический «водопад», но при этом и сроки, и, главное, требования, постоянно менялись. И вот безрадостный, но вполне закономерный и легко прогнозируемый промежуточный итог: сегодня этот сайт работает в основном как новостная страничка...

Ну а самым «скромным» -- десятым в топе-10 инфраструктурных провалов по версии портала Data Center Knowledge, стал декабрьский сбой Yahoo Mail: в понедельник :) 9 декабря, в разгар рабочего утра 10:27, админы получили оповещение об отказе накопителя ЦОДа, обслуживающего 1% пользователей. Ситуация, кстати, абсолютно типичная для любой крупной системы -- и неуд яховцы получили не за сам факт отказа, который был устранён в 13:30, а в неспособности перебросить соответствующих пользователей на запасные серверы -- люди испытывали проблемы с почтой ещё четыре дня. К чести Yahoo отметим, что CEO Марисса Мэйер принесла официальные извинения, честно отметив, что корни проблемы кроются в унаследованных элементах инфраструктуры.

продолжение следует