Повседневная деятельность современных предприятий и организаций неразрывно связана с информационными технологиями. При этом в ИТ-инфраструктуре практически любого крупного предприятия можно выделить жизненно важные ИТ-системы, требования к функционированию которых чрезвычайно высоки, поскольку их остановка чревата тяжелыми финансовыми или имиджевыми потерями для компании, а зачастую и поиском нового места работы для руководителей. Ключевая характеристика таких систем — высокая доступность. Как она обеспечивается, какие решения для таких систем предлагает компания HP, как меняется ландшафт рынка решений высокой доступности — обо всём этом рассказывают Валерий Солоед, менеджер направления бизнес-критичных серверных систем в департаменте корпоративных решений HP, и Дмитрий Рукавишников, руководитель отдела инфраструктурных решений департамента системной интеграции «ИНЛАЙН ГРУП».

ИТ-решения высокой доступности — уже устоявшийся в ИТ-индустрии термин. Это само по себе говорит о том, что такие решения имеют существенные отличия от традиционных, широко используемых в ИТ-инфраструктуре предприятий и организаций. В чем в общих чертах эти отличия заключаются?

Валерий Солоед: Когда мы говорим о решениях высокой доступности, то имеем в виду средства поддержки приложений и систем, которые относим к категории критически важных. Важных в самых разных смыслах — для обеспечения непрерывности бизнеса, осуществления финансовых операций, управления атомными станциями и полетами авиалайнеров, поддержки жизнедеятельности человека в целом... Соответственно и требования к таким решениям предъявляются существенно более жесткие, нежели к средствам поддержки обычных приложений. В реальности они заключаются в том, чтобы полностью исключить внеплановые простои критически важных систем и свести к минимуму плановые. Решить эту задачу с помощью традиционных тиражируемых продуктов, как правило, не представляется возможным. Причин, которые могут привести к внеплановым простоям, очень много, а потому в таком решении все компоненты, все уровни архитектуры должны быть ориентированы на достижение цели и работать взаимосвязанно. Вот почему решение высокой доступности — это всегда результат предварительного проектирования с целью удовлетворения конкретных требований заказчика по уровню доступности используемых им приложений и данных, который, как правило, отражается в соглашении об уровне предоставления услуг (SLA). Можно сказать, что это ИТ-решение «с большой буквы».

Можно ли как-то обозначить границу уровня доступности приложений, выше которой уже приходится применять специализированные платформы и архитектуры?

Дмитрий Рукавишников: Обозначить такую границу можно лишь с известной долей условности. Но из личного проектного опыта могу привести такой пример. Крупный заказчик, рассматривая вопрос об обеспечении доступности важных для него сервисов, после финансовых и математических расчетов пришел к выводу, что для ряда сервисов с планируемым уровнем доступности 97% специальных решений высокой доступности ему не требуется — можно обойтись стандартным оборудованием, резервным копированием, виртуализацией... Если же соответствующее этой цифре допустимое время простоя сервиса неприемлемо для заказчика и должно быть сокращено, то необходимы дополнительные меры.

Как было сказано, высокая доступность ИТ-системы обеспечивается совокупностью взаимосвязанных мер и технологий на разных уровнях архитектуры решения. Что можно выделить в качестве основных уровней и компонентов таких решений?

В. С.: Основная задача решений высокой доступности заключается в том, чтобы не допустить остановки приложения или сервиса из-за разного рода ошибок, которые в стандартных системах приводят к аварийной остановке и перезагрузке операционной системы, и при этом гарантировать целостность данных. На протяжении многих лет для такого класса задач использовались RISC-системы, которые в отличие от стандартных серверов на процессорах Intel х86 обладали расширенным встроенным функционалом для обнаружения и коррекции ряда ошибок на уровне аппаратных компонентов и передачи этой информации на следующий уровень — системному микропрограммному обеспечению (firmware) и операционной системе. Специфическое для этой платформы «умное» firmware, учитывающее свойства отказоустойчивости процессора и ОС, является некой прослойкой между аппаратным обеспечением и операционной системой. На основе полученной информации о сбое и состоянии компонентов firmware моментально прерывает работу соответствующих процессов операционной системы, чтобы не допустить распространения ошибки и нарушения целостности данных, анализирует проблему, подготавливает систему к восстановлению и затем возвращает управление ОС. Таким образом, на уровне firmware инициируются процессы, которые ОС использует для восстановления после сбоя и продолжения работы. В большинстве случаев это позволяет продолжить работу без перезагрузки, локализовать и исправить ошибку на уровне ОС, гипервизора или приложения. Например, это может предполагать рестарт отдельной виртуальной машины, в то время как остальные продолжают работать, либо повторный запрос к базе данных, либо что-то еще.

Недавно компания НР впервые в индустрии представила аналогичную отказоустойчивую платформу, но уже на архитектуре х86. Система Superdome X является пока единственной индустриально стандартной бизнес-критичной платформой на основе процессора Intel Xeon Е7, максимально использующей его встроенные свойства отказоустойчивости и объединившей высокий уровень доступности из мира UNIX с эффективностью стандартных технологий из мира х86. Это позволяет нашим заказчикам не только расширить спектр используемых приложений, но и значительно снизить стоимость владения окружением для поддержки критически важных задач.

Следующий уровень — это кластерное ПО, обеспечивающее отказоустойчивость на уровне всей инфраструктуры решения — сетевых компонентов, систем хранения данных, приложений. Это тоже обязательный компонент, роль которого сродни роли системы курсовой устойчивости в автомобиле. Кластерное ПО не участвует в штатной работе приложения, но в критические моменты, когда приложение «попадает в занос», оно позволяет корректно и автоматически быстро восстановить работу приложения на резервных компонентах. Поэтому не стоит экономить на кластерном ПО.

И последний уровень — это, конечно, сервисы. Без склада запчастей, без квалифицированной службы поддержки не всегда можно гарантировать восстановление системы в приемлемый срок. Необходимо помнить, что помимо технологий есть еще люди, обученный на случай экстремальных ситуаций персонал, и есть процедуры — технической поддержки, восстановления систем и, конечно, отслеживания изменений.

Иногда заказчики говорят, что высокая стоимость таких решений определяется прежде всего маркетингом. На самом деле это не так, потому что в этих решениях используется целый ряд специальных технологий, которых нет в стандартных серверах. Эти технологии — результат многолетних исследований и разработок, вложений в подготовку персонала по внедрению и поддержке решений.

Но всегда ли на практике решение высокой доступности включает полный стек?

Д. Р.: Не всегда. Нередко заказчик изначально ориентируется на минимальный простой системы, но когда встает вопрос о цене, ему приходится задуматься, не завышены ли начальные требования. И может оказаться, что какие-то задачи не столь критичны для бизнеса и можно сэкономить, например, на кластерном ПО, согласившись на некоторое увеличение допустимого времени простоя.

Иногда заказчики сознательно идут на упрощение архитектуры решения. Мотивом для отказа, например, от кластерного ПО могут стать опасения, что оно как-то повлияет на функционирование важного и сложного приложения, работа с которым полностью отлажена, но в то же время нет людей, которые могли бы в случае необходимости обеспечить его функционирование в измененной рабочей среде. И в этом есть своя логика. Нам приходилось сталкиваться со случаями, когда отказоустойчивый кластер в критической ситуации «устойчиво отказывал» (и заказчик терял время и деньги) только потому, что обслуживающий персонал никогда не тестировал это решение и в принципе не умел с ним работать.

Все это, впрочем, только подтверждает сказанное: обеспечение функционирования системы — это совокупность технических решений и организационных мер.

Возвращаясь к вопросу о компонентах решения высокой доступности, хочу обратить внимание на такой важный элемент, как система мониторинга. Она не обязательно должна быть внешней — мониторинг может осуществляться на уровне самих программных компонентов решения. Например, ПО кластеризации HP Serviceguard как раз отличается возможностью тонкой настройки мониторинга состояния процессов кластеризованных приложений. Средства мониторинга позволяют оперативно реагировать на нештатные ситуации, в том числе в автоматизированном режиме, что имеет огромное значение при обеспечении высокой доступности критически важных приложений.

Требования к ИТ-системам поддержки критически важных приложений не ограничиваются их высокой доступностью. Каким дополнительным требованиям должны удовлетворять такие решения?

В. С.: Помимо уровня доступности это, конечно, масштабируемость. В обычной ситуации, когда нужно увеличить ресурсы приложения, проблема решается заменой сервера, что связано с закупками, переносом приложений и данных, простоями, а потому подобный подход неприемлем для систем высокой доступности. Кроме того, хорошая масштабируемость позволяет нарастить ресурсы при минимальных затратах.

Еще одно важное требование — длительный жизненный цикл компонентов решения по сравнению со стандартными, где обновление платформы происходит в среднем раз в год. Возможность купить, например, дополнительный процессор должна быть обеспечена и через два, и через пять лет, что нереально для стандартных систем.

Наконец, такие решения должны иметь сбалансированную архитектуру, чтобы пропускная способность подсистем ввода-вывода соответствовала пропускной способности вычислительных компонентов подсистемы процессор — память и ни одна из этих подсистем не являлась бы узким местом.

ИТ-решения высокой доступности совершенствовались на протяжении десятилетий. Какие тенденции определяют развитие данного направления сегодня? Чем они обусловлены?

В. C.: Сегменту решений высокой доступности присущи те же базовые тенденции, которые мы наблюдаем в ИТ-индустрии в целом. Важнейшая из них — переход к индустриальным стандартам, что вызвано стремлением снизить расходы и упростить инфраструктуру. Традиционно производители платформ для решений высокой доступности держали в своих руках все компоненты, включая RISC-процессоры, серверы, ОС, систему мониторинга, кластерное ПО и сервисы. Это позволяло обеспечить тесную интеграцию на всех уровнях решения. Но в последние десять лет все участники рынка — и пользователи, и производители, и разработчики ПО — все больше внимания обращают на оптимизацию расходов на владение, производство и разработку. RISC-процессоры и коммерческий UNIX сегодня обходятся слишком дорого в силу небольших объемов продаж, разрабатывать и поддерживать ПО под различные версии коммерческого UNIX тоже дороже, чем под Linux, и т. д.

По данным ИТ-аналитиков, в течение последних пяти-семи лет объемы продаж решений на платформах RISC-UNIX снижаются. Довольно четко прослеживается тенденция перехода заказчиков с ландшафта RISC/UNIX на архитектуру х86/Linux по разным причинам — с целью стандартизации инфраструктуры, для снижения стоимости владения, для расширения возможности выбора приложений и т. д. Но это совсем не означает уменьшения потребности в системах высокой доступности. В дополнение к традиционным бизнес-критичным задачам, работающим в окружениях UNIX, все больше приложений под управлением Linux, Windows и VMware входят в разряд критически важных для бизнеса заказчиков. Эти изменения вызваны рядом факторов, таких как изменение стиля ИТ, появление новых технологий — Cloud, Big Data, Mobility. Соответственно назрела необходимость в аппаратно-программной платформе, которая, с одной стороны, обеспечивала бы уровень доступности, соизмеримый с классическими решениями RISC-UNIX, а с другой — базировалась на индустриальном стандарте, в основе которого лежит архитектура x86. Компания HP первой начала движение в этом направлении, результатом которого стал выход на рынок систем Superdome X и NonStop X.

Д. Р.: Данная тенденция в значительной степени обусловлена также увеличением объемов обрабатываемой информации и пропускной способности каналов связи. Набирают популярность реализованные на стандартных компонентах решения по распределенному хранению данных, где отказоустойчивость каждого отдельного компонента уже не так критична. Если в системе хранения задействовано порядка тысячи недорогих серверов, а данные многократно дублируются, обеспечить доступность данных и работоспособность приложений можно даже в случае выхода из строя десятков серверов.

Кроме того, все больше наработок для традиционных систем высокой доступности, включая технологии кластеризации и виртуализации ресурсов, сегодня переносится в стандартные средства (примером могут служить современный функционал VMware vSphere, Microsoft Hyper-V и других систем виртуализации.

Перечень поставщиков аппаратно-программных платформ для построения решений высокой доступности сегодня невелик. Компания HP — один из таких поставщиков. Какое место в ее бизнесе, ориентированном на корпоративных заказчиков, занимают эти платформы?

В. С.: НР — не просто один из игроков на серверном рынке, а бесспорный лидер с учетом сегодняшнего портфеля серверных решений, в том числе и бизнес-критичных. HP-UX, OpenVMS, NonStop, SLES, RHEL, MS Windows — это перечень операционных окружений, под управлением которых НР предлагает свои решения высокой доступности. Можно смело сказать, что решения такого класса всегда являлись основой нашего серверного бизнеса, то, что называется core business. Этому направлению HP уделяет большое внимание, и речь идет не только о серверах, но и обо всем спектре компонентов решений высокой доступности.

В чем заключаются основные преимущества HP в сегменте решений высокой доступности по сравнению с конкурирующими поставщиками?

В. С.: Прежде всего в том, что НР предлагает полный набор компонентов для построения решений любого уровня сложности — серверы, системы хранения, коммутационное оборудование, ПО, средства мониторинга и управления, сервисы различного уровня и направленности, включая финансирование проектов. Это значительно упрощает процессы приобретения, интеграции и последующей поддержки решения в целом, с единой точкой входа для устранения всех возникающих проблем.

Помимо этого НР предлагает самый широкий портфель бизнес-критичных серверных решений. Он включает классические системы Integrity на базе процессора Intel Itanium под управлением ОС HP-UX и OpenVMS (HP Integrity Blades, Superdome 2); высокомасштабируемое решение NonStop на процессорах Itanium со своей операционной системой NonStop Kernal, обеспечивающее максимальный уровень отказоустойчивости и доступности, но уже на программном уровне (любой процесс операционной системы имеет свой бэкап). И, как я уже говорил, с недавних пор у нас появились решения NonStop Х и Superdome X, уже на процессоре Intel Xeon, которые компания IDC относит к категории mission-critical x86.

В случаях, когда заказчику не требуются очень высокие показатели доступности приложений, для их поддержки можно рассматривать и кластерные конфигурации на базе стандартных серверов HP ProLiant и ПО Serviceguard (оно работает и под HP-UX, и под Linux). Но при этом нужно понимать, что любая ошибка, приводящая к остановке сервера, инициирует процедуру восстановления работы приложения на резервном узле, а это уже простои, и часто довольно продолжительные.

Д. Р.: Нужно учитывать, что решения на базе UNIX-систем развиваются на протяжении трех десятилетий и за это время накоплен огромный опыт в работе с ними. Целый ряд предприятий с давних времен используют ОС Open VMS или совсем старые версии HP-UX — они умеют с этим работать, и им нет смысла мигрировать на другую платформу. Там, где требуется высокая отказоустойчивость, масштабируемость и доступность приложения, которое рассчитано на длительный срок службы, выбор в пользу традиционных решений остается предпочтительным в силу их стабильности. Linux-решения делают только первые шаги в данном сегменте, поэтому попытки портировать какие-то решения из мира коммерческого UNIX в Linux-среду не всегда бывают удачными и могут привносить дополнительные риски. Тем не менее сегодня мы видим активное развитие функционала высокой доступности для Linux (например, кластеризации), как коммерческого, так и свободно распространяемого.

Какие предприятия (из каких отраслей) сегодня являются в России основными потребителями решений для построения систем высокой доступности? Как изменился ландшафт этого рынка за последние годы?

В. С.: В целом ландшафт этого рынка практически не изменился. Это крупные организации из тех же отраслей, что и прежде: финансовые компании, государственные структуры, нефтегазовые компании, телекоммуникационные, ритейл — все, кто имеет дело с ресурсоемкими транзакционными нагрузками.

Другое дело, что в связи с переходом на стандартные архитектуры решения становятся дешевле и соответственно доступнее для менее крупных заказчиков из тех же отраслей.

Какие проекты «ИНЛАЙН ГРУП» можно привести в качестве примеров внедрения современных решений высокой доступности? Чем определялся выбор платформы и архитектуры решения в этих проектах?

Д. Р.: Один пример из практики нашей компании — проект в крупном государственном банке, где наша задача состояла в том, чтобы объединить серверы продуктивных баз данных СУБД Oracle одной из критически важных банковских систем в кластер высокой доступности.

Отправной точкой для проектирования архитектуры решения послужил разработанный набор угроз, от которых требовалось защититься. Он включал массу возможных ситуаций, в том числе полный выход из строя стойки с серверами, дисковым массивом и коммутационным оборудованием, после чего кластеризуемое приложение должно быть запущено на втором узле кластера в том же ЦОДе. Это предопределило несколько необычный выбор архитектуры решения — метрокластер для узлов, размещенных в соседних стойках (обычно метрокластер предполагает разнесение узлов на большое расстояние).

Большим плюсом этого решения явилось то, что оно полностью строилось на продуктах одного производителя: в качестве кластерного ПО применен продукт HP Serviceguard совместно с ПО HP Metrocluster with Continuous Access, что позволило построить систему с полным резервированием компонентов комплекса; в качестве вычислительной подсистемы использованы серверы HP Integrity под управлением ОС HP-UX, а в качестве дисковой подсистемы — СХД HP EVA с использованием дополнительного функционала данных СХД — средства аппаратной синхронной репликации данных. Дополнительный функционал по управлению репликацией данных разработан HP для собственного массива, поэтому нативно интегрируется в кластер. И, конечно, надо отметить реализованные в кластерном ПО HP широкие возможности гибкой настройки мониторинга компонентов решения, чему было уделено особое внимание.

Специфика данного проекта заключалась также в том, что серверы приложений работали под Linux в виртуальной среде VMware и для них пришлось отрабатывать технологии взаимодействия обоих узлов кластера с точки зрения репликации данных между массивами и построения уже более сложного решения для гипервизоров среды виртуализации.

Впоследствии подобное решение по построению метрокластеров среды виртуализации было нами применено в проекте с Трубной металлургической компанией (ТМК) для обеспечения надежного функционирования уже не банковских приложений, а общего комплекса виртуализованных инфраструктурных сервисов.

Мы довольно давно работаем с ТМК. В свое время для нее разрабатывали и реализовывали концепцию ЦОД/резервный ЦОД, и решение высокой доступности для поддержки критически важных сервисов, к которым в компании относят в том числе Active Directory, «1С», электронную почту, мы строили как метрокластер между двумя ЦОДами, но для среды виртуализации в целом. В качестве функционала, обеспечивающего катастрофоустойчивость, используется VMware Stretched Cluster, развернутый на функционале VMware vSphere, интегрированном с аппаратными средствами синхронной репликации данных массивов HP StoreServ 7200. В случае аварии сервисы, находящиеся на виртуальной платформе, автоматически перемещаются из основного ЦОДа в резервный.

Здесь все строилось на аппаратной платформе x86, а виртуализация использовалась как способ повышения утилизации ресурсов и обеспечения устойчивой работы сервисов на уровне серверов стандартной архитектуры, которые (это не секрет) гораздо менее устойчивы и надежны, чем специализированное оборудование. Но такая среда была привычной для заказчика, а обеспечиваемые ею показатели доступности сервисов его вполне устроили.

В чем проявляются особенности внедрения и эксплуатации решений высокой доступности? На что следует обращать особое внимание при выполнении таких проектов?

Д. Р.: Всегда нужно помнить, что высокая доступность — это комплекс мер. И все действия, предпринимаемые в рамках этого комплекса, включая организационные, должны быть, во-первых, регламентированы, а во-вторых, отработаны. Кроме того, нужно иметь в виду, что очень сложно реализовать проект, направленный на повышение уровня доступности решения, если оно уже находится в эксплуатации, а необходимость в такого рода проектах возникает нередко.

Заказчики также довольно часто упускают из виду то, что спроектированное и внедренное интегратором решение нужно поддерживать, следить за ним и оперативно реагировать на возникающие проблемы. Причиной таких проблем может стать и сам обслуживающий персонал, если он плохо подготовлен. Поэтому очень важно, чтобы специалисты заказчика привлекались к проекту еще на стадии проектирования решения, чтобы хорошо понимать, что и как будет реализовано, в чьей сфере ответственности будет находиться каждый компонент решения и что каждый будет делать в критических ситуациях. Только в этом случае можно рассчитывать на то, что проектные параметры доступности решения будут обеспечены.

Если же требования к уровню доступности приложений и сервисов особенно высоки, важную роль играет поддержка со стороны вендора. В этом плане HP предоставляет весь необходимый комплекс услуг, включая обучение специалистов партнерских компаний и заказчиков, услуги своих сервисных центров, образующих сегодня развитую сеть по всей стране, а при необходимости и размещение склада с зарезервированными запчастями в непосредственной близи от заказчика, что позволяет оказать ему помощь в заранее оговоренный срок.

СПЕЦПРОЕКТ КОМПАНИИ «ИНЛАЙН ГРУП»