В 2011 г. рост рынка хранилищ продолжился, утверждает аналитическая компания Gartner в отчете, оформленном в формате “магического квадранта”. Аналитики объясняют это тем, что предприятия практически всех отраслей уделяли большое внимание хранилищам, чтобы за счет анализа информации повысить эффективность бизнеса. В 2010-м рынок СУБД вырос почти на 10% по сравнению с 2009-м до 20,7 млрд. долл., и хотя данных за 2011-й Gartner не приводит, но считает, что именно востребованность хранилищ подстегнула спрос на СУБД.

Новые веяния

Рынок хранилищ данных существует уже более 20 лет, но сейчас на нем происходят серьезные перемены, вызванные изменением запросов пользователей. Аналитикам даже пришлось внести изменения в само определение хранилища.

К таким системам теперь относятся базы данных, в которых два или более отдельных источника могут быть интегрированы в единый меняющийся во времени репозиторий. При этом применяется гибкая логическая модель, позволяющая добавлять новые источники данных без существенных изменений всей системы, и предусмотрена поддержка виртуализации и средства обработки массивов данных типа Big Data, такие как технология MapReduce.

Начиная с прошлого года, более важную роль играет не размер хранилища, а характеристики доступа к информации: простота получения данных, их пригодность для конкретного использования. Так, проведенный Gartner опрос показал, что некоторые предприятия применяют хранилища объемом более 100 Тб, при этом в репозитории хранится менее 30 Тб, а остальные данные распределены по самым разным источникам.

В результате в 2011-м в создании хранилищ данных начался сдвиг от традиционной модели на базе единого репозитория к новой структуре, основанной на скоординированной обработке информации и семантике ее доставки. Gartner называет такой класс систем логическими хранилищами данных (Logical Data Warehouse, LDW). Это — комбинация репозиториев, систем виртуализации данных и распределенной обработки, а также метаданных для системного аудита, показателей уровня обслуживания (SLA) и механизмов принятия решения, предназначенных для выбора из доступных средств доставки наиболее подходящего с точки зрения SLA и результатов аудита данных.

Судя опросу пользователей, с осени 2010 г. до конца 2011-го число внедрений отдельных элементов логических хранилищ выросло с нуля до 15% от общего числа хранилищ. По прогнозу Gartner, в течение нынешнего года этот показатель вырастет до 25%, но лишь немногие заказчики реализуют LDW полностью. И хотя традиционные хранилища будут оставаться наиболее популярным решением по крайней мере в течение ближайших двух лет, к 2014-му распространение LDW постепенно изменит ситуацию на рынке хранилищ. Именно в этом направлении движутся некоторые такие игроки, как EMC/Greenplum, HP/Vertica, ParAccel и SAP/Sybase.

Аппаратно-программные решения для хранения продолжают пользоваться спросом, но их главным минусом респонденты Gartner считают недостаточную гибкость оборудования. Видимо поэтому, несмотря на то что они уже давно присутствуют в продаже, на них приходится менее 15% рынка информационных хранилищ. Правда, учитывая, что многие их пользователи выполняют обновление и модификацию своих решений каждые пять-семь лет, аналитики ожидают в 2012—2013 гг. оживление в сегменте аппаратно-программных решений.

Поскольку в сложных экономических условия предприятия, стараясь выделиться на фоне конкурентов, стали уделять больше внимания хранилищам данных, строя на них стратегию управления информацией и бизнес-анализа, вырос спрос на профессиональные услуги в этой области. Аналитики отметили эту тенденцию еще в 2010-м. С тех пор ведущие игроки повысили качество и спектр услуг, либо купив консалтинговые компании, либо собрав передовые методики у своих внедренцев и партнеров и создав на их основе корпоративные стандарты. Это принесло плоды. Многие респонденты Gartner отметили, что помощь со стороны квалифицированных профессионалов дает положительный эффект.

Рост спроса на бизнес-анализ в 2011-м открыл дорогу на рынок хранилищ новым игрокам, продвигающим СУБД класса noSQL. На их основе создаются хранилища, больше напоминающие системы управления контентом, чем реляционные БД.

Перемены у игроков

Новые тенденции привели к изменениям у поставщиков. В последнее время многие из компаний, которые Gartner причисляла к “провидцам”, были куплены мегавендорами (IBM/Netezza, HP/Vertica, SAP/Sybase, EMC/Greenplum, Terradata/Aster Data). В результате независимым производителям оборудования приходится искать новых партнеров для продвижения своих продуктов. Это повышает шансы небольших поставщиков хранилищ найти свою нишу на рынке, став партнером таких производителей.

Эти перемены отразились на составе игроков, которые Gartner включила в “магический квадрант” (см. рисунок). По сравнению с прошлогодним отчетом добавилась компания Exasol (Германия), продвигающая СУБД EXASolution с поколоночным хранением данных в оперативной памяти. Три компании выпали: Illuminate из-за недостаточного количества информации (отзывов пользователей, планов развития продуктов и стратегии работы на рынке), а Aster Data Systems и Vertica Systems — они были куплены фирмами Teradata и HP соответственно. Что касается Ingres, то она осталась, но поменяла название на Actian.

Кроме того, если сравнить квадранты лидеров за прошлый год и за этот, можно заметить, что позиции большинства игроков сместились вниз. Gartner объясняет это появлением новых запросов пользователей. В результате рынок хранилищ данных меняется и поставщикам приходится приспосабливаться к новым условиям.

Этим сейчас и занимаются лидеры рынка. Так, Teradata, на протяжении многих лет неизменно занимающая в исследовании Gartner первое место, значительно расширила свой портфель в результате покупки Aster Data, дополнив свои решения средствами поддержки технологии MapReduce, неструктурированных данных и анализ графов. Кроме того, Teradata добавила к своей базовой СУБД поддержку технологии bi-temporal и улучшенные средства сжатия данных. Однако в отчете Gartner говорится, что респонденты считают основным недостатком платформы Teradata ее высокую стоимость.

Oracle предлагает несколько продуктов для создания хранилищ, позволяя заказчиками либо построить свое специализированное хранилище, либо воспользоваться сертифицированной конфигурацией, либо приобрести заранее сконфигурированное программно-аппаратное решение Exadata, которое сейчас поставляется в трех вариантах: для хранилищ данных/смешанной рабочей нагрузки, для облачных вычислений и для расширения емкости систем хранения данных. Как отмечают аналитики, нынешний год будет иметь решающее значение для проверки успешности программно-аппаратной стратегии Oracle, которую компания реализует уже три года.

IBM выпускает автономную СУБД InfoSphere Warehouse и программно-аппаратные решения — Smart Analytics Systems и Netezza. Система InfoSphere Warehouse поддерживает платформы Unix, Linux, Window и z/OS. В прошлом году IBM начала продвигать новаторские подходы, такие как логические хранилища данных. Но, судя по результатам опроса Gartner, заказчики еще не готовы к отказу от традиционных систем. Кроме того, они сообщили о перемежающихся и нерегулярных проблемах, возникающих при внедрении продуктов или их использовании, но отметили эффективность службы IBM поддержки в решении этих вопросов.

EMC предлагает продукты Greenplum, включая СУБД для обработки данных с использованием массового параллелизма, которая работает на Linux и Unix. Систему, которая продается отдельно или в составе программно-аппаратного решения, уже применяет более 400 заказчиков. Но Gartner полагает, что когда EMC повысит ее мощность, может столкнуться с серьезной конкуренцией со стороны ведущих игроков рынка хранилищ — IBM, Oracle, SAP и Teradata, у которых более сильные позиции и гораздо более обширная клиентская база.

Хотя SAP и ее подразделение Sybase продвигают несколько СУБД, аналитики сосредоточили внимание на системе Sybase IQ — первой СУБД с поколоночным хранением данных, которая является основным продуктом SAP-Sybase для организации хранилищ. В последней версии появилась поддержка анализа данных типа Big Data, ускорения загрузки, распараллеливания запросов по нескольким процессорам, интегрированного текстового поиска и анализа, а также встроенные в базу данных функции углубленного анализа данных. По мнению Gartner, недостатком Sybase IQ является отсутствие программно-аппаратного решения. Хотя Sybase пытается заполнить этот пробел за счет соглашений со сторонними провайдерами услуг, эти усилия пока не оправдались. Но поскольку SAP поддерживает идею аппаратно-программного решения, продвигая систему SAP HANA, аналитики полагают, что вскоре компания распространит такой подход и на Sybase IQ.

Microsoft предлагает для организации хранилищ системы SQL Server 2008 DBMS Business Data Warehouse и Fast Track Data Warehouse. В конце 2010-го компания выпустила аппаратно-программное решение SQL Server 2008 R2 Parallel Data Warehouse. Как отмечает Gartner, некоторые респонденты из числа пользователей Microsoft сообщили о проблемах, связанных с масштабированием в grid-сетях, снижением производительности при сложных запросах, ручной перенастройкой индексов баз данных и др. Эти заказчики считают, что Microsoft предлагает все необходимые компоненты решения, но их трудно собрать вместе и быстро запустить в работу. Однако, по их мнению, соотношение цена/производительность компенсирует эти недостатки.

Советы пользователям

Рынок хранилищ данных очень сложный, он включает и зрелые, и инновационные продукты. При выборе подходящего решения важно учитывать, что практически все СУБД, предназначенные для организации хранилищ данных, обеспечивают пакетную загрузку и загрузку больших массивов данных, базовые средства формирования отчетов и основной функционал оперативного анализа (OLAP). Но помимо таких традиционных возможностей эти продукты могут поддерживать углубленный анализ данных (data mining), операционную бизнес-аналитику, средства обработки в реальном времени и др.

Поскольку в различных организациях уровень вычислительной нагрузки, типы данных и требования к хранилищам сильно различаются, очень важно провести предварительную оценку пригодности платформы для выполнения конкретных запросов и требований.

Gartner подчеркивает, что необходимо не только проводить предварительное тестирование платформы (proof of concept), но и проверять, как она справляется с теми видами вычислительной нагрузки, которые свойственны данному предприятию. При этом аналитики рекомендуют заказчикам выполнять оценку непосредственно на собственном предприятии с использованием своих данных. Это позволит не только определить пригодность платформы, но и оценить, насколько быстро можно ее внедрить и настроить.

Заключение: самое интересное впереди

Хранилища данных прошли длинный путь эволюции и превратились из простых информационных складов в развитую аналитическую инфраструктуру, поддерживающую операционную аналитику, управление производительностью и другие новые прикладные области, такие как выявление мошенничества в реальном времени, персонализация взаимоотношений с потребителями, поддержка эксплуатационных технологий (потоковая обработка данных с интеллектуальных датчиков) и т. д.

Новая аналитическая инфраструктура представляет собой комбинацию сервисов, платформ, репозиториев, метаданных и методов оптимизации, которые согласованы между собой. Концепция единого огромного хранилища, управляющего информацией для всех типов аналитической обработки, постепенно сдает позиции, и к 2017-му появится новая инфраструктура, включающая сильно распределенные процессы и информационные ресурсы.

По мнению Gartner, в таких условиях игрокам рынка хранилищ данных нужно дифференцировать свои решения, чтобы укрепить положение и приготовиться к “великой битве”, которая, предположительно начнется в конце 2013-го и приведет к переделу рынка.