НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Отменная корпоративная аналитика за одну минуту

В кулуарах корпоративной тусовки, организованной консалтинговой фирмой Ovum для своих клиентов под теплым австралийским солнышком, обсуждения платформы Hadoop сводились в основном к двум моментам: во-первых, это единичные успешные проекты, которые были реализованы очень грамотными собственными сотрудниками, имеющими, например, опыт программирования BI-приложений на такой пока экзотике, как язык R, и при этом хорошо понимающие принципы построения не менее экзотических систем наподобие http://mesos.apache.org/ -- менеджера для динамического управления изолированными ресурсами через распределённые фреймворки(!), от Hadoop до Spark (к последней системе мы еще вернемся). А во-вторых, подавляющее большинство клиентов либо ждут комфортных и дружелюбных коммерческих оболочек для Hadoop, либо продолжают поверхностно ковырять свои авгиевы конюшни корпоративных данных унылым SQL-ем.

[spoiler]Подобный разрыв между радужными выступлениями на октябрьской конференции HadoopWorld 2013, где одних лишь спонсоров насчитывалась сотня! (BI, интеграция, безопасность, middleware), и практически полным игнорированием массовым рынком технологии Hadoop, во второй своей недавней реинкарнации представшей уже весьма зрелой, конечно, удивляет. Похоже, что наблюдения экспертов Ovum попали в точку: пока Hadoop остается слишком сложной системой (ну или считается таковой «по старинке»), и инвестировать в ее развертывание в ожидании непонятных результатов пока особо никто не хочет.

Соответственно, на Hadoop-рынке можно ожидать активизации двух направлений: выпуск удобных и простых коммерческих решений, связанных с Hadoop, и предоставление облачных версий для «попробовать быстро и по дешевке». Так, SAS реализовала поддержку Hadoop в своем скоростном сервере-в-памяти LASR Analytic Server, и вдобавок выпускает собственные аналитические расширения для «чистого» Hadoop (точнее, для MapReduce). В подобном направлении двинули и другие BI-вендоры, пока тоже достаточно осторожно инвестируя в Hadoop: так, практически все поставщики хранилищ данных предлагают либо выполнение SQL-запросов в пакетном режиме Hadoop, либо выпускают патчи для Hadoop под интерактивное выполнение SQL. Интеграцию SQL-хранилищ в рамках HBase или даже непосредственно на базе файловой системы HDFS предлагают Hadapt, Pivotal, Slice Engine. И даже Facebook выпустил на днях опенсорсную скоростную СУБД RocksDB, которая может напрямую работать с данными в памяти, на жестком диске, флеше, или в HDFS. Построена она, что интересно, на базе Google LevelDB, но конечно же, инженеры фейсбука ее обругали как только можно -- дескать, система Гугля никудышна в сравнении с нашими потребностями (см. на  http://rocksdb.org/).

Однако возможности SQL удовлетворяют уже далеко не всех активных пользователей Hadoop, и под их интересы оперативно подстраиваются организационно гибкие фирмы. Кластеризация, деревья решений, временные ряды, семантический анализ -- эти недоступные SQL-ю вещи начинают постепенно пользоваться реальным спросом!

Порекомендую:
- http://www.datameer.com/ (наличие правильной HTML5-видеопрезенташки, не требующей флеша, говорит о многом). Отменный, кстати, ролик, где за минутку показывается, что такое современная BI, и почему это реально просто!
- http://www.platfora.com/ - visual self-service Big Data Analytics;
- http://www.clearstorydata.com/ - мощная аналитика внутренних и внешних данных с предоставлением публичных интеграционных API;
- http://www.skytree.net/ - куча математики с особым акцентом на машинном обучении систем с миллиардами узлов;
- http://0xdata.com/ - опенсорсный прогностический движок машинного обучения, для скорости развернутый на Hadoop.

Далее посмотрим, как защищать и интегрировать Hadoop в действующей ИТ-инфраструктуре, а также попробуем заглянуть за горизонт Hadoop -- а что будет дальше? ведь и у Hadoop есть пределы.