НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Интегрируем Hadoop с ИТ-инфраструктурой, не забывая про SQL

[spoiler]Подходящих решений и в этой сфере уже немало (см. предыдущие посты). С появлением Hadoop 2.0 появилась возможность полноценно работать с ним не как с вещью в себе, а как с системой, для которой достаточно удобно создавать внутренние расширения, и состыковывать с используемыми решениями на самых разных уровнях.

Вот несколько заметных игроков:
- http://www.talend.com/ - опенсорсная студия, позволяющая быстро запустить в действующей инфраструктуре обработку Больших данных -- технология сертифицирована для Amazon EMR, Cloudera, IBM PureData, Hortonworks, MapR, Pivotal Greenplum, Pivotal HD и SAP HANA;
- http://www.informatica.com/ - интересная концепция виртуальной машины данных -- конечно же, «первой на рынке» :) утверждает сайт. Отделяет логику обработки от программно-аппаратных платформ, правда, и стоит под $100 тыс;
- http://www.cirro.com/ - еще одно нечто подобное - «абсолютно универсальное», реалтаймовый доступ к любым данным на любых платформах;
- http://www.kapowsoftware.com/ - инновационная (получила положительные отзывы) интеграционная платформа;
- http://www.syncsort.com/ - тоже, «первая и единственная» Hadoop ETL для Амазона;
- http://www.continuuity.com/ - и снова единственная в своем роде -- в плане полной поддержки жизненного цикла создания и эксплуатации Big Data-проектов;
- http://appfluent.com/ - расширение технологии поддержки жизненного цикла данных на Hadoop;
- http://www.pentahobigdata.com/ - Big Data/ETL/отчеты от Pentaho, для Hadoop и др.

Ну и про SQL забыть невозможно: 100% корпоративных специалистов по БД активно его применяют, и дабы не терять ресурсы на переучивании, можно воспользоваться готовыми сервисами SQL-доступа к Hadoop:
- http://jethrodata.com/ - движок SQL-запросов к Hadoop, который индексирует данные при записи в Hadoop, что позволяет извлекать их в 100 раз быстрее, нежели классические SQL-примочки.

Понимают это и Hadoop-лидеры: так, Cloudera уже давно совершенствует Impala (реалтаймовые запросы разного формата, включая Hive SQL).
Тут же и сервер Big SQL для Hadoop от IBM
http://pic.dhe.ibm.com/infocenter/bigins/v2r1/index.jsp?topic=%2Fcom.ibm.swg.im.infosphere.biginsights.product.doc%2Fdoc%2Fbi_sql_access.html

А Hortonworks, ведущий разработчик Hadoop, в октябре представила движок Apache Hive (SQL-in-Hadoop) 0.12, развиваемый в рамках стратегии Stinger http://hortonworks.com/labs/stinger/ - Speed, Scale and SQL Compatibility with Apache Hive -- стократное ускорение SQL-запросов на петабайтных объемах.
http://hortonworks.com/blog/announcing-apache-hive-0-12/

Но самое главное - это ее стратегический анонс Hortonworks Data Platform (HDP) 2.0,
http://hortonworks.com/press-releases/hortonworks-ecosystem-supports-release-of-hortonworks-data-platform-2-0/
где перечислены сильнейшие в инновационном плане игроки в нише Hadoop, которые будут развивать эту платформу дальше.
Как минимум один из них заслуживает особого внимания, а кто это и что в нем особенного, выясним в понедельник.