В связи с ростом объема данных, накопленных на предприятиях, растет внимание к технологиям потоковой обработки данных и доступа к ним в реальном времени, таким как распределенная система потокового обмена сообщениями Apache Kafka.

По данным недавно проведенного опроса, 88% респондентов собираются к 2017 г. использовать Apache Kafka в своей инфраструктуре данных и приложений. При этом порядка трети респондентов работают в компаниях с оборотом более миллиарда долларов.

Эти результаты были объявлены на первом саммите, посвященном Apache Kafka, который провела компания Confluent — дистрибутор этой Open Source-системы. Технология Apache Kafka была создана компанией LinkedIn для управления огромным массивом данных, поступающих от ее социальной сети, а затем передана в фонд Apache Foundation. Для продвижения этой технологии в 2014-м была основана компания Confluent, которую возглавили разработчики Kafka.

«Мы видим, что все больше организаций интересуются потоковой обработкой и доступом к данным в реальном времени, а Kafka находится в самом центре этого сдвига», — сказал Джей Крепс, главный исполнительный директор Confluent. Он привел в качестве доказательства результаты вышеупомянутого опроса, в котором приняли участие более 100 человек из 20 стран и 16 отраслей, включая банковские и финансовые услуги, телекоммуникации, промышленность и автомобилестроение.

Оказалось, что 72% респондентов используют Kafka для потоковой обработки входящих данных, а 68% собираются расширить применение потоковой обработки в ближайшие 6 −12 месяцев. Предприятия применяют эту технологию в самых разных прикладных областях, таких как мониторинг приложений, механизмы принятия решений, средства защиты и обнаружения мошенничества, Интернет вещей, динамическое ценообразование.

Как отмечает Gartner, сейчас пользователи Big Data-проекта Apache Hadoop поворачиваются в сторону «данных в движении» (data-in-motion) и доступа к ним в реальном времени. Apache Kafka является одним открытых проектов, цель которого — удовлетворить эти запросы. Не случайно эту технологию поддерживают четыре из пяти дистрибуторов Hadoop (Cloudera, Hortonworks, IBM и Amazon). Пятый дистрибутор — MapR — хоть и не поддерживает Kafka официально в своем пакете, анонсировал на саммите новую бесплатную программу обучения для разработчиков по организации связи между их платформами и Apache Kafka.

Кроме того, на саммите компания Striim, продвигающая платформу для интеллектуальной обработки данных и сквозной потоковой интеграции, объявила о партнерстве с Confluent, направленном на то, чтобы заказчики могли организовать управляемый, надежный и безопасный доступ реального времени к корпоративным базам данных.

Растет и количество технологий, совместимых с Apache Kafka. На саммите было представлено более десятка новых коннекторов с самыми разными системами, включая HDFS, JDBC, Cassandra и S3.

Проект Apache Kafka, созданный в 2011-м, постепенно становится все более зрелым. По словам Джея Крепса, при этом большое внимание уделяется совместимости с предыдущими версиями: приложения, построенные несколько лет назад, продолжают работать несмотря на постоянное расширение функционала системы.