НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Think small

Станут ли Большие данные Маленькими?

[spoiler]Как недавно отмечалось, рынок Hadoop/NoSQL составляет сегодня 540 млн. долл. и вырастет через пять лет до 3,5 млрд. долл. Какая-то заметная-значимая активность происходит на этом рынке практически каждый день. Так, Tableau, известная своими мощными средствами визуализации для задач бизнес-аналитики (что на рабочем столе, что в облаках), подключает к своим сервисам ETL-платформу фирмы Syncsort, основанную на Hadoop. Проявляя умную инициативу с прицелом на clouds и мобильность, Tableau, присутствующая на рынке далеко не первый год, за последние 12 месяцев повысила свою стоимость на 43%.

Однако на таком оптимистичном фоне довольно громко раздаются и возгласы оппонентов мэйнстримовским трендам. Allen Bonde, бывший консультант McKinsey, затеял неплохой оппозиционный бизнес, создав ресурс Small Data Group, объединяющий всех, кто заинтересован в эволюционном переходе от крупнобюджетных проектов Больших данных и масштабных маркетинговых кампаний соответствующих мега-сервисов к вирусному маркетингу, стилю коротких твит-общений, компактному содержанию и Малым данным, точечно решающим конкретные задачки.

Будущее, полагает Rufus Pollock, основатель лондонского фонда Open Knowledge Foundation, не за централизованными Огромными дата-структурами, а за децентрализованными локальными «пастбищами данных», и очередная ИТ-революция случится именно благодаря Small data.
http://blog.okfn.org/2013/04/22/forget-big-data-small-data-is-the-real-revolution/

Его фонд провозглашает «We make tools and insights using open data, open content and open code», но если почитать этот ресурс повнимательнее, то окажется, что рассказывается на нем как раз про технологии Big Data -- только в своеобразном стиле минимализма и простоты.

Как минимум, понятна причина возникновения подобных веяний: проекты Big Data, как и все крупные корпоративные проекты, по-прежнему характеризуются высоким уровнем неудач: нескончаемые перерасходы бюджетов и срывы сроков. А спрос на соответствующие решения для организационных нужд остаётся очень высоким -- например, компаниям нужны сведения о продажах и эффекте от маркетинга в реальном времени. В качестве примера Бонд приводит Hubspot Signals -- формирование для сейлов немедленного фидбека по активности клиентов (чтение ими э-рассылки или лайки на фейсбуке), а также грамотные системы продажи транспортных и туристических сервисов, которые показывают изменение цен на услуги в реальном времени.

Вот например набор открытых проектов, реализующих на практике подход Small Data, на которые ссылаются апологеты Малых данных. Созданы усилиями лаборатории The Open Knowledge Foundation Labs, легковесны и просты в установке и эксплуатации. Только к сожалению, половина выполнены «на коленке», по-дилетантски, что свойственно большинству подобных самодеятельных начинаний...
Конкретные ссылки на github -- на страничке лаборатории http://okfnlabs.org/projects/

Data Explorer -- среда визуализации и раскопки данных в браузере, таблицы-графики-карты, с помощью простого JS-скрипта.

ReclineJS -- библиотека для построения браузерных приложений обработки данных на «чистом» JavaScript, на которой, в частности, базируется Data Explorer. Дриллдауны, таймлайнеры, картография, поиск, итд.

BubbleTree -- интерактивная визуализация иерархических данных.


Далее попробуем понять, как же конкретно Small data внесут обещанные революционные изменения и улучшат качество повседневной жизни обычного человека, каждого из нас.