НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Как анализировать большие данные

С экстремально растущими корпоративными данными больших объемов (так называемыми Big Data) надо что-то делать. Общие рекомендации McKinsey Global Institute были приведены в посте "Оцифровывать всë!", а теперь посмотрим, какие же конкретно технологии возможно задействовать для анализа пета- (а скоро уже и экза-) байтных массивов информации.

[spoiler]Для этого воспользуемся подсказкой от IBM, которая на днях инвестировала 100 млн долл в программы анализа петабайтных данных -- причем, что важно, не только удобно организованных (ведь сегодня не структурированы 80% корпоративных сведений), и в развитие двух десятков сервисов по этому направлению.
 
Система IBM InfoSphere BigInsights представляет многолетний плод труда сотен ученых по совершенствованию открытой системы Apache Hadoop для хранения и параллельной обработки петабайтных данных. InfoSphere BigInsights дополняет ее технологиями "умного" анализа разнотиповой информации (видео, содержимое социальных сетей, изображения), которые задействованы, в частности, в комплексе IBM Watson, побеждающего людей в интеллектуальном шоу Jeopardy.
Бесплатную базовую версию BigInsights можно скачать тут.


Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:
-- jaspersoft.com;
-- Revolution Analytics (на базе языка R для мат.статистики);
-- Map/Reduce tools;
-- Pig!;
-- Chukwa;
-- Hive.
Колесов Андрей
Я месяц назад был на конференции EMC World 2011, где как раз в центре внимания было тема "Больших объемов данных". И что делать с ними.

По итогам написан ряд статей и постов, последняя статья опубликовалась как раз в эту пятницу: http://www.pcweek.ru/themes/detail.php?ID=131722

Надо сказать, что подход "хранить все" - это не решение проблемы. Чисто технически такой вариант выглядит привлекательно и в целом реализуем (проще хранить все, не тратя время на раздумывания - что нужно, а что не нужно). Но на самом деле такой подход создает уже в недалеком будущем серьезные проблемы.

Все же хранить нужно не все, а то, что нужно...
Митин Владимир
Заниматься чисткой информационных “авгиевых конюшен” экономически невыгодно

Недавно довелось побывать на крупномасштабном клиентском мероприятии, где в ответ на чей-то вопрос с высокой трибуны была высказана интересная мысль: “Объем накопленных данных экспоненциально растет не столько потому, что в них есть какая-то необходимость, cколько потому, что стремительно дешевеют cистемы хранения этих данных и заниматься чисткой информационных “авгиевых конюшен” становится экономически невыгодно. Проще и дешевле приобрести новую СХД”.