Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Блог

Как анализировать большие данные

Не задан ID пользователя.

06.06.201110:2406.06.2011 10:24:09

С экстремально растущими корпоративными данными больших объемов (так называемыми Big Data) надо что-то делать. Общие рекомендации McKinsey Global Institute были приведены в посте "Оцифровывать всë!", а теперь посмотрим, какие же конкретно технологии возможно задействовать для анализа пета- (а скоро уже и экза-) байтных массивов информации.

[spoiler]Для этого воспользуемся подсказкой от IBM, которая на днях инвестировала 100 млн долл в программы анализа петабайтных данных -- причем, что важно, не только удобно организованных (ведь сегодня не структурированы 80% корпоративных сведений), и в развитие двух десятков сервисов по этому направлению.

Система IBM InfoSphere BigInsights представляет многолетний плод труда сотен ученых по совершенствованию открытой системы Apache Hadoop для хранения и параллельной обработки петабайтных данных. InfoSphere BigInsights дополняет ее технологиями "умного" анализа разнотиповой информации (видео, содержимое социальных сетей, изображения), которые задействованы, в частности, в комплексе IBM Watson, побеждающего людей в интеллектуальном шоу Jeopardy.
Бесплатную базовую версию BigInsights можно скачать тут.

Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:
-- jaspersoft.com;
-- Revolution Analytics (на базе языка R для мат.статистики);
-- Map/Reduce tools;
-- Pig!;
-- Chukwa;
-- Hive.

Не задан ID пользователя.

06.06.201110:2406.06.2011 10:24:09

Просмотров:7940 Комментариев:2

Теги: Big Data, Business Intelligence

Колесов Андрей

Колесов Андрей 6 июня 2011 10:43

Я месяц назад был на конференции EMC World 2011, где как раз в центре внимания было тема "Больших объемов данных". И что делать с ними.

По итогам написан ряд статей и постов, последняя статья опубликовалась как раз в эту пятницу: http://www.pcweek.ru/themes/detail.php?ID=131722

Надо сказать, что подход "хранить все" - это не решение проблемы. Чисто технически такой вариант выглядит привлекательно и в целом реализуем (проще хранить все, не тратя время на раздумывания - что нужно, а что не нужно). Но на самом деле такой подход создает уже в недалеком будущем серьезные проблемы.

Все же хранить нужно не все, а то, что нужно...

Ещё

Митин Владимир

Митин Владимир 8 июня 2011 22:09

Заниматься чисткой информационных “авгиевых конюшен” экономически невыгодно

Недавно довелось побывать на крупномасштабном клиентском мероприятии, где в ответ на чей-то вопрос с высокой трибуны была высказана интересная мысль: “Объем накопленных данных экспоненциально растет не столько потому, что в них есть какая-то необходимость, cколько потому, что стремительно дешевеют cистемы хранения этих данных и заниматься чисткой информационных “авгиевых конюшен” становится экономически невыгодно. Проще и дешевле приобрести новую СХД”.

Ещё