Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Блог

Как рождаются Большие данные?

Не задан ID пользователя.

22.03.201210:5022.03.2012 10:50:26

Потребность в Big Data объясняется сегодня "взрывным ростом объемов корпоративной информации", но если исключить из этого объема видео-аудио, то реальные "размеры", прежде всего текстовые данные и сопроводительные изображения, окажутся совсем не такими и внушительными. Например, объем пресловутой библиотеки Конгресса США не превышает двух десятков терабайтов. "Сгенерировать" за сутки мегабайт оригинальных текстов-документов не так просто даже самой крупной организации, но тогда на одном гигабайте диска можно уместить трехлетний архив работы организации. И где же они, эти Большие данные?

[spoiler]Ситуацию комментирует Russell Richardson, ведущий архитектор облачных систем армии США (надеюсь, что доживу до времени, когда можно будет сослаться на аналогичную должность российского специалиста). Реализуемые им проекты активно используются в военной разведке, и вот что Richardson говорит по этому поводу: "если мы возьмем все накопленные за последние 50 лет разведывательные данные, то они все уместятся на диске объемом 500-600 гигабайтов".

Но вот после того, как над этим массивом информации потрудились аналитики, проиндексировали все мало-мальски значимые вещи, по всей видимости, создав некую вики и быстрый многофункциональный поиск, результирующая БД заняла уже несколько петабайтов!

То есть пока данные "сырые", для их хранения и предварительной обработки достаточно классических технологий. А вот как только потребуется развитая аналитика, без Big Data уже сложно обойтись.

Не задан ID пользователя.

22.03.201210:5022.03.2012 10:50:26

Просмотров:3766 Комментариев:5

Теги: Big Data

Предыдущие комментарии (2)

Сергей Бобровский

Сергей Бобровский 22 марта 2012 16:00

Да, еще в телекоме, финансах, OLTP разных наверняка объемные транзакционные базы. В контексте поста конечно корректнее говорить о классическом документообороте, слабо структурированном.

Ещё

Илья Дуров

Илья Дуров 23 марта 2012 00:16

Можно взять файл размером, скажем, 200 килобайт, исправить пару опечаток и сохранить под новым именем.
Получим плюс несколько байт новой информации, и плюс 200 килобайт в хранилище.
Можно хранить транзакцию в виде небольшого набора сумм и номеров счетов, а можно в виде файла платежного документа, или скана (картинки!) бумажной платежки. И это уже мегабайты дополнительной информации.
По сути мы храним много чего просто так, на всякий случай.
Загляните в свою рабочую почту - сколько хранится там писем? 99% из них ни Вы сами, ни, тем более, кто-то еще никогда не откроет и не прочитает. Это Архив! Но это и вечно растущие гигобайты информации...

Ещё

Сергей Бобровский

Сергей Бобровский 23 марта 2012 10:45

У военных эти полтерабайта хоть немного, но нормализованы, минимальной метаинформацией сопровождены. Конечно, не 3нф, но все же... А то, что часто на наших ПК творится, да, без хорошего искусственного интеллекта сложно разобраться.

Ещё