НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Как рождаются Большие данные?

Потребность в Big Data объясняется сегодня "взрывным ростом объемов корпоративной информации", но если исключить из этого объема видео-аудио, то реальные "размеры", прежде всего текстовые данные и сопроводительные изображения, окажутся совсем не такими и внушительными. Например, объем пресловутой библиотеки Конгресса США не превышает двух десятков терабайтов. "Сгенерировать" за сутки мегабайт оригинальных текстов-документов не так просто даже самой крупной организации, но тогда на одном гигабайте диска можно уместить трехлетний архив работы организации. И где же они, эти Большие данные?

[spoiler]Ситуацию комментирует Russell Richardson, ведущий архитектор облачных систем армии США (надеюсь, что доживу до времени, когда можно будет сослаться на аналогичную должность российского специалиста). Реализуемые им проекты активно используются в военной разведке, и вот что Richardson говорит по этому поводу: "если мы возьмем все накопленные за последние 50 лет разведывательные данные, то они все уместятся на диске объемом 500-600 гигабайтов".

Но вот после того, как над этим массивом информации потрудились аналитики, проиндексировали все мало-мальски значимые вещи, по всей видимости, создав некую вики и быстрый многофункциональный поиск, результирующая БД заняла уже несколько петабайтов!

То есть пока данные "сырые", для их хранения и предварительной обработки достаточно классических технологий. А вот как только потребуется развитая аналитика, без Big Data уже сложно обойтись.
Сергей Бобровский
Да, еще в телекоме, финансах, OLTP разных наверняка объемные транзакционные базы. В контексте поста конечно корректнее говорить о классическом документообороте, слабо структурированном.
Илья Дуров
Можно взять файл размером, скажем, 200 килобайт, исправить пару опечаток и сохранить под новым именем.
Получим плюс несколько байт новой информации, и плюс 200 килобайт в хранилище.
Можно хранить транзакцию в виде небольшого набора сумм и номеров счетов, а можно в виде файла платежного документа, или скана (картинки!) бумажной платежки. И это уже мегабайты дополнительной информации.
По сути мы храним много чего просто так, на всякий случай.
Загляните в свою рабочую почту - сколько хранится там писем? 99%  из них ни Вы сами, ни, тем более, кто-то еще никогда не откроет и не прочитает. Это Архив! Но это и вечно растущие гигобайты информации...  
Сергей Бобровский
У военных эти полтерабайта хоть немного, но нормализованы, минимальной метаинформацией сопровождены. Конечно, не 3нф, но все же... А то, что часто на наших ПК творится, да, без хорошего искусственного интеллекта сложно разобраться.