На это было обращено внимание участников состоявшегося на прошлой неделе III Евразийского CIO конгресса “Российские просторы” (“CIO Конгресс 2013”). “Всего 20 лет назад (в 1993 г.) жесткий диск емкостью 360 Мб стоил 1500 долл., -- напомнил собравшимся Тенгиз Хухашвили (заместитель генерального директора компании CompuTel System Management, член Программного комитета “CIO Конгресса 2013”). – Теперь же диск емкостью 360 Гб можно приобрести менее чем за 1500 рублей”. Получается, что за 20 лет цена мегабайта данных, хранимых на жестком диске, уменьшилась примерно в 30 тысяч раз! К тому же, чем больше емкость диска, тем ниже (порой, в разы), стоимость единицы его объема.
Одним словом, хранить “Большие данные” (Big Data) теперь может позволить себе практически любое юридическое лицо, бизнес которого весьма зависим от уровня используемых информационных технологий (ИТ) и архитектуры ИТ-инфраструктуры.
Но что делать с огромными потоками данных, поступающих из различных источников (включая блоги, публикации в СМИ, информацию из соцсетей и т. д.)? Как их в реальном времени анализировать? C быстрой обработкой структурированных данных (то есть данных, понимаемых различными СУБД) принципиальных проблем не возникает. А вот как быть с неструктурированными данными? Превращать их в структурированные? Но это не выход. Выход, как известно, тут один – использование технологий Big Data. Однако соответствующие платформы пока есть (см, например, здесь) лишь для крупных предприятий. Причем для каждой конкретной корпорации эти платформы (дабы превратиться в действующий продукт) нуждаются в весьма серьезной доработке с привлечением очень высококлассных и, стало быть, очень дорогостоящих специалистов.
К сожалению, тиражного продукта, доступного по цене даже СМБ-предприятию, но пригодного для обработки “маленьких больших данных” (такое словосочетание употребил в своем выступлении один из участников “CIO Конгресса 2013” в рамках секции “Современные способы обработки информации”) пока нет.
А может, такого рода продукт уже есть или хотя бы разрабатывается (ведь где спрос, там и предложение)? Кто знает?
НАверное, СМБ могут хранить свои данных в больших объемах (только не понятно, зачем), но обрабатывать они их в видимой перспективе точно не будут.
Равно как и весьма условна граница между средними и крупными компаниями – дело ведь не только в количестве автоматизированных рабочих мест и объемах выручки.
К тому же есть очень ИТ-зависимые компании и практически ИТ-независимые компании…
http://www.pcweek.ru/idea/blog/idea/2833.php
Интерфейс Google BigQuery Ingestion API позволит загружать десятки гигабайтов за 15-20 минут (сотню гигов можно будет анализировать бесплатно).