6 июля EMC, крупнейшая корпорация в области хранения данных, объявила о намерении приобрести частную фирму Greenplum, выпускающую ПО для хранилищ данных и корпоративные аналитические инструменты, которые рядовые пользователи могут без посторонней помощи применять при облачных вычислениях.

Условия сделки, предусматривающей оплату наличными, не раскрываются, но EMC заявила, что ожидает ее завершения в сентябре.

Greenplum, для которой основными клиентами являются предприятия с большими объемами хранящихся в облаке данных, станет основой нового подразделения, занимающегося обработкой данных в рамках развиваемого в EMC направления информационной инфраструктуры, сообщил еженедельнику eWeek Чак Холлис, вице-президент EMC и главный технолог глобального маркетинга.

“Секретный рецепт” SG Streaming (Scatter/Gather Streaming) компании Greenplum, применяющей массово-параллельную обработку, используется для устранения узких мест при загрузке данных. Для этого Greenplum прибегает к параллельной обработке везде, где только можно. Потоки данных из одного или нескольких источников направляются каждому узлу базы данных.

Производительность ПО Greenplum в 10-100 раз превышает производительность традиционного ПО баз данных, заявила EMC. В настоящее время многие компании, для которых данные являются основой бизнеса (такие как NASDAQ OMX, NYSE Euronext, Skype, Equifax, T-Mobile и Fox Interactive Media), применяют ПО Greenplum для высокопроизводительной аналитики в облаках.

Технология Greenplum отличается от традиционных способов массовой загрузки данных, используемых большинством производителей популярных СУБД и устройств для массово-параллельной обработки, которые извлекают данные из единственного источника и передают нередко по единственному или по небольшому числу параллельных каналов. При этом могут возникать (и часто возникают) узкие места, что увеличивает время загрузки.

“В таких хранилищах данных всегда есть узкое место. Им могут быть база данных, сервера или система хранения, — сказал корреспонденту eWeek аналитик Брайн Бабино из Enterprise Strategy Group. — Каждый ищет свой способ избавиться от узких мест. Очень легко сделать главным виновным систему хранения, поскольку дисководы являются самым медленным компонентом. EMC не желает уступать бизнес, связанный с ПО для оптимизации хранения и баз данных, корпорации Oracle или кому-либо еще лишь потому, что сама она занимается системами хранения. Теперь у неё есть Greenplum, чья продукция идеально подходит для архитектуры x86 и прекрасно справляется с распределением нагрузки между различными коллективно используемыми ресурсами хранения”.

Компания Greenplum, которая работает исключительно с открытыми системами x86 и использует СУБД с открытым исходным кодом PostgreSQL, отлично вписывается в планы EMC по управлению большими массивами данных, сказал Бабино. “С другой стороны, — продолжил он, — продукты EMC используются для обеспечения работы хранилищ данных различных производителей”.

Greenplum бросила вызов таким мощным корпорациям как Oracle, Teradata и Netezza и добилась успеха всего за семь лет своего существования.

“В области хранилищ данных назрели изменения, — сказал Пэт Гелсингер, президент и главный операционный директор подразделения EMC Information Infrastructure Products. — Массово-параллельная масштабируемая архитектура Greenplum в сочетании с принципом самообслуживания позволили ей выделиться на фоне крупных игроков и возглавить движение отрасли к анализу больших массивов данных”.

EMC увидела в приобретении Greenplum возможность для дальнейшего развития рынка средств хранения, сказал Холлис корреспонденту eWeek. “Посмотрите, какая вырисовывается картина: большие массивы данных, миллиарды записей, новая задача по превращению аналитики реального времени в действенный инструмент, перспектива появления полностью виртуализированных сред, аналитика без помощи специализированных подразделений и высококвалифицированные сотрудники, работающие со знаниями, — продолжил Холлис. — Это означает, что нужно не просто делать то же самое, что и раньше, только лучше. Формируются совершенно новые принципы использования больших массивов данных. Мы делаем ставку на будущее, а не пытаемся зарабатывать на прошлом”.

С течением времени возник “хороший синергетический эффект”

На протяжении примерно последних двух лет обе компании постоянно соприкасались при развертывании своих продуктов, и возник хороший синергетический эффект, заявил еженедельнику eWeek соучредитель и президент компании Greenplum Скотт Яра.

“Близость наших компаний проявлялась в самых различных случаях: в том, как мы определяли важность данных, в общей для нас идее переноса обработки ближе к местонахождению данных, в оценке будущей роли виртуализации и частных вычислительных облаков при анализе данных, — сказал Яра. — Появилась мысль, что нам, возможно, следует объединить усилия. Мы решили, что либо это нужно сделать очень быстро, либо мы просто продолжим сотрудничать, поскольку сотрудничество было весьма успешным”.

В штаб-квартире Greenplum неподалеку от Сан-Франциско работает около 140 человек.

“Мы настолько уверены в необходимости приближения обработки к данным, что Greenplum составит ядро целой новой группы по продуктам EMC, — сообщил Холлис. — Это очень напоминает историю появления Data Domain в 2009 г. или RSA в 2006 г., когда мы создавали для каждого из этих продуктов специальное подразделение. Мы намерены предложить руководству Greenplum сделать то же самое”.

По мнению Бабино, 2010 г. может стать годом прорыва в области хранилищ данных.

“Это очень интересное направление, — сказал он. — Две крупнейшие компании из тех, что им занимаются, Teradata и Netezza, вместе зарабатывают порядка 2 млрд. долл. … Teradata — около 1,7 млрд., а Netezza примерно 203 млн. Совершенно очевидно, что на хранилища тратится уйма денег, и EMC хочет получить свою долю, которая причитается ей по справедливости”.