Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

Корпоративная мобильность: тренды, подходы, реализация

Возможность мобильной работы с документами удобна для сотрудников, но также экономически выгодна компании …

Как работает ипотека?

На сегодняшний день ипотечным кредитованием пользуется практически каждый. Но понимания того, как именно работает ипотека и по какой схеме происходит оформление у большинства людей нет.

Сетевые фильтры Powercom: оптимальная защита вашей электроники

Сложно представить себе современную квартиру или офис без большого количества электрических розеток. Их всегда …

МТС запустил сервис для работы с документами SmartDocs

ПАО «МТС» цифровая экосистема, объявила о запуске сервиса SmartDocs. Новое решение повысит эффективность …

«Нейронные сети и машинное обучение приведут к ускорению развития»: ведущий IT-эксперт Аралтан Горяев оценивает будущее индустрии

Недавно в Дубае на Всемирном правительственном саммите один из крупнейших предпринимателей заявил …

SAS In-Memory Statistics for Hadoop: новые возможности высокопроизводительной аналитики

Пресс-релиз | 16.09.2014

Анализ больших данных с помощью технологии in-memory, возможность использования широкого спектра аналитических алгоритмов для исследования и моделирования в распределенной среде Hadoop — вот только некоторые из неоспоримых преимуществ, которые получат пользователи нового продукта SAS In-Memory Statistics for Hadoop.

«Эти преимущества позволяют беспрецедентно сократить время обработки аналитических запросов при работе с большими данными, — прокомментировал Андрей Свирщевский, руководитель направлений аналитики и гарантирования доходов компании SAS Россия/СНГ. — Так, построить дерево решений на таблице объемом 467 GB с 520-тью колонками и 120 млн строк теперь можно всего за 10 минут, а случайный лес из 10-ти деревьев строится и вовсе за 4 минуты. На текущий момент это самый быстрый инструмент применения методов углубленной аналитики во всей линейке SAS».

Новый продукт SAS работает по принципу интерактивного программирования и позволяет сразу нескольким пользователям совместно изучать и анализировать данные, создавать и сравнивать модели, а также оперативно работать с большими объемами информации на базе технологии Hadoop.

Сегодня многие компании прорабатывают бизнес кейсы использования Hadoop. При этом важно иметь возможность применять самые разные методы анализа, включая углубленную аналитику, на огромных объемах данных, для которых потенциально предполагается использовать Hadoop. Именно для таких задач идеально подходит новый продукт. Задачи подобного рода, когда требуется глубоко проникнуть в закономерности, существующие в данных, решают специалисты типа Data Scientist. Обычно графические интерфейсы им не нужны, изучить несколько новых верхнеуровневых процедур — для них не проблема, а вот разнообразие методов анализа и быстрый отклик на запрос в SAS In-Memory Statistics for Hadoop они высоко оценят.

Это решение расширяет линейку продуктов SAS, построенных на базе технологии SAS LASR Server и использующих прогрессивный метод «in-memory» для обработки данных непосредственно в оперативной памяти. Первым из них стало ныне популярное на рынке решение SAS Visual Analytics для интерактивной визуализации данных. Применение SAS LASR Server дает возможность удерживать данные в оперативной памяти кластера блейдовых серверов и работать с ними в интерактивном режиме.

Пользователь SAS In-Memory Statistics for Hadoop получает доступ в режиме интерактивного программирования ко всем основным методам статистического анализа и машинного обучения. Среди них — линейная и логистическая регрессии, обобщенные линейные модели, деревья решений и случайный лес, прогнозирование временных рядов, анализ текстовых данных, кластеризация и др. При этом есть возможность выполнять вспомогательные и служебные задачи: готовить данные к анализу, выделять значимые предикторы, сравнивать модели, формировать код применения моделей.

Новшество, которое добавляет этот продукт к широкому спектру аналитики SAS, — это возможность строить рекомендательные системы, используя большой набор методов их построения. Такие системы востребованы для решения широкого класса бизнес-задач, в том числе целевого маркетинга. На основе анализа информации о том, какими продуктами и услугами воспользовался или пользуется каждый клиент, определяются типовые профили потребления продуктов и услуг, на выходе для каждого клиента выдается продукт/услуга, которые являются для него наиболее востребованными. Такой способ эффективнее классических методов «Cross-Sell» и хорошо подходит для реализации концепции «Next Best Offer» в условиях широкого спектра предлагаемых продуктов и услуг. Этот метод особенно понравится тем, у кого нет возможности построить отдельные модели «Up-Sell» для каждого продукта.

Технология Hadoop повышает надежность системы за счет использования кластера серверов, что позволяет гарантировать сохранность данных при одновременном снижении стоимости аппаратного обеспечения, высокой степени масштабируемости, отсутствии жестких требований к формату данных и их предобработке.

Согласно прогнозам компании IDC, объем продаж Hadoop к 2016 г. достигнет 812,8 млн долларов США при среднегодовом темпе роста 60,2%. Эксперты SAS уверены, что заказчики и в дальнейшем продолжат использовать эту архитектуру хранения больших данных с целью их анализа и получения скрытой в них ценнейшей информации.

Благодаря стратегическому партнерству SAS c такими компаниями, как Cloudera и Hortonworks, клиенты получают лучшие возможности использования отраслевой аналитики в рамках избранных ими решений на базе Hadoop.

Hadoop распределяет данные по кластеру, состоящему из недорогого аппаратного обеспечения (commodity hardware). Также система обнаруживает и устраняет сбои, что крайне важно при распределенной работе. Помимо низкой стоимости аппаратных средств и защиты данных с помощью резервного копирования, Hadoop обладает другими важными преимуществами, среди которых: параллельная обработка данных (модель распределенных вычислений Hadoop позволяет обрабатывать огромные объемы данных, причем в рекордно короткие сроки); масштабируемость (мощность системы Hadoop можно легко увеличить путем добавления новых узлов); гибкость в хранении данных (в отличие от традиционных реляционных баз данных, Hadoop позволяет хранить данные в неструктурированном виде без предварительной обработки).

Печать

SAS In-Memory Statistics for Hadoop: новые возможности высокопроизводительной аналитики

Комментарии