Сабир Асадуллаев

Идея хранилищ данных (ХД), предложенная Б. Инмоном, и концепция оперативной аналитической обработки данных (OLAP), разработанная Э. Коддом, удачно дополнили друг друга. Практика построения хранилищ данных выявила необходимость внедрения витрин данных. За прошедшее десятилетие аналитики разработали около десятка различных архитектур корпоративных информационных систем на основе хранилищ и витрин данных, предназначенных для поддержки принятия решений и аналитических исследований. К их числу относятся:

- виртуальные хранилища данных;

- независимые витрины данных;

- централизованные хранилища данных;

- инмонова модель со слоями детальных и консолидированных данных;

- расширенная инмонова модель с персональными витринами данных;

- инверсная инмонова модель;

- централизованное хранилище с накоплением данных в независимых витринах;

- централизованное хранилище с тематическими витринами данных;

- централизованная очистка данных с параллельными хранилищами и витринами данных.

В соответствии с этими архитектурами ведущие фирмы предлагают свои решения, основанные на выпускаемых и разрабатываемых продуктах. В создании крупных хранилищ данных лидируют IBM, Informix, NCR, Oracle, Red Brick, SAS, Sybase. Кроме того, на рынке продуктов для построения и использования хранилищ данных значительное место занимают Brann Software, Business Objects, Cayenne Software, Computer Associates, MicroStrategy, Prism Solutions, Brio Technology, Cognos, Platinum Technology.

Перед организациями, желающими улучшить качество информационного обслуживания и повысить эффективность использования корпоративной информации, встает вопрос соотношения, с одной стороны, архитектуры корпоративных информационных систем, с другой- фирменных решений, и с третьей- потребности этих организаций, как уже возникших, так и тех, что непременно появятся в перспективе.

В этой статье рассматриваются архитектурные решения ведущих фирм- производителей программного обеспечения, которые проявляют значительную активность на российском рынке.

IBM: Visual Warehouse

Корпорация IBM принадлежит к числу компаний, предоставляющих полный набор услуг, программного и аппаратного обеспечения, необходимого для построения хранилищ данных.

Под названием Visual Warehouse фирма IBM предлагает архитектурное решение витрин данных и программного компонента для их создания. Это технология сбора данных с различных транзакционных систем, локальных и удаленных плоских файлов, больших двоичных объектов (BLOB) и других источников. Пакет Visual Warehouse содержит интегрированные программные продукты, соответствующие различным уровням архитектуры (см. табл. 1). Данные из этих источников трансформируются по правилам метаданных, определяемых с помощью графического интерфейса пользователя на платформе Win- OS/2 или Microsoft Windows. На основе одного или нескольких источников для пользователя или группы пользователей можно готовить бизнес-обзоры.

Таблица 1. Средства для создания витрин данных IBM

Метаданные, созданные и импортированные администратором из различных источников, управляют всем процессом сбора данных. Для конечных пользователей они из Visual Warehouse экспортируются в средство управления метаданными DataGuide.

ПО Client Application Enabler обеспечивает через ODBC доступ к одной или через сервер DataJoiner- к нескольким витринам данных. Доступ к данным поддерживает ряд программ, разработанных как в самой IBM (Intelligent Decision Server, Intelligent Miner, Visualizer), так и в сторонних фирмах- Andyne, Bryo, Business Objects, Cognos и многих других. В этом ряду следует упомянуть разработку PolyAnalyst российской фирмы “Мегапьютер”.

Таблица 2. Средства для создания информационных хранилищ данных IBM

В качестве многомерной витрины данных можно использовать Essbase Analysis Server фирмы Arbor Software и Decision-Support Suite Analysis Server компании Pilot Software. Эти продукты работают только с реляционными базами данных.

Система подготовки данных на корпоративном уровне включает Data Propagator Relational и Non-Relational, которые захватывают данные из транзакционных БД, не снижая их производительности. Так как возможности Data Propagator Relational по очистке данных ограничены SQL, здесь допустимо применение специализированного средства Integrity фирмы Vality Technologies.

В качестве средств управления данными IBM предлагает такие СУБД, как DB2 MVS, DB2 PE и DB2/400 SMP. Управление метаданными обеспечивает ПО DataGuide, которое импортирует и хранит информацию о структуре данных, источниках, владельцах, условиях и правилах, датах обновления. Метаданные группируются в глоссарий, обеспечивающий быстрый поиск необходимой информации.

Для доставки данных служит ПО Lotus Notes. Кроме того, пользователи могут получать доступ к DB2 через Web-браузеры. В качестве ПО промежуточного слоя IBM предлагает DataJoiner для распределенных витрин данных и многоуровневых хранилищ или ODBC для единственной витрины данных. ПО DataJoiner пригодно для хранилищ данных, созданных на основе Oracle.

Пакет DataHub обеспечивает управление СУБД DB2, инструментами DataPropagator и некоторыми СУБД, доступными через DataJoiner. Другое средство, FlowMark, может управлять процессами сбора информации с множества платформ.

Среди обилия средств доступа к данным выделяется Intelligent Miner, способный выявлять тенденции по образцу и имеющий программный интерфейс для взаимодействия, например, с Busyness Objects.

Informix: MetaCube

Финансовые результаты II квартала 1998 г. дают основания для надежды, что Informix выйдет из кризиса. К этому же стремилась фирма, пересматривая свой продуктовый ряд, предназначенный для построения транзакционных баз данных, хранилищ и витрин данных, а также для оперативной аналитической обработки информации.

Informix предлагает единый сервер Informix Dynamic Server и пять опций для расширения его функциональности: Advanced Decision Support, поддерживающую оптимизацию обработки запросов для специализированных индексов DSS; Extended Parallel для использования Informix Dynamic Server в многопроцессорных комплексах различной архитектуры; MetaCube ROLAP Option, обеспечивающую многомерный анализ информации; Universal Data Option для поддержки новых типов данных; Web Integration Option для интеграции баз данных с Web-серверами.

Динамическая масштабируемая архитектура Informix DSA (Dynamic Scalable Architecture) позволяет строить эффективные транзакционные системы, витрины и хранилища данных. Модули DataBlade продаются по отдельности, благодаря чему стоимость модернизации продуктов Informix держится в приемлемых рамках. Кроме того, компания планирует переориентацию Unix на Windows NT как основную платформу.

Программное обеспечение Informix и партнеров дает возможность извлекать данные из различных источников: IMS, IDMS, VSAM, DB2 AS400, Adabas, Informix, Oracle и Sybase. Автоматизированное управление хранилищем данных обеспечивают такие инструменты, как, например, Warehouse Manager фирмы Prism Solutions Data. Informix поставляет средства разработки приложений и доступа к данным из БД Informix- NewEra, ViewPoint и HyperScript. ПО этой категории поставляют более 50 фирм.

В семейство MetaCube входят Analysis Engine- средство реляционной аналитической обработки (ROLAP), Explorer- специализированное средство поддержки принятия решений и MetaCube для Excel- средство переноса результатов многомерного анализа больших объемов данных в среду Excel.

MetaCube Warehouse Optimizer используется для анализа и выбора стратегии сбора данных; для управления загрузкой данных и календарным планированием предназначен планировщик MetaCube Sheduler. ПО MetaCube Aggregator служит для агрегирования данных в хранилище. Агент MetaCube for Web обеспечивает доступ к аналитическим средствам из браузеров. С целью распределения времени между задачами применяется инструмент отработки ресурсоемких запросов в фоновом режиме QueryBack, функционирующий на сервере БД.

Средства доступа к данным, размещенным в MetaCube, производят такие фирмы, как Cognos, Business Objects, Andyne и другие.

NCR: Scalable Data Warehouse

Компания NCR, по-видимому, обладает наиболее отработанной методикой, в которую вложен весь пятнадцатилетний опыт создания и внедрения примерно 600 хранилищ данных. Фирме принадлежат рекорды как по разработке самого большого в мире хранилища (от 7 до 24 Тб различных данных), так и по результатам тестов TPC-D на поддержку принятия решений во всех трех классах хранилищ объемом- 100 Мб, 300 Мб и 1 Тб.

Основу технологии Scalable Data Warehouse составляет реляционная СУБД NCR Teradata, разработанная специально для архитектур с массовым параллелизмом и функционирующая под управлением ОС UNIX SVR4. Запланирован также перенос СУБД Teradata на ОС Windows NT корпорации Microsoft и Solaris фирмы Sun Microsystems.

Эта технология позволяет строить хранилища данных на основе СУБД Informix, SQL Server и Oracle. В качестве аппаратного обеспечения NCR предлагает свои серверы WorldMark 5100, масштабируемая архитектура которых облегчает расширение хранилища. Компания также оказывает консультационные услуги по подготовке архитектурного проекта хранилища данных, его реализации и управлению им.

При создании корпоративных информационных систем на базе хранилищ данных NCR предлагает подход, в большой степени основанный на классической модели Инмона. Данные из различных источников (реляционных и нереляционных СУБД, последовательных и плоских файлов) подвергаются очистке, извлечению, фильтрации, согласованию, реорганизации посредством процедур, разрабатываемых для каждого заказчика индивидуально. Очищенные данные загружаются в хранилище с помощью утилит загрузки FastLoad и MultiLoad.

Хранилище данных в архитектуре NCR, основанное на СУБД Teradata, является единым источником достоверной информации. Поэтому консультанты фирмы указывают на недопустимость создания независимых витрин данных. Детальные данные из центрального хранилища тиражируются в тематические витрины, которые могут быть созданы на основе любой коммерческой СУБД, в том числе Teradata. Витрины данных предназначены для обслуживания конечных пользователей и содержат агрегированные данные.

В качестве средства управления информационными ресурсами предполагается использовать Unicenter TNG. Программное обеспечение фирмы SAS, базовое ядро которого реализует функции доступа к данным, их анализа, управления и представления в мощной среде разработки приложений, рекомендуется для управления данными.

Oracle: архитектура сетевых вычислений

При построении корпоративных информационных хранилищ Oracle использует традиционную архитектуру, реализующую любой доступ к любым данным из любого источника.

Разработанная корпорацией Oracle архитектура сетевых вычислений дает основу для перехода от принципа клиент-сервер к концепции Web. Эта архитектура включает в себя пять логических слоев. Слой источников составляют транзакционные базы данных, унаследованные приложения на мэйнфреймах, приложения клиент-сервер, плоские файлы и другие внешние источники данных. Информация извлекается из источников, преобразуется, денормализуется и транспортируется в хранилище или витрину данных. Слой данных включает центральное хранилище и зависимые витрину данных и OLAP-сервер. Слой OLAP и приложений составляют Oracle Web Application Server, а также поддерживаемые им приложения и Web-картриджи. Сервер приложений вносит в архитектуру дополнительный уровень, в задачи которого входит обеспечение надежности, защищенности, целостности транзакций, поддержка распределенных транзакций и балансировка нагрузки. В настоящее время Express Web Agent реализован в виде CGI-приложения. Картридж PL/SQL генерирует на Web Application Server форму, позволяющую просматривать данные из витрины, а затем передает ее на Web-сервер.

Благодаря тому, что слой Web-приложений существует отдельно от Web-сервера, в слое публикаций можно применять стандартные Web-серверы фирмы Microsoft, Netscape или Spy-Glass. Последний поставляется в составе Oracle Web Application Server. Тонкие клиенты, такие, как браузеры фирм Netscape Navigator или Microsoft Internet Explorer, составляют слой презентаций.

В объектно-ориентированной среде разработки Express Objects 2.1 создаются системы оперативной аналитической обработки информации (OLAP), которые используют централизованное хранилище для текстовых описаний объектов. Утилита Express Web Publisher, также включенная в комплект новой версии, дает пользователям возможность развертывать OLAP-приложения в сетях intranet/Internet без программирования.

Таблица 3. Средства для создания информационных хранилищ данных NCR

Комплект ПО Oracle Data Mart Suite предназначен для создания информационных витрин, функционирующих в среде Windows NT. Он включает в себя Oracle7 Enterprise Server, Oracle Data Mart Builder, Oracle Data Mart Designer, клиентское инструментальное средство Discoverer 3.0 и Oracle Web Server. Другой комплект, Oracle Application Data Warehouse, совмещает в себе свойства прикладного хранилища данных и OLAP-инструментария. Существует большое количество программного обеспечения, предлагаемого третьими фирмами для расширения функциональных возможностей хранилищ данных на основе продуктов Oracle. Так, компании QAD, Oracle и Data General выпускают единый комплекс Enterprise Data Warehouse для хранения данных.

Таблица 4. Средства Oracle для создания информационных хранилищ

Продукты SAS Institute

В отличие от основных поставщиков ПО для хранилищ данных, SAS Institute предлагает организовывать хранилища не на основе реляционных СУБД, а в SAS-наборах, поддерживающих пакетную загрузку и чтение больших объемов данных. SAS-наборы- это аналоги таблиц в реляционных СУБД, представляющие собой файлы до 2 Гб для некоторых OC UNIX, которые могут располагаться в различных каталогах на разных дисках. Хранилище состоит из множества таких наборов и достигает 3 Тб. Архитектура хранилища SAS изображена на рис. 1, а средства для их создания перечислены в таблице 5.

Таблица 5. Средства SAS для создания информационных хранилищ

Построение хранилищ данных, согласно методике SAS Institute, включает в себя процессы загрузки, управления данными и эксплуатации хранилища. С помощью продуктов SAS можно создать централизованное, распределенное или виртуальное хранилище. Модульный принцип этого программного обеспечения позволяет использовать его в разных архитектурах.

Рис. 1. Архитектура информационного хранилища SAS

ПО доступа SAS/ Access служит для извлечения данных из СУБД Oracle, Informix, DB2 и многих других. Средства загрузки данных в информационное хранилище (BASE/SAS, SAS/FSP, SAS/Access) предоставляет соответствующий инструментарий, предназначенный для создания процедур загрузки данных в информационное хранилище и их преобразования в необходимые форматы. BASE/SAS, включающее в себя язык программирования четвертого поколения, может быть использовано как среда для разработки приложений. SAS/FSP поддерживает работу с данными при их вводе, редактировании, обновлении, просмотре и при формировании запросов.

ПО управления хранилищем данных Data Warehouse Administrator обеспечивает полное управление как централизованным, так и распределенным хранилищем данных, в частности контроль и планирование процесса загрузки данных в хранилище и управление метаданными. При использовании этого продукта в качестве средства проектирования хранилища будет создана наиболее эффективная структура данных.

При эксплуатации можно использовать пакет интерактивного исследования данных Enterprise Miner, инструмент интерактивного создания отчетов Enterprise Reporter, SAS/ASSIST для визуализации данных и средство аналитической обработки данных SAS/Insight. Пакет SAS/Graph предназначен для графического представления данных.

Для создания приложений в среде клиент-сервер используются серверы SAS/Connect, SAS/Share и SAS/SPDS. Сервер SAS/ Connect является встроенным компонентом системы SAS, поддерживающим дистанционный доступ к различным внешним источникам данных. Продукт SAS/Share позволяет осуществлять многопользовательский доступ к файлам системы SAS. Сервер SAS/SPDS (Scalable Performance Data Server) является средством обеспечения многопользовательского доступа к хранилищу данных с возможностью протоколирования событий.

Для сложных аналитических расчетов используется средство построения многомерных баз данных SAS/MDDB. В меню- ориентированной среде SAS/EIS возможна быстрая разработка OLAP-приложений без программирования. Для интерактивной разработки приложений с использованием языка Screen Control Language (SCL) служит продукт SAS/AF.

Пакет SAS/STAT применяется для различных видов статистической обработки данных. Дополнительные возможности предоставляет пакет SAS/ETS (Econometrics and Time Series).

К несомненным преимуществам ПО компании SAS Institute следует отнести поддержку технологии Multi Vendor Architecture (MVA), позволяющей ему функционировать практически на любых вычислительных платформах- от персональных компьютеров до мэйнфреймов.

Технология Multiple Engine Architecture (MEA) обеспечивает доступ к данным из различных источников: СУБД Oracle, Informix, Adabas, Sybase, DB2, из иерархических и унаследованных файлов, структурированных текстовых файлов более пятидесяти форматов. ПО поддерживает различные модели клиент-сервер с возможностью дистанционного выполнения заданий. Кроме того, SAS Institute предлагает комплексное, функционально законченное решение SAS/IntrNet, позволяющее с высокой эффективностью эксплуатировать SAS Data Warehouse в среде Internet/intranet.

Sybase: WarehouseNOW

В компании Sybase централизованный подход считают довольно рискованным, поэтому основной акцент здесь переносится на создание распределенных витрин данных, которые в дальнейшем могут быть объединены в централизованное хранилище, архитектура которого показана на рис. 2, а средства для создания- в таблице 6.

Для проектирования корпоративных хранилищ данных имеется семейство продуктов PowerDesigner, включающее шесть интегрированных модулей: Process Analyst для исследования потоков данных; DataArchitect для последовательной разработки концептуальной и физической моделей; AppModeler для создания физической модели данных и объектов приложений; MetaWorks для групповой работы, совместного доступа к информации и управления моделью; WarehouseArchitect для проектирования хранилищ данных; Viewer для графического просмотра информации о модели.

Доступ к транзакционным и архивным данным обеспечивает семейство программных продуктов Enterprise Connect, в которое входят: DirectConnect для доступа к данным на основе MVS и AS/400; OmniConnect для единого доступа к разнородным источникам; InfoHub для доступа к нереляционным данным на мэйнфреймах; jConnect как реализация стандарта JDBC. Это же семейство поддерживает целостность данных в распределенных витринах.

Для перемещения данных в витрину применяются программные продукты семейства Sybase Data Movement, которое включает Replication Server, Replication Agents, Replication Toolkit for MVS, SQL Anywhere и SQL Remote. Пакет Replication Server поддерживает тиражирование данных, как инкрементальное, так и по событию, и позволяет подключать произвольные программы преобразования данных, обеспечивая тем самым законченное решение для перемещения и очистки данных.

При создании витрин желательно использовать сервер Sybase IQ- специализированную СУБД, в которой поддерживаются вертикальное хранение данных, сжатие данных и технология обработки запросов Bit-Wise. Для управления большим объемом данных применяются сервер Sybase MPP, позволяющий обрабатывать массивы данных размером до 2 Тб.

Рис. 2. Архитектура хранилищ данных Sybase

Набор интерфейсов Sybase Open Client/ Open Server является основой программных продуктов как Sybase, так и третьих фирм. Серверный интерфейс для распределенных баз данных Open Server поддерживает любые клиентские приложения (CT-Lib, DB-Lib, ODBC, JDBC, Web), SQL- и не-SQL источники данных и прикладные службы (сервисы).

Для создания витрин данных рекомендуется сервер Sybase IQ, представляющий собой специализированную СУБД, в которой поддерживаются вертикальное хранение данных, сжатие данных и технология обработки запросов Bit-Wise. Для управления большими объемами данных применяется сервер Sybase MPP, предназначенный для работы на массивно-параллельных архитектурах и позволяющий обрабатывать массивы данных размером до 2 Тб.

Таблица 6. Средства для создания хранилищ данных Sybase

Сервер приложений NetImpact Dynamo является полностью HTTP-совместимым сервером, обеспечивающим интерпретирующий шлюз между Web-сервером и СУБД Sybase. Он посылает SQL-запросы к базе данных, полученные результаты обработки запроса преобразуются в HTML-формат и возвращаются на Web-сервер. Для быстрого создания витрин данных Sybase предлагает интегрированный пакет QuickStart DataMart для Windows NT.

Заключение

Рассматривая фирменные архитектуры построения хранилищ данных, можно прийти к неожиданному выводу: эти решения не конкурируют друг с другом, а скорее адресованы разным сегментам рынка. Более того, при создании корпоративной информационной системы на основе хранилищ данных возможно ее модульное построение с использованием программного обеспечения различных фирм. Такое решение может наиболее полно учесть специфику конкретной организации, ее потребности, финансовые возможности, наличие квалифицированных специалистов по работе с продуктами.

За рамками данной работы остались такие важные аспекты хранилищ данных, как тесты производительности аппаратно-программных комплексов, опыт реализации, исследование аналитических и корпоративных архитектур, стратегия и методика построения. К этим темам мы надеемся вернуться в следующих статьях.

Без обсуждения этих вопросов довольно трудно сделать определенные выводы относительно применимости продуктов тех или иных фирм в конкретных банках, так как число пользователей хранилища в разных банках может варьироваться от одного-двух до нескольких тысяч. Во втором случае необходим защищенный доступ к информации с введением прав на чтение, дополнение, изменение данных и их перемещение в архив. Безусловно, в зависимости от масштабов меняется и архитектура: один-два пользователя могут получить прямой доступ в хранилище, для тысяч пользователей необходимо поверх хранилища создать тематические или подразделенческие витрины данных и уже поверх тех разместить Web-серверы.

Тем не менее, проанализировав фирменные архитектуры корпоративных систем на основе хранилищ данных, мы можем дать некоторые практические рекомендации. Если важное значение имеют конфиденциальность и безопасность размещаемых в хранилище данных, то лучше всего использовать программно-аппаратные комплексы IBM, зарекомендовавшие себя как наиболее защищенные. Программные решения на основе продуктов фирмы Informix известны своей невысокой ценой и их можно рекомендовать для организаций с ограниченным бюджетом. Фирма NCR обладает не только рекордными сервером WorldMark и СУБД Teradata, но и огромным опытом создания хранилищ; ее услугами можно воспользоваться как для реализации терабайтных проектов, так и для получения консультаций. Сервер баз данных Oracle реализован практически на всех аппаратных платформах, что в совокупности с устойчивым положением фирмы позволяет рекомендовать его для использования в долговременных проектах, рассчитанных на масштабируемость. Фирма SAS помимо средств создания хранилищ предлагает один из лучших пакетов аналитической и статистической обработки данных, который может быть использован на рабочем месте в сочетании с любым хранилищем или витриной данных. Решения фирмы Sybase, известные своим быстродействием, представляют особый интерес для тех, кто остановил свой выбор на распределенных независимых витринах данных.