Витрина данных
Материал из Википедии — свободной энциклопедии
Витрина данных — cрез хранилища данных, представляющий собой массив тематической, узконаправленной информации, ориентированный, например, на пользователей одной рабочей группы или департамента.
[править] Концепция Витрин Данных
Концепция Витрин Данных была предложена Forrester Research ещё в 1991 году. По мысли авторов, Витрины Данных — множество тематических БД содержащих информацию, относящуюся к отдельным аспектам деятельности организации.
Концепция имеет ряд несомненных достоинств:
- Аналитики видят и работают только с теми данными, которые им реально нужны.
- Целевая БД максимально приближена к конечному пользователю.
- Витрины Данных обычно содержат тематические подмножества заранее агрегированных данных, их проще проектировать и настраивать.
- Для реализации Витрин Данных не требуются высокомощная вычислительная техника.
Но концепция Витрин Данных имеет и очень серьёзные пробелы. По существу, здесь предполагается реализация территориально распределённой информационной системы с мало контролируемой избыточностью, но, не предлагается способов, как обеспечить целостность и непротиворечивость хранимых в ней данных.
Идея соединить две концепции — Хранилищ Данных и Витрин Данных, по видимому, принадлежит М.Демаресту (M.Demarest), который, в 1994 году предложил объединить две концепции и использовать Хранилище Данных в качестве единого интегрированного источника данных для Витрин Данных.
И сегодня именно такое многоуровневое решение:
- первый уровень — общекорпоративная БД на основе реляционной СУБД с нормализованной или слабо де нормализованной схемой (детализированные данные);
- второй уровень — БД уровня подразделения (или конечного пользователя), реализуемые на основе многомерной СУБД (агрегированные данные);
- третий уровень — рабочие места конечных пользователей, на которых непосредственно установлен аналитический инструментарий;
постепенно становится стандартом де-факто, позволяя наиболее полно реализовать и использовать достоинства каждого из подходов:
- компактное хранение детализированных данных и поддержка очень больших БД, обеспечиваемые реляционными СУБД;
- простота настройки и хорошие времена отклика, при работе с агрегированными данными, обеспечиваемые многомерными СУБД.
Реляционная форма представления данных, используемая в центральной общекорпоративной БД, обеспечивает наиболее компактный способ хранения данных. А современные реляционные СУБД уже умеют работать даже с терабайтными базами. И хотя, такая центральная система, обычно не сможет обеспечить оперативного режима обработки аналитических запросов, при использовании новых способов индексации и хранения данных, а так же частичной денормализации таблиц, время обработки заранее регламентированных запросов (а в качестве таких, можно рассматривать и регламентированные процедуры выгрузки данных в многомерные БД) оказывается вполне приемлемым.
В свою очередь, использование многомерных СУБД в узлах нижнего уровня обеспечивает минимальные времена обработки и ответа на нерегламентированные запросы пользователя. Кроме того, в некоторых многомерных СУБД имеется возможность хранить данные как на постоянной основе (непосредственно в многомерной БД), так и динамически (на время сеанса) загрузить данные из реляционных БД (на основе регламентированных запросов).
Таким образом, имеется возможность хранить на постоянной основе, только те данные, которые наиболее часто запрашиваются в данном узле. Для всех остальных, хранятся только описания их структуры и программы их выгрузки из центральной БД. И хотя, при первичном обращении к таким виртуальным данным, время отклика может оказаться достаточно продолжительным, такое решение обеспечивает высокую гибкость и требует более дешевых аппаратных средств