1 Основы построения хранилищ данных. 2 Стадии создания хранилищ данных. Учебная дисциплина

реклама
Учебная дисциплина
«Хранилища данных»
Лекция 5
МЕТОДОЛОГИЯ ПОСТРОЕНИЯ ХРАНИЛИЩ ДАННЫХ
Учебные вопросы:
1 Основы построения хранилищ данных.
2 Стадии создания хранилищ данных.
Литература
1.
2.
3.
4.
5.
Информационные технологии управления : Учебник / Б. В.
Черников. - М. : Форум, 2008 ; М. : Инфра-М, 2008. – 351 с.. (Высшее образование). (ГРИФ)
Советов Б.Я., Цехановский В.В Информационные технологии:
Учебник для вузов / - 3-е изд., стереотип. - М. : Высшая школа,
2006. - 262[2] с. : ил, табл. - Библиогр.: с. 260-261. - ISBN 5-06004275-8 : УДК 002.6(075.8)004(075.8).
Консалтинг:
от
бизнес-стратегии
к
корпоративной
информационно-управляющей системе / Г. Н. Калянов. - М. :
Горячая линия-Телеком, 2004. - 208 с
Жуковский О.И. Информационные технологии: Учебное пособие.
Рекомендовано СИБРУМЦ для межвузовского использования в
качестве учебного пособия. – Томск : ТУСУР, 2003. - 168 с. : ил. Библиогр.: с. 164. - ISBN 5-86889-122-8
Проектирование реляционных хранилищ данных [Текст] :
справочное издание / В. Е. Туманов, С. В. Маклаков. - М. : ДИАЛОГМИФИ, 2007. - 336 с
Цель лекции
Цель
лекции
–
сформировать
представление у студентов о методологии и
основных стадиях построения хранилищ
данных.
Вопрос 1. Основы построения хранилищ данных.
Существуют
различные
подходы
к
стратегии
построения
корпоративного
хранилища данных (ХД):
– построение сверху вниз,
– снизу вверх,
– динамическая интеграция данных и др.
При
подходе
"сверху
вниз"
хранилище
данных
разрабатывается, проектируется и строится итерационным
способом.
Хранилище данных предприятия составляется из множества
предметных областей, таких как финансы, людские ресурсы,
маркетинг, продажи, производство и так далее (см. рисунок 1).
При таком подходе хранилище разрабатывается целиком, а затем
выбирается узкий срез предметной области для конструирования
(см. рисунок 2). Далее строятся последующие слои до тех пор,
пока хранилище полностью не завершено. На создание систем
хранилища данных предприятия уходит 3-4 года при затратах в 3-4
миллиона долларов для средней компании (цифры получены из
анализа многочисленных отчетов), для крупной организации этот
показатель составляет 10-50 миллионов долларов, причем это сумма, необходимая для построения начальной системы EDW,
которая весьма вероятно будет реализована в виде архитектуры
объединенного хранилища данных.
Рисунок 1 - Поэтапная разработка хранилища данных
предприятия
Рисунок 2 - Разработка хранилища данных предприятия по
методу "сверху вниз" (фазы 1 и 2)
Достоинства подхода "сверху вниз":
• Скоординированная среда.
• Единственная точка управления и развития.
Недостатки:
• "Все
пересекающая"
природа
проекта
предприятия.
• Аналитический паралич.
• Управление масштабом.
• Время до появления на рынке.
• Риск
и
подверженность
внешнему
воздействию.
При подходе "снизу вверх" создается ряд
постепенно развиваемых витрин данных, которые
формируют
основу
результирующей
системы
Хранилища данных предприятия.
Этот подход предназначен для реализации
огромного потенциала, присущего хранилищу данных,
с
одновременным
устранением
недостатков,
свойственных подходу "сверху вниз". При данном
подходе разрабатывается Архитектура витрин данных
предприятия (Enterprise Data Mart Architecture, EDMA)
для обеспечения контекста работ по развитию.
Несмотря на то, что в этом случае рассматривается
масштаб всей системы на высоком уровне, подход
"снизу вверх" не так детален, как архитектура системы
хранилища данных предприятия, что позволяет
избежать "аналитического паралича".
Рисунок 3 - Итерационная разработка
хранилища данных предприятия по методу
"снизу вверх"
Достоинства этого подхода:
• Быстрый возврат инвестиций.
• Незначительный риск, низкая подверженность внешнему
воздействию.
• Потребности в "политической" поддержке на более скромном
уровне и на менее продолжительный срок.
• Быстрое развертывание.
• Для "сфокусированной проблемы" - специализированная
группа.
• Пошаговая природа.
Недостатки:
• Возможное "проклятие успеха" (полный успех подавляет
ресурсы).
• Необходимость в координировании многочисленных групп.
• Необходимость в Архитектуре витрин данных предприятия для
интеграции постепенно развиваемых витрин данных.
Считается, что наиболее эффективным является
подход, при котором в процессе разработки и
внедрения хранилища данных осуществляется его
пошаговое наращивание на основе единой системы
классификаторов и общей среды передачи и хранения
данных – спиральная модель процесса разработки.
На каждом шаге развертывания осуществляется
реализация одной или ограниченного числа витрин
данных по следующему технологическому циклу
(стадиям создания):
• постановка задачи,
• проектирование,
• реализация,
• внедрение.
Вопрос 2. Стадии создания хранилищ данных
2.1 Постановка задачи заключается в системно-аналитическом
обследовании предприятия и разработке технического задания.
Системно-аналитическое обследование
Цель этапа проведения системно-аналитического обследования – получение
моделей данных и описание процедур принятия управленческих решений.
Этап обследования начинается с согласования и утверждения заказчиком
плана и программы обследования. В процессе обследования выполняются
следующие виды работ:
• проводится интервью с основными участниками проекта,
• фиксируются организационные и функциональные рамки проекта,
• выявляются и документируются особенности и недостатки существующих
информационных решений,
• формализуется схема бизнеса компании с учетом функциональных рамок,
• производится сбор существующих отчетных материалов и прочих
официальных документов, имеющих непосредственное отношение к
реализации проекта.
Техническое задание (ТЗ) – один из ключевых документов
проекта, который определяет требования к созданию СППР и
порядок этого создания. Как правило, если время разработки
системы превышает двенадцать месяцев, то целесообразно
вводить очередность и, соответственно, сначала разрабатывать
на основе концепции ТЗ систему первой очереди, которая может
быть реализована за 3 месяца. В противном случае динамично
развивающиеся
условия
бизнеса,
постоянно
совершенствующиеся информационные технологии приведут к
тому, что, когда полномасштабная система будет реализована,
она уже морально устареет. Если проект достаточно масштабен,
то помимо основного ТЗ на систему в целом могут
разрабатываться и частные ТЗ на ее отдельные компоненты.
2.2 Стадия проектирования ХД заключается в том, что на
основе анализа требований к системе, сформулированных в ТЗ,
разрабатываются основные архитектурные решения хранилища
данных.
Архитектура информационной системы рассматривается в
четырех аспектах:
• Логическая архитектура. Представляет архитектуру системы с
точки зрения пакетов базовых классов и их взаимосвязей.
Определяются
автоматизируемые
процессы
и
функции,
необходимые для достижения поставленных целей, которые затем
разделяются на задачи, подлежащие реализации на стадии
разработки.
• Архитектура процессов. Применительно к СППР, определяет
информационное обеспечение системы – состав и содержание
процессов преобразования и передачи данных.
• Компонентная архитектура. Представляет архитектуру ПО
системы, ее декомпозицию на подсистемы и компоненты.
• Техническая архитектура. Описывает физические узлы
системы и связи между ними.
Поскольку в СППР объектами автоматизации являются технические
процессы, связанные с информационным обеспечением управленческой и
аналитической деятельности руководящего персонала и специалистов
подразделений и высшего руководства компании, то именно они определяют
логическую архитектуру информационной системы и хранилища данных.
В общем случае информационное обеспечение системы состоит из пяти
классов данных:
• источников данных,
• оперативного склада данных,
• хранилища данных,
• витрины данных,
• репозитария метаданных.
На основе групп представлений витрин должны быть определены:
• Измерения,
• Базовые показатели,
• Производные показатели
На
основе
выполненного
анализа
принимаются
следующие
архитектурные решения:
• Определяются состав, содержание и источники потоков данных, которые
будут поступать из источников в хранилище.
• Определяются преобразования, которые должны быть выполнены над
данными при загрузке, а также периодичность загрузки данных в хранилище.
• При необходимости проектируются структуры оперативного склада
данных и транзитных файлов.
• Выявляются данные, которые отсутствуют в источниках информационного
хранилища. Для таких данных, как правило, проектируются процедуры и
регламенты ручного ввода.
В зависимости от потребностей пользователей в информации можно
выделить следующие ее основные типы:
• Персональную информацию.
• Информацию по бизнес-темам.
• Детальные данные.
• Старые детальные данные.
2.3Реализация
Данная стадия проекта непосредственно связана с разработкой и
тестированиемкомпонентов информационного и специального ПО системы в
соответствии с разработанной на этапе проектирования архитектурой.
К основным результатам работы на этом этапе следует отнести:
1. Непосредственно саму систему в виде общего и специального ПО, баз
данных.
2. План внедрения системы, который должен определять все работы по
внедрению системы у заказчика, включая упаковку системы, доставку ее
заказчику, инсталляцию системы на технических средствах заказчика,
тестирование и доработку.
3. Набор тестов, которые должны быть выполнены после установки
системы у заказчика.
4. Пользовательскую документацию и учебные материалы для
пользователей системы.
2.4 Внедрение
• Данная фаза состоит в выполнении работ, предусмотренных планом
внедрения, который был разработан на предыдущей фазе.
• На стадии развертывания осуществляются монтаж и установка системы и
отдельных ее компонентов у заказчика. Осуществляется первоначальная
загрузка хранилища необходимыми данными, выполняется опытная
эксплуатация системы. Кроме того, на стадии развертывания осуществляется
обучение пользователей и сотрудников службы технической поддержки.
Окончанием данного этапа считается момент перехода к производственной
эксплуатации хранилища.
Контрольные вопросы
1. Охарактеризуйте подход «сверху вниз» к стратегии построения
корпоративного хранилища данных (ХД).
2. Охарактеризуйте подход «снизу вверх» к стратегии построения
корпоративного хранилища данных (ХД).
3. Перечислите достоинства и недостатки подхода «сверху вниз» к
стратегии построения корпоративного хранилища данных (ХД).
4. Перечислите достоинства и недостатки подхода «снизу вверх» к
стратегии построения корпоративного хранилища данных (ХД).
5. Дайте характеристику процессе разработки и внедрения
хранилища данных на основе его пошагового наращивания.
6. Поясните сущность этапа постановки задачи при создании ХД.
7. Поясните сущность этапа проектирования при создании ХД.
8. Поясните сущность этапа реализации при создании ХД.
9. Поясните сущность этапа внедрения при создании ХД.
Скачать