МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE "ERwin настолько прост, что нового специалиста можно обучить ему за день-другой, и настолько многофункционален, что соответствует нашим самым взыскательным потребностям". Л. Хенден, Pricewaterhouse Coopers ERwin на службе у банков Источник: http://www.interface.ru/rtcs/cs023-12.htm Проектирование хранилищ данных В Древней Греции тогдашние банкиры давали отчет на площади в присутствии всех граждан, а затем цифры выбивались на камне. Представьте себе, сколько камней потребовалось бы для ведения записей современным банкам! Сегодня для хранения и обработки информации в банковском бизнесе применяются передовые достижения в области IT-технологий - хранилища данных, OLAP, B2B. В этой статье мы рассмотрим процесс создания и использования хранилищ данных с помощью средства ERwin компании Computer Associates. Что такое Data Warehouse? Хранилище данных (Data Warehouse) - это отдельная база данных, в которой аккумулируется вся самая разнообразная информация, необходимая менеджерам банка для подготовки управленческих решений: о клиентах банка, операционных днях филиалов, кредитах, процентных ставках, курсах валют и т. д. При этом хранилище оснащено инструментами для быстрой и несложной настройки на новые виды данных, то есть оно может непрерывно развиваться. В целях экономии времени руководителей любая запрошенная информация предоставляется очень быстро. Для этого в хранилище содержатся заранее вычисленные показатели, например обороты балансовых счетов за день, квартал, год. Огромные объемы данных хранилища легко использовать за счет того, что в хранилище изначально встроены удобные инструменты поиска информации, средства оперативного анализа (OLAP) и генераторы отчетов. Хранилище снабжено мощной системой загрузки данных из разных источников, при этом в процессе загрузки происходит автоматическое согласование и очистка данных от ошибок. Из опыта создания хранилищ данных К необходимости создания хранилищ данных российские банки пришли уже давно. Как правило, хранилища данных оперируют с огромными объемами информации, что предъявляет к их проектированию и реализации повышенные требования. Выбор в качестве платформы хранилища данных такой высокопроизводительной РСУБД позволяет существенно повысить общую эффективность создаваемой информационной системы. Для этих целей используются мощные инструменты графического проектирования информационных систем - так называемые CASEсредства (CASE расшифровывается как Computer Aided System Engineering), например ERwin компании Computer Associates. В создании хранилищ данных ERwin становится незаменимым инструментом, поскольку, с одной стороны, эффективно поддерживает на физическом уровне проектирование объектов РСУБД, с другой стороны, имеет специализированные средства моделирования хранилищ данных. Ниже рассматриваются основные возможности ERwin по проектированию хранилищ данных. К проектированию хранилищ данных обычно предъявляются следующие требования: Структура данных хранилища должна быть понятна пользователям. Должны быть выделены статистические данные, которые регулярно модифицируются: ежедневно, еженедельно, ежеквартально. Требования к запросам должны быть упрощены с целью исключения запросов, которые могли бы требовать множественных утверждений SQL в традиционных реляционных СУБД. 1 МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE Должна быть обеспечена поддержка сложных запросов SQL, которые требуют последовательной обработки тысяч или миллионов записей. Именно выполнение этих требований отличает структуру хранилищ данных от структуры реляционных СУБД и хранилищ данных. Нормализация данных в реляционных СУБД приводит к созданию множества связанных между собой таблиц. В результате выполнение сложных запросов неизбежно влечет за собой объединение многих таблиц, что существенно увеличивает время отклика. Проектирование хранилища данных подразумевает создание денормализованной структуры данных (допускается избыточность данных и возможность возникновения аномалий при манипулировании данными), ориентированной в первую очередь на высокую производительность при выполнении аналитических запросов. Нормализация делает модель хранилища слишком сложной, затрудняет ее понимание и ухудшает эффективность выполнения запроса. Как работает ERwin? Размерная (Dimensional) модель Для эффективного проектирования хранилищ данных ERwin использует размерную модель. Размерная модель - это методология проектирования, специально предназначенная для разработки хранилищ данных. Наиболее простой способ перейти к нотации размерной модели при создании новой модели (меню File/New) в диалоге ERwin Teamplate Selection - выбрать из списка предлагаемых шаблонов DIMENSION. В шаблоне DIMENSION сделаны все необходимые для поддержки нотации размерного моделирования настройки, которые, впрочем, можно установить вручную. Моделирование Dimensional сходно с моделированием связей и сущностей для реляционной модели, но отличается целями. Реляционная модель акцентируется на целостности и эффективности ввода данных. Размерная модель ориентирована в первую очередь на выполнение сложных запросов к БД. Роль таблицы в схеме (Dimensional Modeling Role) По умолчанию ERwin автомати чески определяет роль таблицы на основании созданных связей. Таблица без связей определяется как таблица размерности, таблица факта не может быть родительской в связи, таблица размерности может быть родительской по отношению к таблице факта, консольная таблица может быть родительской по отношению к таблице размерности. Правила хранения данных (Data Warehouse Rules) Для каждой таблицы можно задать шесть типов правил работы с данными: обновление (Refresh), дополнение (Append), резервное копирование (Backup), восстановление (Recovery), архивирование (Archiving) и очистка (Purge). Для задания правила следует выбрать имя правила из соответствующего списка выбора. Каждое правило должно быть предварительно описано в диалоге Data Warehouse Rule Editor. Для каждого правила должно быть задано имя, тип, определение. Например, определение правила дополнения данных может включать частоту и время дополнения (ежедневно, в конце рабочего дня), продолжительность операции и т. д. Связать правила с определенной таблицей можно с помощью диалога Table Editor. При проектировании хранилища данных важно определить источник данных (для каждой колонки), метод, которым исходные данные извлекаются, преобразовываются и фильтруются, прежде чем они импортируются в хранилище данных. Хранилище данных может объединять информацию из текстовых файлов и многих баз данных, как реляционных (в том числе других БД на платформе Informix), так и нереляционных, в единую систему поддержки принятия решений. Чтобы поддерживать регулярные обновления и проверки качества данных, необходимо знать источник для каждой колонки в хранилище данных. Для документирования информации об источниках данных используется редактор Data Warehouse Source Editor. Итог Как мы видим, ERwin является действительно простым, а также надежным и гибким средством проектирования хранилищ данных для банковской деятельности. 2