МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE Ю. А. Зеленков "Введение в базы данных" (главы) 5. 4. Концептуальное моделирование. Пример построения модели "сущность-связь" В предыдущей главе мы кратко рассмотрели методы функционального моделирования, которые позволяют выделить первичные информационные объекты, из которых затем строятся концептуальная и реляционная модели данных. Однако, в случае достаточно простой предметной области выделение информационных объектов можно произвести и без функционального анализа. Один из способов такого проектирования структуры реляционной базы данных описан в этом и следующем разделах. В параграфе 5.6 будет рассмотрен другой способ проектирования реляционной структуры, основанный на декомпозиции универсального отношения. Один пример построения модели "сущность-связь" был приведен в параграфе, где были введены основные понятия этой модели. Здесь мы рассмотрим другой пример, связанный с проектированием базы данных publucations, которая использовалась для практических занятий при изучении языка SQL. БД publications должна хранить сведения о печатных изданиях, а также ссылки на интересные ресурсы в Internet. И те, и другие источники информации будут касаться одной темы, а именно "баз данных". Попробуем выделить интересующие нас сущности и определить связи между ними. Прежде всего, займемся понятием "печатное издание". Что это такое? Мы знаем, что объект "печатное издание" воплощается в виде книги, которую можно полностью описать с помощью следующих характеристик: название, автор, год издания и издатель (издательство). Можно ли на основании этого ввести сущность "книга", а названные характеристики определить в качестве ее атрибутов? Прежде чем сделать это рассмотрим более внимательно отношения между книгой и ее характеристиками: Один автор может написать несколько книг, и, в то же время, одна книга может быть написана несколькими авторами. Следовательно, "книга" и "автор" в данном случае выступают как различные сущности, объединяемые связью N : M. Для того, чтобы определить класс принадлежности сущностей в связи, отметим, что книг без авторов не бывает, как и авторов без книг. Значит, каждая сущность должна иметь обязательный класс принадлежности (кардинальность связи(1,N) : (1,N)). Точно так же один издатель может издавать сразу несколько книг, но каждая конкретная книга издается только в одном месте. Следовательно, мы должны ввести сущность "издатель", ассоциируемую с "книгой" связью типа 1 : N. Т.к. каждая книга кем-то издана, класс принадлежности сущности "издатель" в данной связи будет (1,1), но в то же время мы допускаем хранение сведений об издательствах, чьих книг в нашей базе данных пока нет. Соответственно, класс принадлежности сущности "книга" в этой связи (0,N). По поводу характеристики книги "название" можно сказать следующее: как правило, авторы, пишущие на одну тему, стараются придумывать для своих произведений оригинальные названия. Поэтому, можно уверенно предположить, что каждое название обязательно связано только с одной книгой (и каждая книга имеет только одно название). Следовательно, "название" нужно оставить в списке атрибутов "книги". Те же рассуждения можно повторить и для характеристики "год издания". Ее мы тоже оставим в списке атрибутов "книги". Таким образом, мы определили, что у сущности "книга" имеется два атрибута "название" и "год издания". Как уже говорилось, название, скорее всего, будет однозначно определять данную книгу, чего не скажешь о годе издания. Поэтому объявим ключом сущности атрибут "название" (или "имя_книги"). Что касается всех возможных авторов, то нас интересует только одна их характеристика имя. Поэтому, сущность "автор" имеет только один атрибут "имя_автора", который и является ключом. С сущностью "издатель" дел обстоит несколько сложнее. Практически все крупные издательства имеют сейчас собственные web-страницы, которые могут содержать информацию 1 МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE полезную для пользователей проектируемой базы данных. Поэтому, нужно рассмотреть две характеристики этого объекта: "имя_издателя" и "URL" (uniform resource locator универсальный указатель ресурсов, с помощью которого в Internet определяется путь к web странице). Ясно, что каждый издатель имеет уникальное имя и уникальный url, но прежде чем внести их в список атрибутов, вспомним, что наша база данных должна также содержать ссылки и на другие Internet-ресурсы. Возможно, при дальнейшем анализе возникнет необходимость во введении отдельной сущности "URL". Поэтому "имя_издателя" внесем в список атрибутов сущности "издатель", а "URL" будем считать атрибутом отдельной сущности "web - страница", ассоциируемой с "издателем" связью (1,1):(1,1). Теперь настала пора заняться объектом "ресурс Internet". Его мы можем описать с помощью понятий "имя ресурса", "url", "автор". Внимательно рассмотрев связи этих понятий с описываемым объектом, можно прийти к заключению, что "имя_ресурса" и "url" однозначно с ним связаны, т.е. являются атрибутами. В то же время, "автор" является отдельной сущностью (один ресурс может иметь много авторов, и один автор может быть создателем многих web страниц). Т.к. мы уже ранее ввели сущность "автор" просто определим характеристики ее связи с сущностью "Internet-ресурс". Из сказанного выше следует, что эти сущности объединяются связью n : m, в то же время, автор какой-либо книги может не иметь собственной web страницы, а авторы некоторых Internet ресурсов не указывают своих имен (т.е. можно формально сказать, что эти ресурсы не имеют авторов). Следовательно, класс принадлежности обеих сущностей будет необязательным. Прежде чем объявить нашу модель готовой, проверим еще раз определение каждой сущности. Внимательный анализ покажет, что построенная модель имеет несколько ошибок: 1. Сущность "автор" имеет обязательный класс принадлежности в связи с сущностью "книга". Это означает, что мы не сможем добавить в базу данных сведения о человеке, который создал собственный web - сайт, но не написал ни одной книги. Для того, что бы устранить это ограничение изменим класс принадлежности сущности "книга" в рассматриваемой связи "автор" - "книга" на необязательный. 2. При анализе объекта "издатель" мы предположили, что сущность "web-страница" может быть объединена с сущностью "Internet-ресурс". Однако, мы видим, что эти сущности имеют разный набор атрибутов, следовательно, выполнить такое объединение нельзя. Вспомним, что в противном случае, предполагалось единственный атрибут сущности "web - страница" присоединить к атрибутам сущности "издатель". Тем не менее, не будем этого делать, в следующем разделе мы увидим, что с помощью правил порождения реляционных отношений из модели "сущность-связь" в том и в другом случае мы получим одинаковый результат. Готовая модель "сущность-связь" представлена на следующем рисунке: 2 МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE 5.5. Правила порождения реляционных отношений из модели "сущность-связь" 5.5.1. Бинарные связи Тип связи (1,1):( 1,1) (1,1):( 0,1) (1,1):( 0,n) (0,1):( 0,1) Пример связи Правило построения отношений Требуется только одно отношение. Первичным ключом данного отношения может быть ключ любой из сущностей. Для каждой сущности создается свое отношение, при этом ключи сущностей служат ключами соответствующи х отношений. Кроме того, ключ сущности с обязательным классом принадлежности добавляется в качестве внешнего ключа в отношение, созданное для сущности с необязательным классом принадлежности . Необходимо использовать три отношения: по одному для каждой сущности (ключи сущностей служат первичными ключами отношений) и одно отношение 3 Отношения МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE для связи. Отношение, выделенное для связи, имеет два атрибута внешних ключа - по одному от каждой сущности. (0,1):( 0,n) (0,1):( 1,n) n:m Формируются три отношения: по одному для каждой сущности, причем ключ каждой сущности служит первичным ключом соответствующе го отношения, и одно отношение для связи. Отношение, выделенное для связи, имеет два атрибута внешних ключа - по одному от каждой сущности. В этом случае всегда используются три отношения: по одному для каждой сущности, причем ключ каждой сущности служит первичным ключом соответствующе го отношения, и одно отношение для связи. Последнее отношение должно иметь среди своих атрибутов внешние ключи, по одному от каждой сущности. 4 МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE 5.5.2. N - арные связи Общее правило: для представления n-сторонней связи всегда требуется n+1 отношение. Например, в случае трехсторонней связи необходимо использовать четыре отношения, по одному для каждой сущности (причем ключ сущности служит первичным ключом соответствующего отношения), и одно для связи. Отношение, порождаемой для связи, будет иметь среди своих атрибутов ключи от каждой сущности. 5.5.3. Иерархические связи К сожалению, надо признать, что реляционная модель мало подходит для отображения отношений наследования между сущностями (иерархических связей). Напомним, что в таких связях дочерние сущности наследуют все атрибуты родительской, и каждая из них обладает своим уникальным набором дополнительных атрибутов. В параграфе http://alpha.netis.ru/koi/db/ch_2_2.html приведен пример такой связи между родительской сущностью ЗАКАЗЧИК и дочерними ЗАРУБЕЖНОЕ_ПРЕДПРИЯТИЕ и ОТЕЧЕСТВЕННОЕ_ПРЕДПРИЯТИЕ. В этом случае возможны два варианта построения реляционных отношений. Согласно первому для иерархической структуры создается одно отношение, которое содержит атрибуты связи и всех сущностей. Для примера, из параграфа http://alpha.netis.ru/koi/db/ch_2_2.html мы должны создать отношение ЗАКАЗЧИК (НАЦ_ПРИНАДЛЕЖНОСТЬ, ВАЛЮТА, ЯЗЫК, ФОРМА_СОБСТВЕННОСТИ). Недостаток такого способа - для каждого кортежа часть атрибутов всегда будет неопределена. Т.е. для отечественного предприятия всегда будут иметь значения NULL атрибуты ВАЛЮТА и ЯЗЫК, а для зарубежного атрибут ФОРМА_СОБСТВЕННОСТИ. Более того, этот факт является требованием целостности сущности, следовательно, для СУБД должны быть явно указаны несколько списков атрибутов (по числу дочерних сущностей), причем определенные значения могут быть присвоены только членам одного из них. Реляционная модель не поддерживает такого ограничения, на практике его реализуют с помощью триггеров. По второму способу генерируется по одному отношению для каждой дочерней сущности. Каждое из этих отношений включает атрибуты родительской сущности и связи кроме атрибутов дискриминантов, т.е. ЗАРУБЕЖНОЕ_ПРЕДПРИЯТИЕ (ВАЛЮТА, ЯЗЫК) и ОТЕЧЕСТВЕННОЕ_ПРЕДПРИЯТИЕ (ФОРМА_СОБСТВЕННОСТИ). Недостатком данного способа является невозможность получить в одном запросе список всех заказчиков. Оба описанных способа представлены на рисунке: 5 МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE Следует отметить, что построенные таким образом реляционные отношения, не являются окончательной схемой базы данных. Их необходимо проверить на избыточные функциональные зависимости и привести к NFBK или нормальной форме более высокого порядка. Применив все эти правила к модели "сущность-связь" базы данных publications, построенной в предыдущем параграфе, получим следующую реляционную структуру: Синим цветом на диаграмме выделены первичные ключи, красным - внешние. Отношения, созданные для представления связей, обозначены серыми прямоугольниками, для сущностей желтыми прямоугольниками. 5.6. Проектирование реляционной базы данных на основе декомпозиции универсального отношения Как мы видели из предыдущего материала, проектирование реляционной базы данных фактически сводится к устранению избыточных функциональных зависимостей (а при необходимости избыточных многозначных зависимостей и зависимостей по соединению) из предварительного набора отношений, полученного каким-либо способом (например, из диаграммы сущность связь). В том случае, когда проектируемая база данных сравнительно невелика (общее число атрибутов не превышает 20-30), предварительный набор отношений можно представить в виде одного отношения, называемого универсальным. В него включаются все представляющие интерес атрибуты. В качестве примера построим универсальное отношение для базы данных publications: 6 МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE PUBLICATIONS(AUTHOR, TITLE, YEARPUB, PUBLISHER, PUBL_URL, SITE, SITE_URL) здесь AUTHOR - имя автора TITLE - название книги YEARPUB - год издания книги PUBLISHER - наименование издательства PUBL_URL - ссылка на веб-сервер издательства SITE - наименование Internet-ресурса SITE_URL - указатель на Internet-ресурс Функциональные зависимости, имеющиеся в полученном отношении, представлены на следующей схеме: (1) TITLE --> YEARPUB (2) -----> PUBLISHER --> PUB_URL (3) SITE ---> SITE_URL(4) Для устранения избыточной функциональной зависимости (3) декомпозируем исходное отношение на два: PUBLICATIONS(AUTHOR, TITLE, YEARPUB, PUBLISHER, PUBL_URL, SITE) WWWSITES(SITE,SITE_URL) Приняв во внимание, что атрибут SITE требует типа данных "строка" и, следовательно, его использование в качестве первичного ключа не очень удобно, введем в отношении WWWSITES первичный ключ SITE_ID, основанный на целом типе данных. (Такая подстановка, хотя и ведет к избыточности с точки зрения теории, на практике позволяет ускорить обработку данных. Поэтому, в дальнейшем примем за правило заменять подобным образом строковые первичные ключи, не оговаривая это в каждом отдельном случае). Теперь наши отношения примут вид : PUBLICATIONS(AUTHOR, TITLE, WWWSITES(SITE_ID,SITE,SITE_URL) YEARPUB, PUBLISHER, PUBL_URL, SITE_ID) Устраним функциональную зависимость (2): PUBLICATIONS(AUTHOR, TITLE, PUBLISHERS(PUB_ID,PUBLISHER,PUBL_URL) WWWSITES(SITE_ID,SITE,SITE_URL) YEARPUB, PUB_ID, SITE_ID) Теперь мы имеем следующие избыточные функциональные зависимости в отношении PUBLICATIONS: TITLE --> YEARPUB |-----> PUB_ID Для их устранения необходимо вынести атрибуты TITLE, YEARPUB и PUB_ID в отдельное отношение: PUBLICATIONS(AUTHOR, TITLE_ID, SITE_ID) TITLES(TITLE_ID,TITLE,YEARPUB,PUB_ID) PUBLISHERS(PUB_ID,PUBLISHER,PUBL_URL) WWWSITES(SITE_ID,SITE,SITE_URL) Теперь наша база данных находится в третьей нормальной форме, однако мы видим, что полученный набор отношений не совпадает с набором, полученным из модели "сущностьсвязь". Для того, чтобы разобраться в причинах этого противоречия, рассмотрим отношение PUBLICATIONS вместе с его данными. Добавим автора, который имеет две книги и две webстраницы: R AUTHO J.Doe ID TITLE_ 1 D SITE_I 1 7 МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE J.Doe 2 1 J.Doe 1 2 J.Doe 2 2 Из этой таблицы становится ясно, что в рассматриваемом отношении существует многозначная зависимость AUTHOR ->> TITLE_ID | SITE_ID. Для ее устранения приведем отношение к четвертой нормальной форме, для чего разобьем его на три. AUTHORS(AU_ID,AUTHOR)PUBLICATIONS(AUTHOR,TITLE_ID,SITE_ID) TITLEAUTHORS(TITLE_ID,AU_ID) -> WWWSITEAUTHORS(AU_ID,SITE_ID) Окончательно получим : AUTHORS(AU_ID,AUTHOR) TITLEAUTHORS(TITLE_ID,AU_ID) WWWSITEAUTHORS(AU_ID,SITE_ID) TITLES(TITLE_ID,TITLE,YEARPUB,PUB_ID) PUBLISHERS(PUB_ID,PUBLISHER,PUBL_URL) WWWSITES(SITE_ID,SITE,SITE_URL) Теперь схема базы данных соответствует структуре, полученной другими способами. Анализ показывает, что избыточные функциональные зависимости в ней отсутствуют. Литература: 1. Т. Тиори, Дж. Фрай. Проектирование структур баз данных. М, 1985. 2. Дж. Хаббард. Автоматизированное проектирование баз данных. М, 1984. 3. В. В. Бойко, В. М. Савинков. Проектирование баз данных информационных систем. М, 1989. 4. А. М. Вендров. CASE-технологии. Современные методы и средства проектирования информационных систем 5. Г. Н. Калянов. CASE: структурный системный анализ (автоматизация и применение). М.: ЛОРИ. 1996. 6. Дэвид А. Марка, Клемент Л. МакГоуэн. Методология структурного анализа и проектирования SADT. -М.:1993. 7. Г. Н. Калянов, А. В. Козлинский, В. Н. Лебедев. Сравнительный анализ структурных методологий. //СУБД 1997, N 5-6, с. 75-78. 8. Г. Джексон. Проектирование реляционных баз данных для использования с микроЭВМ. М, Мир, 1991. 9. Д. Ульман. Основы систем баз данных. М.1983. 8