Базы данных, системы управления базами данных

реклама
Базы данных, системы управления базами данных. Информационнопоисковые системы для туристских организаций
База данных – организованная структура, предназначенная для
хранения информации. Кроме самих данных база данных содержит
также методы и средства, позволяющие каждому пользователю
оперировать только с теми данными, которые входят в его
компетенцию (схема 3).
Существует три модели организации данных в базе:
Сетевая.
Применяется для отражения систем со сложной структурой, в
которой связи между элементами имеют произвольный характер.
Например, сетевая структура интернет (схема 4).
Иерархическая.
Строится в процессе классификации (схема 5). Элементы
иерархической системы распределяются по уровням от первого
(верхнего) до нижнего (последнего) в соответствии с правилами:
на верхнем уровне находится один элемент;
элемент более низкого (младшего уровня) входит в состав только
одного старшего.
Реляционная.
Применяется для описания ряда объектов, обладающих одинаковым
набором свойств.
Например, база данных курьеров фирмы (схема 6).
Реляционная база данных
Элементы реляционной базы данных:
Поле – столбец таблицы, содержащий все возможные значения
одного из свойств. Совокупность полей задает структуру базы
данных.
Запись – строка таблицы, содержащая информацию об одном из
описываемых объектов.
Поля базы данных характеризуются следующими свойствами:
имя поля определяет, как следует обращаться к данным этого поля
при автоматических операциях с базой;
тип поля определяет тип данных, которые могут содержаться в
данном поле;
размер поля определяет предельную длину (в символах) данных,
которые могут размещаться в данном поле;
формат поля определяет способ форматирования данных в ячейках
поля;
маска ввода определяет форму, в которой вводятся данные в поле
(средство автоматизации ввода);
подпись определяет заголовок поля, при отсутствии подписи в
качестве заголовка используется имя поля;
значение по умолчанию (средство автоматизации ввода);
условие на значение – ограничение, используемое для проверки
правильности ввода;
сообщение об ошибке – текстовое сообщение, которое выдается при
попытке неправильного ввода;
обязательное поле определяет обязательность заполнения данного
поля;
пустые строки – свойство, разрешающее ввод пустых строковых
данных;
индексированное поле – для ускорения операции поиска и
сортировки в данном поле.
В полях базы данных могут содержаться данные следующих типов:
текстовый – тип данных, используемый для хранения обычного
неформатированного текста ограниченного размера (до 255
символов);
поле MEMO – тип данных, используемый для хранения больших
объемов текста (до 65535 символов);
числовой – тип данных, используемый для хранения действительных
чисел;
дата/время – тип данных, используемый для хранения календарных
дат и текущего времени;
денежный;
счетчик – специальный тип для уникальных чисел с автоматическим
наращиванием (для нумерации записей);
логический – специальный тип для данных, принимающих только
два значения (да – нет);
поле объекта OLE – специальный тип, предназначенный для
хранения объектов, вставляемых внедрением или связыванием;
гиперссылка – специальное поле для хранения адресов webобъектов;
мастер подстановок – объект, настройкой которого можно
автоматизировать ввод данных, чтобы не вводить их вручную, а
выбирать из раскрывающегося списка.
Один из основополагающих принципов проектирования баз данных
– нормализация. Нормализация позволяет сократить объем хранимой
информации и устранить аномалии в организации хранения данных.
Степень нормализации данных может быть различной. Например,
модель данных соответствует первой нормальной форме, если в
таблицах отсутствуют группы повторяющихся значений.
Первым шагом для нормализации базы данных может служить
определение главного ключа базы данных – поля (совокупности
полей), позволяющего однозначно определить запись.
Проектирование базы данных
Этапы проектирования базы данных:
Постановка задачи. На этом этапе следует решить, какая
информация будет храниться в планируемой базе данных.
Создание таблиц. После того, как содержимое базы данных будет
определено, его следует разбить на разделы, например,
"Сотрудники" или "Заказы". Каждый такой раздел станет отдельной
таблицей в планируемой базе данных.
Определение полей. На этом этапе следует решить, какую
информацию должна содержать каждая таблица. Каждый элемент
информации в таблице называется полем и изображается в
отдельном столбце. Например, таблица "Сотрудники" может
содержать поле "Фамилия"; другим полем в этой таблице может
быть "Дата найма".
Установка связей между таблицами. Изучите каждую таблицу и
решите, каким образом данные в ней должны быть связаны с
данными из других таблиц. При необходимости добавьте новые поля
в существующие таблицы или создайте новые таблицы,
предназначенные специально для связи.
Тестирование и улучшение. Проанализируйте спроектированную
схему базы данных на наличие ошибок. Создайте таблицы и введите
несколько тестовых записей. Проверьте, можно ли извлечь нужную
информацию из ваших таблиц. При необходимости внесите
изменения.
Системы управления базами данных
Для работы с базами данных используют специальные программные
средства – системы управления базами данных (СУБД). СУБД –
комплекс программных средств, предназначенных для создания
структуры новой базы, наполнения ее содержимым, редактирования
содержимого и визуализации информации (визуализация – отбор
отображаемых данных в соответствии с заданными критериями, их
упорядочение, оформление и последующая выдача на устройство
ввода или передача по каналам связи).
Назначение СУБД – управление базой данных; разработка, отладка и
выполнение
вспомогательных
программ;
выполнение
вспомогательных операций; сервис.
Функции СУБД:
организация хранения данных;
определение и инициализация базы данных;
предоставление пользователю доступа к базе;
защита целостности базы данных;
управление доступом к базе данных;
периодичность изменения хранимых данных.
СУБД классифицируются в соответствии с логической моделью
организации базы данных.
Характеристики СУБД:
производительность;
объем запросов клиента;
затраты на обслуживание.
Технология «клиент-сервер»
Для обеспечения простого и относительно дешевого решения
проблемы коллективного доступа к базе данных в локальной сети
применяется архитектура «клиент – сервер».
Высокая пропускная способность локальных сетей обеспечивает
эффективный доступ из одного узла локальной сети к ресурсам,
находящимся в других узлах. Рабочая станция (клиент локальной
сети) предназначена для непосредственной работы пользователя или
категории пользователей и обладает ресурсами, соответствующими
локальным потребностям данного пользователя. При необходимости
можно использовать ресурсы и/или услуги, предоставляемые
сервером. Сервер локальной сети должен обладать ресурсами,
соответствующими
его
функциональному
назначению
и
потребностям сети. Сервер баз данных - фактически обычная СУБД,
принимающая запросы по локальной сети и возвращающая
результаты.
Информационная безопасность
При коллективном доступе к информации возникает проблема
информационной безопасности.
Для обеспечения информационной безопасности пользователей базы
данных разделяют на три группы:
прикладные программисты (отвечают за создание программ,
использующих базу данных);
конечные пользователи (имеют строго ограниченный набор
манипулирования данными, определяемый администратором);
администраторы (создают базу данных, осуществляют контроль
функционирования СУБД, обеспечивают пользователям доступ к
необходимым им данным)
Политика безопасности определяется администратором базы
данных. Администратор определяет привилегии для конкретного
пользователя (группы пользователей), открывая ему доступ к
различным объектам базы данных.
Угроза безопасности – целенаправленное действие, которое
повышает уязвимость накапливаемой, хранимой и обрабатываемой
системы информации и приводит к ее случайному или
предумышленному изменению или уничтожению.
Угрозы можно разделить на:
случайные (ошибки персонала, форс-мажор, ошибки программ),
преднамеренные (хакерские атаки, вирусы).
Группы угроз:
прерывание (прекращение нормальной обработки информации);
перехват (незаконное чтение, копирование данных системы);
модификация (доступ и изменение информации);
разрушение (необратимая потеря данных).
Безопасность базы данных – ее защищенность от случайного или
преднамеренного вмешательства в нормальный процесс ее
функционирования, а также от попыток хищения, модификации или
разрушения ее компонентов.
Цели защиты информации:
предотвращение хищений, искажений информации;
предотвращение несанкционированных действий по уничтожению,
модификации, блокированию, копированию информации;
сохранение конфиденциальности;
обеспечение прав разработчиков базы данных.
Система защиты – совокупность специальных мер правового и
административного характера, организационных мероприятий,
физических и технических средств защиты, а также специального
персонала, предназначенного для обеспечения безопасности базы
данных.
Правовые меры – действующие в стране законы, указы и другие
нормативные акты, регламентирующие правила обращения с
информацией и ответственность за их нарушение. Моральноэтические меры – традиционно сложившиеся в стране нормы
поведения и правила обращения с информацией (их несоблюдение
ведет к падению престижа, авторитета человека или организации).
Организационные (административные) – меры, регламентирующие
процесс функционирования, использование ресурсов базы данных,
деятельности персонала, а также порядок взаимодействия
пользователей таким образом, чтобы максимально затруднить или
исключить
возможность
реализации
угроз
безопасности
информации. Физические меры защиты – различные механические,
электро- или электронно-механические устройства, предназначенные
для создания физических препятствий на путях проникновения
потенциальных нарушителей к абонентам базы данных и
защищаемой информации. А также технические средства
визуального наблюдения, связи и охранной сигнализации.
Технические (аппаратно-программные) средства защиты –
различные электронные устройства и специальные программы,
выполняющие функции защиты информации.
Универсальные способы защиты:
Идентификация (присвоение кода) и аутентификация (установление
подлинности).
Контроль доступа к ресурсам базы данных (регламентируются
порядок работы пользователей и персонала, права доступа к
отдельным файлам в базе данных).
Регистрация и анализ событий, происходящих в базе данных.
Контроль целостности объектов базы данных.
Шифровка данных.
Резервирование ресурсов и компонентов базы данных.
Еще одна возможность снижения вероятности возникновения
случайных угроз – отказ от централизованной системы обработки
данных (схема 7), поскольку кратковременный выход из строя
сервера приводит к роковым последствиям для системы в целом.
При распределенной обработке обработка выполняется на
независимых, но связанных между собой компьютерах,
представляющих распределенную систему (схема 8). При этом риск
возникновения случайных угроз значительно снижается.
Применение СУБД в туризме
Какие базы данных могут пригодиться туристическому офису,
гостинице?
Справочные (например, телефонная база данных).
Финансово правовые полнотекстовые базы данных.
База данных конкретной фирмы.
Проблема поиска документов
Наряду с организацией хранения документов, их необходимо также
быстро и эффективно искать. Со скоростью поиска все относительно
понятно - чем быстрее вы найдете необходимые документы, тем
лучше. А вот с эффективностью поиска документа ситуация не так
проста. Что считать эффективным поиском? Для того чтобы понять
это, рассмотрим модели поиска. Здесь существует два подхода:
Поиск документа, который точно существует в системе. Этот метод
применяется в 90% всех случаев.
Поиск всех документов по определенной теме. Очевидно,
применение данного подхода целесообразно в аналитических и
исследовательских задачах. Для него характерны такие термины, как
полнота поиска - соответствие между найденными документами по
данному запросу и действительному списку документов; шум при
поиске - соотношение (соответствие) соответствующих и
несоответствующих запросу документов.
Существует два основных типа поиска:
Атрибутивный, когда каждому документу присваивается набор
определенных атрибутов (полей). При сохранении документа в архив
поля заполняются определенными значениями, в дальнейшем при
поиске проверяется совпадение значений этих полей запросу. К
атрибутам документа можно отнести имя документа, время создания,
автора, машинистку, имя подразделения, тип документа (факс,
письмо, контракт, спецификация). Ясно, что список таких атрибутов
должен быть расширяем. Их совокупность называется карточкой
документа. Поля могут заполняться произвольно или из
предопределенных справочников. Причем последнее наиболее
предпочтительно, так как сужает области поиска.
Полнотекстовый. В этом случае автоматически обрабатывается все
содержание, как правило, предварительно проиндексированного,
документа, и затем его можно найти по любому входящему в него
слову.
Соответственно, существует зависимость между типами поиска и
подходами к поиску. Для поиска известного документа более
пригоден атрибутивный поиск, тогда как для исследовательского полнотекстовый. Существует комбинация полнотекстового и
атрибутивного поиска, когда атрибуты документа обрабатываются
так же, как все содержание документа. Полнотекстовый поиск
зависит от формата документа и языка, на котором он создан.
Электронный
документ
любого
формата
необходимо
предварительно индексировать. Успешный поиск документа во
многом зависит от реализованного в системе метода индексирования
документов.
Индексирование
документа
обычно
организуется
через
автоматическую обработку его текста и заполнение метаданных.
Автоматическая обработка – полнотекстовое индексирование –
заключается в преобразовании текста документа в набор слов.
Причем обычно для слов сохраняется их позиция в документе, для
обеспечения возможности поиска по словосочетаниям. Существуют
два принципиально различных метода такого индексирования с
учетом применяемых в дальнейшем методов поиска:
Бинарное индексирование – не зависит от языка документа по
причине бинарной или словарной индексации. Поиск ведется на
основе алгоритмов “нечеткого поиска”, т.е. поиска с ошибками. В
этом случае допускается неполное (с заданным количеством ошибок
в начале, середине и конце слова) совпадение слов с шаблоном.
Морфологическое индексирование – производится с учетом
морфологии и семантики языка: индексации слова преобразуются в
словоформы с отсечением суффиксов и окончаний, что позволяет
искать склонения и спряжения шаблонов.
Локальные и глобальные вычислительные сети и системы связи в
туризме
Компьютерная сеть – физическое соединение двух или более
компьютеров (схема 9).
Назначение компьютерной сети – обеспечение совместного доступа
к общим ресурсам.
Ресурсы сети делятся на аппаратные (принтер, емкость жесткого
диска…), программные (вычислительный сервер, сервер баз
данных…), информационные (например, интернет).
Для создания компьютерной сети необходимо:
специальное аппаратное обеспечение (сетевое оборудование);
специальное программное обеспечение (сетевые программные
средства).
Локальные сети
Для организации локальной сети необходимы:
аппаратные средства:
средства линий передачи данных, реализующие перенос сигнала
(коаксиальный кабель, витая пара, оптоволокно…);
средства соединения линий передачи с сетевым оборудованием
узлов, реализующие ввод-вывод данных с компьютеров в сеть
(сетевые платы, адаптеры);
средства увеличения дистанции передачи данных (усилители,
модемы…);
средства повышения емкости линий передачи, позволяющие
реализовать несколько логических каналов в рамках одного
физического соединения;
средства управления информационными потоками в сети,
осуществляющие адресацию сообщений.
программные средства – сетевая операционная система.
В зависимости от способа организации обработки данных и
взаимодействия пользователей, который поддерживается конкретной
сетевой операционной системой, выделяют два типа операционных
систем: иерархические сети и сети клиент/сервер.
В иерархических сетях все задачи, связанные с хранением,
обработкой данных, их представлением пользователям, выполняет
центральный компьютер.
Достоинства иерархических сетей:
отработанная
технология
обеспечения
отказоустойчивости,
сохранности данных;
надежная защита информации, обеспечение секретности.
Недостатки иерархических сетей:
высокая стоимость аппаратного и программного обеспечения,
высокие эксплуатационные расходы;
быстродействие и надежность сети зависят от центрального
компьютера.
В системе клиент/сервер нагрузка по обработке данных
распределяется между клиентом и сервером, поэтому требования к
производительности компьютеров значительно ниже, чем в
иерархических системах.
По организации взаимодействия выделяют два типа систем,
использующих модель клиент/сервер: одноранговая (равноправная)
и сеть с выделенным сервером.
Одноранговая сеть – сеть, в которой нет общего центра управления
взаимодействием рабочих станций и единого устройства хранения
данных. Операционная система такой сети распределена по всем
рабочим станциям, поэтому каждая рабочая станция одновременно
может выполнять функции как сервера, так и клиента.
Достоинства одноранговых сетей:
низкая стоимость;
высокая надежность.
Недостатки одноранговых сетей:
работа такой сети эффективна только при количестве одновременно
работающих станций не более десяти;
трудности организации эффективного управления взаимодействием
рабочих станций и обеспечения секретности информации;
трудности обновления и изменения программного обеспечения
рабочих станций.
В сети с выделенным сервером один из компьютеров (сервер)
выполняет функции хранения данных общего пользования,
организации взаимодействия между рабочими станциями,
выполнения сервисных услуг.
На сервере выполняется
операционная система, все разделяемые устройства (жесткие диски,
принтеры, модемы…) подключаются к нему, он обеспечивает
хранение данных, печать заданий и т.д. Рабочие станции
взаимодействуют через сервер.
Достоинства сетей с выделенным сервером:
высокая скорость обработки данных (определяется быстродействием
сервера);
надежная система защиты информации, обеспечение секретности;
более простое управление (по сравнению с одноранговыми сетями).
Недостатки сетей с выделенным сервером:
дороже одноранговой (нужен отдельный сервер);
меньшая гибкость.
Существуют различные схемы соединения компьютеров в локальной
сети (топологии).
Звезда (схема 10). Информация между любыми двумя
пользователями проходит через сервер. Эта топология отличается
высоким
быстродействием
производительности сервера).
(при
условии
хорошей
Кольцо (схема 11). Основная проблема этой топологии – каждая
рабочая станция должна участвовать в пересылке информации. Если
хотя бы одна станция выходит из строя, вся работа в сети
прекращается.
Общая шина (схема 12). В данной топологии используется один
кабель, к которому подключаются все компьютеры сети, кабель
используется совместно всеми станциями по очереди. К недостаткам
общей шины можно отнести сложность поиска неисправностей в
кабеле и нарушение работы сети при повреждении кабеля.
Кроме трех основных топологий существуют и комбинированные
топологические решения, например, логическая кольцевая сеть –
соединение звезд.
Любая
компьютерная
сеть
характеризуется
топологией,
интерфейсами, сетевыми техническими и программными средствами
и
протоколами.
Протокол
–
правила
взаимодействия
функциональных элементов сети.
Глобальная сеть Интернет
Интернет – мировая сеть сетей.
Каждый компьютер, подключенный к сети Интернет, имеет свой
уникальный 32х-битный IP-адрес. IP-адрес содержит адрес сети и
адрес компьютера в этой сети. Компьютерам, не имеющим
постоянного выхода в интернет, при каждом подключении
выделяется динамический IP-адрес.
В зависимости от количества компьютеров в сети выделяют 3 класса
сетей: А, В и С (схема 13).
В десятичной записи IP-адрес состоит из 4 чисел (о 0 до 255),
разделенных точками, например, 195.34.32.11. В этом случае класс
сети определяет по первому числу в записи:
классу А соответствуют числа от 0 до 127;
классу В соответствуют числа от 128 до 191;
классу С соответствуют числа от 192 до 223.
Но даже десятичная запись IP-адреса, не говоря уже о двоичной,
слишком сложна для восприятия и запоминания пользователями
сети. Для удобства пользователей была введена доменная система
имен – Domain Name System (DNS). DNS ставит в соответствие
каждому IP-адресу уникальное доменное имя. DNS имеет
иерархическую структуру, и каждый доменный адрес состоит из
домена верхнего уровня, домена второго уровня, домена третьего
уровня и т.д. Домен верхнего уровня может быть географическим (ca
– Канада, de – Германия, jp – Япония, ru – Россия, us – США и т.д.)
или административным (edu – образовательная область, com –
коммерческая область, net – компьютерная сеть, org –
некоммерческая область и т.д.)
Для передачи информации в сети Интернет используются протокол
TCP/IP. Протокол TCP (Transmission Control Protocol) –
транспортный протокол – обеспечивает разбиение файлов на IPпакеты в процессе передачи и сборку файлов в процессе получения.
Протокол IP (Internet Protocol) – протокол маршрутизации –
обеспечивает маршрутизацию пакетов, то есть доставку информации
от компьютера-отправителя к компьютеру-получателю.
Наряду с понятием сети Интернет широко используется понятие
World Wide Web (WWW) – Всемирная паутина. WWW –
распределенная информационная система с гиперсвязями,
существующая на технической базе мировой компьютерной сети
Интернет. Наименьшая информационная единица WWW - webстраница, имеющая уникальное имя и расширение htm (html). Webстраница может содержать:
текст;
мультимедийные объекты (иллюстрации, анимация, звуковая
информация, видеоинформация);
динамические объекты (исполнимые модули).
Более крупная структурная единица WWW – web-сайт – несколько
web-страниц, связанных по содержанию и объединенных
гиперссылками. Для просмотра web-страниц и web-сайтов
необходимо специальное программное обеспечение – программыбраузеры, например, Microsoft Internet Explorer.
Таким образом, для подключения к сети Интернет необходимо:
физически подключить компьютер к одному из узлов сети;
получить IP-адрес на постоянной или временной основе;
установить и настроить программное обеспечение, то есть
программы-клиенты тех служб сети, услугами которых
предполагается пользоваться.
Основа технологии WWW – гипертекст – структурированный текст,
содержащий гиперссылки. Структурирование осуществляется с
помощью языка HTML (Hyper Text Markup Language). Для передачи
гипертекста используется специальный протокол – HTTP (HyperText
Transfer Protocol).
Адрес любого файла в WWW определяется URL –
унифицированным указателем ресурса. Адрес URL состоит из трех
частей:
Указание службы, которая осуществляет доступ к данному ресурсу.
Обычно указывают имя протокола, соответствующего данной
службе: http://
Указание доменного имени компьютера, на котором хранится
данный ресурс: http://www.abcde.com
Указание полного пути доступа к файлу на данном компьютере:
http:// www.abcde.com/Files/New/abcdef.zip
Наряду с просмотром web-сайтов пользователь сети Интернет может
воспользоваться и другими службами сети:
Электронная почта – основной вид услуг компьютерных сетей,
позволяющий обмениваться письмами с помощью компьютера.
Списки рассылки – специальные тематические серверы, собирающие
информацию по определенным темам и переправляющие ее
подписчикам в виде сообщений электронной почты.
Телеконференции (Usenet) – система обмена информацией на
определенную тему между абонентами сети.
Служба IRC (Internet Relay Chat) – чат-конференция – предназначена
для прямого общения нескольких человек в режиме реального
времени.
Служба ICQ предназначена для поиска сетевого IP-адреса человека,
подключенного в данный момент к Интернету. Необходимость в
подобной услуге обусловлена тем, что большинство пользователей
Интернета имеют динамический IP-адрес.
Серверы файловых архивов (FTP-серверы) хранят большое
количество файлов разного назначения, доступных для «скачивания»
на компьютер пользователя.
Поиск информации в WWW путем
обращения по адресу;
перехода по гиперссылкам;
использования поисковых серверов.
Скачать