Лекция 12 Проектирование логической структуры документальной БД Структура информации и структура данных. Организация данных в документальных АИПС STAIRS, IRBIS, Domino/Notes. Технологии поиска и обработки документальной информации. Уровневая модель представления информации в полнотекстовых БД Структура информации - схематичная форма представления сложных композиционных объектов и связей реальной ПрО Уровень объектов ПрО Структура данных - атрибутивная форма представления свойств и связей ПрО, ориентированная на выражение описания данных средствами формальных языков Логический уровень Структура записей – целесообразная (учитывающая особенности физической среды) реализация способов хранения данных и организации доступа к ним как на уровне отдельных записей, так и на уровне элементов записей Физический уровень Организация данных в документальной АИПС STAIRS Организация поисковых индексов АИПС STAIRS Организация поисковых файлов документов АИПС STAIRS Логическая структура БД документальной ИПС IRBIS Физическая структура БД документальной ИПС IRBIS База данных Файлы данных Файлы БД Файлы инвертированных структур Экстент Страница Однородный Смешанный Страница Данных Индексная Страница Страница текстового представления словарных структур Страница инвертированных списков Структура страницы Заголовок 8 192 байт Данные •тип страницы; •идентификатор (номер) страницы; •идентификатор (номер) следующей страницы; •идентификатор (номер) предыдущей страницы; •число вхождений, размещенных на странице; •длина фиксированной части вхождения Страницы размещения Индексные страницы Подзаголовок: •число вхождений (указателей), размещенных на странице; •номер первой страницы инвертированных списков для множества страниц текстового представления словарных структур, описываемых индексной страницей. Указатель: •метка сегмента (для представления общего словаря в виде объединения непересекающихся подмножеств); •буква (символ), с которой начинается первое слово на странице; •идентификатор (номер страницы). Страницы текстового представления словарных структур Подзаголовок: •метка сегмента; •номер первой страницы инвертированных списков; •количество страниц инвертированных списков; •размер свободного пространства; •начало первого слова на странице (первые 4 буквы); •начало последнего слова на странице (первые 4 буквы). Карта размещения слов: •длина слова; •длина инвертированного списка; •идентификатор страницы инвертированных списков; •смещение начала инвертированного списка Страницы инвертированных списков •метка сегмента; •номер первой страницы текстового представления словарных структур; •количество страниц текстового представления словарных структур (которым соответствует текущая страница инвертированных списков); •размер свободного пространства. Структура документа Notes Связи документов Notes Управление версиями документа Обобщенный алгоритм автоматизированного информационного поиска Средства, технологии и механизмы поиска Функциональные аспекты преобразований представлений информации Трехуровневая система базовых информационных компонентов • Элемент данных – величина, представляющая в машинной форме логическую (семантически значимую) единицу информации • Поле данных – группа (последовательность) элементов данных, объединенных по какому-либо функциональному или семантическому признаку • Документ – структура, связывающая разнородные поля данных в соответствии с контекстом (или технологией) использования информации Способы хранения полнотекстовых документов в БД 1. Выделить все значения узлов XML-документа и вносить их в базу поэлементно в соответствии со схемой БД, т. е. значению XML-заголовка будет соответствовать имя поля, определенное в схеме БД. Сложности: • для документов, имеющих иерархическую структуру, при выдаче документа в первоначальном виде; • при сопоставлением имен полей и XML-заголовков (тэгов элементов) 2. Хранить документ в виде «интегрального» массива (например, в виде полноценного XML-документа). Возможность поэлементной выборки и обработки информации обеспечивается ассоциированной схемой базы данных, связывающей идентификацию полей в БД с элементами данных, определяемых XMLсредствами.