Lekciya12

advertisement
Лекция 12
Проектирование логической структуры
документальной БД
Структура информации и структура данных.
Организация данных в документальных
АИПС STAIRS, IRBIS, Domino/Notes.
Технологии поиска и обработки
документальной информации. Уровневая
модель представления информации в
полнотекстовых БД
Структура информации - схематичная форма
представления сложных композиционных
объектов и связей реальной ПрО
Уровень объектов ПрО
Структура данных - атрибутивная форма
представления свойств и связей ПрО,
ориентированная на выражение описания данных
средствами формальных языков
Логический уровень
Структура записей – целесообразная
(учитывающая особенности физической среды)
реализация способов хранения данных и
организации доступа к ним как на уровне
отдельных записей, так и на уровне элементов
записей
Физический уровень
Организация данных в документальной
АИПС STAIRS
Организация
поисковых
индексов
АИПС STAIRS
Организация поисковых файлов документов
АИПС STAIRS
Логическая структура БД
документальной ИПС IRBIS
Физическая структура БД
документальной ИПС IRBIS
База данных
Файлы данных
Файлы БД
Файлы инвертированных структур
Экстент
Страница
Однородный
Смешанный
Страница Данных
Индексная Страница
Страница текстового
представления словарных
структур
Страница инвертированных
списков
Структура страницы
Заголовок
8 192
байт
Данные
•тип страницы;
•идентификатор (номер)
страницы;
•идентификатор (номер)
следующей страницы;
•идентификатор (номер)
предыдущей страницы;
•число вхождений,
размещенных на странице;
•длина фиксированной
части вхождения
Страницы размещения
Индексные
страницы
Подзаголовок:
•число вхождений (указателей),
размещенных на странице;
•номер первой страницы
инвертированных списков для
множества страниц текстового
представления словарных
структур, описываемых
индексной страницей.
Указатель:
•метка сегмента (для
представления общего словаря в
виде объединения
непересекающихся подмножеств);
•буква (символ), с которой
начинается первое слово на
странице;
•идентификатор (номер
страницы).
Страницы текстового
представления
словарных структур
Подзаголовок:
•метка сегмента;
•номер первой страницы
инвертированных списков;
•количество страниц
инвертированных списков;
•размер свободного
пространства;
•начало первого слова на
странице (первые 4 буквы);
•начало последнего слова на
странице (первые 4 буквы).
Карта размещения слов:
•длина слова;
•длина инвертированного
списка;
•идентификатор страницы
инвертированных списков;
•смещение начала
инвертированного списка
Страницы
инвертированных
списков
•метка сегмента;
•номер первой страницы
текстового представления
словарных структур;
•количество страниц текстового
представления словарных
структур (которым соответствует
текущая страница
инвертированных списков);
•размер свободного
пространства.
Структура документа Notes
Связи документов Notes
Управление
версиями
документа
Обобщенный
алгоритм
автоматизированного
информационного
поиска
Средства, технологии и механизмы поиска
Функциональные аспекты преобразований
представлений информации
Трехуровневая система базовых
информационных компонентов
• Элемент данных – величина, представляющая в
машинной форме логическую (семантически
значимую) единицу информации
• Поле данных – группа (последовательность)
элементов данных, объединенных по какому-либо
функциональному или семантическому признаку
• Документ – структура, связывающая
разнородные поля данных в соответствии с
контекстом (или технологией) использования
информации
Способы хранения
полнотекстовых документов в БД
1. Выделить все значения узлов XML-документа и вносить их
в базу поэлементно в соответствии со схемой БД, т. е.
значению XML-заголовка будет соответствовать имя поля,
определенное в схеме БД.
Сложности:
• для документов, имеющих иерархическую структуру, при выдаче
документа в первоначальном виде;
• при сопоставлением имен полей и XML-заголовков (тэгов элементов)
2. Хранить документ в виде «интегрального» массива
(например, в виде полноценного XML-документа).
Возможность поэлементной выборки и обработки информации
обеспечивается ассоциированной схемой базы данных, связывающей
идентификацию полей в БД с элементами данных, определяемых XMLсредствами.
Download