RCDL2002

advertisement
Информационные ресурсы Сибирского отделения РАН
Объектная модель
документов в
электронных коллекциях
Шокин Ю.И., Федотов А.М., Леонова Ю.В
ИРИС
Документы
В основу создания ИРИС и электронных
коллекций положена концепция динамической
системы формирования документов.
Используемая концепция основана на
расширенной объектной модели документа, в
которой каждый тип документов, содержащих
информацию о конкретных фактах,
представляется в виде набора объектов со
своими характеристиками и атрибутами
(наподобие тому, как это принято в объектных
языках программирования), т.е. любая сущность
реального мира моделируется в виде объекта.
RCDL2002
Объектная модель документов
Документы
Специфика
применения
объектноориентированного подхода для организации и
управления информационными документами и
ресурсами потребовала уточненного толкования
классических концепций и некоторого их
расширения. Это определяется потребностями
долговременного хранения объектов во внешней
памяти, ассоциативного доступа к объектам,
обеспечения
согласованного
состояния
в
условиях множественного доступа и тому
подобных возможностей, свойственных базам
данных.
RCDL2002
Объектная модель документов
Документы
В целом, конструируя технологию описания
документов, мы основывались на методике RDF,
которая предлагается консорциумом W3C в
качестве стандарта для определения и
обработки
метаданных
сетевых
информационных ресурсов. Специфика RDF
состоит в том, что механизмы описания
ресурсов, не делают никаких предположений
относительно специфики предметной области и
могут быть удобны для описания и обработки
сведений о любой области. Примечательной
стороной RDF является то, что он позволяет
сделать утверждения не только о документах
(ресурсах), но и о самих утверждениях.
RCDL2002
Объектная модель документов
Основные схемы данных
В информационном пространстве события,
факты и любые другие сущности реального
мира существуют только в форме документов.
Вследствие
этого
документ
является
основным объектом, с которым оперирует
любая информационная система.
Под документами мы понимаем любое
описание реальной сущности (объекта, факта
или
понятия),
которые
составляют
информационное наполнение системы.
RCDL2002
Объектная модель документов
Основные схемы данных
RCDL2002
В основе реализации системы лежит метамодель,
исходящая из того, что документ характеризуется
набором присущих ему атрибутов и методов,
характеризующих связи с другими документами.
Информация о документах системы, их атрибутах и
методах поддерживается сервером метаданных,
содержащий метаописания системы и метаописания
отдельных коллекций. Сервер метаданных является
отдельной частью системы, содержащей описание
информационной
модели
предметной
области,
параметров настройки стандартных функций системы.
По информации сервера метаданных осуществляется
динамическая генерация схем базы данных системы и
ведение служебных баз данных, в которых хранятся
данные, обеспечивающие поддержку стандартных
функций системы и динамически определяемые
отношения между документами.
Объектная модель документов
Основные схемы данных
В
информационной
системе
реальные
сущности существуют либо непосредственно в
виде документа, в который ее представляет:
описывает, представляет или моделирует,
либо в виде упоминания об этой сущности,
которые присутствуют в других документах,
т.е. содержат опосредованную информацию об
этой сущности (информация об этой сущности
или ссылается на информацию об этой
сущности).
RCDL2002
Объектная модель документов
Основные схемы данных
Таким образом, под Документом понимается
целостный информационный объект (в том смысле
как это понимается в языках объектноориентированного
программирования)
фиксированного
Класса,
помещенный
в
информационное пространство ИРИС, который
описывает, представляет, отображает или
моделирует некоторую сущность реального мира.
Класс
документа
определяется
смысловую
структуру документа, атрибуты и функции, а так же
методы доступа к нему. В Классе задается
функциональность:
множество
Документов,
принадлежащих одному Классу, выполняют
одинаковые функции.
RCDL2002
Объектная модель документов
Основные схемы данных
Допускается порождение нового Класса на
основе уже существующего Класса –
наследование. В этом случае новый Класс,
называемый подклассом существующего
Класса наследует все атрибуты и методы
существующего Класса.
В подклассе, кроме того, могут быть
определены
дополнительные
атрибуты,
функции и методы.
RCDL2002
Объектная модель документов
Основные схемы данных
Очевидно, что приведенный выше набор функций
документа не является исчерпывающим и может
быть расширен. Поясним смысл основных функций
документа:
Документ-Описание – содержит описание реальной
сущности, например, описание некоторой организации
или конкретной персоны, информация о которых
используется в информационной системе, т.е. содержит
информацию о некоторой сущности, но при этом сам не
является сущностью. Отметим, что описательными
документами также являются описания информационных
ресурсов в каталоге или описание библиографических
источников.
RCDL2002
Объектная модель документов
Основные схемы данных
Документ-Представление – непосредственно является
конкретной сущностью, например, научная статья, книга
или фотография. Кроме того, к этому классу относятся
документы, которые содержат информацию о некоторой
сущности и при этом сами является сущностью,
например, библиографические карточки.
Документ-Отображение – является отображением
другого документа, т.е. его точной копией или
электронным образом, например, PDF (или PS)-файл
статьи, сканированный документ и т.д.
Документ-Моделирование – моделирует некоторую
реальную
сущность,
например,
с
помощью
компьютерной программы.
RCDL2002
Объектная модель документов
Статус документа
Помимо принадлежности к Классу Документ обладает
Статусом. Статус определяет состояние документа
(статичность, версия и т.п.), возможность создания
КОПИЙ документа и/или наличие оригинала, наличие
авторского и имущественного прав, и т.п.
RCDL2002
Объектная модель документов
Статус документа
Права собственности и копии документа
Владелец документа отвечает за хранение и представление документа
пользователями системы. В нашем понимании ИРИС является владельцем
всех представленных в ней документов. Документ может не принадлежать
системе, т.е. его «владельцем» может быть другая информационная
система, а нашей системе содержится только его описание или ссылка на
этот документ.
Автор – документ, представленный может иметь авторство. Это особенно
важно при публикации научных электронных коллекций. Автор несет
ответственность за содержание документа.
Собственник документа несет ответственность за содержание документа
и имеет право пользоваться и распоряжаться принадлежащим ему
документом по своему усмотрению (передавать права собственности).
Собственниками документов могут быть организации или лица,
зарегистрированные в системе.
RCDL2002
Объектная модель документов
Статус документа
Документ характеризуется наличием оригинала и копий
или дубликатов. В распределенной системе Документ
может быть представлен в различных местах (а так же
иметь нелегальные или платные копии).
Оригинал – «первый» экземпляр документа (экземпляр,
принадлежащий собственнику или автору).
Копия – документ, полностью воспроизводящий
информацию оригинала и все его внешние признаки или
часть их.
RCDL2002
Объектная модель документов
Статус документа
Статичность документа и версии документов
Документ в информационном пространстве не является
застывшим объектом. Документ может передаваться для
обработки
другим
пользователям,
над
документом
выполняются операции, которые могут менять его состояние
или значения его свойств, удалять документы и создавать
новые документы. Т.е. у документа есть определенный
жизненный цикл. Понятие жизненного цикла документа
стало, в определенном смысле, уже стандартом.
RCDL2002
Объектная модель документов
Статус документа
Статичность документа и версии документов
Жизненный цикл документа включает в себя следующие
фазы:

Создание/ввод документов

Модификация документов

Утверждение документов

Опубликование документов

Повторное использование документов

Устаревание и передача документов в архив
RCDL2002
Объектная модель документов
Статус документа
Статичность документа и версии документов
Коллективный характер работы с документами, требование
повторного использования содержащихся в них сведений
выводят в число базовых характеристик управление версиями
документов, т.е. хранение всех промежуточных вариантов с
историей модификаций и возможность порождения нового
документа на основе любой из существующих версий.
RCDL2002
Объектная модель документов
Статус документа
Права доступа к документу
Право доступа
разрешает пользователю исполнять
определённый набор действий над документом. ИРИС имеет
функциональные
возможности,
чтобы
установить
дифференцированные права доступа для групп или
индивидуальных пользователей к документам. Определенные
права доступа для документа могут быть назначены для
индивидуальных пользователей или группы пользователей. С
другой стороны, документы могут также быть сделаны
доступными для анонимного доступа из Internet. Документ
всегда связан с определенным пользователем — своим
собственником. Права доступа приписываются документу.
Собственнику разрешено изменять права доступа к
документу. Имеется три стандартных набора прав доступа к
документам: административный, служебный и публичный.
RCDL2002
Объектная модель документов
ОБЪЕКТНАЯ МОДЕЛЬ ДОКУМЕНТА
Исходя из объектной модели представления информации, в
основе нашей системы лежат «метаданные» — это
структурированные сведения о документе или ресурсе,
представляющие его свойства (атрибуты) и функции. На
основе метаданных осуществляется поиск документов
(ресурсов), вывод результатов поиска, управление ресурсами,
взаимодействие с ними. Формальное определение смысловой
структуры Документа дается (мета) описанием Класса
документа (аналог DTD), в котором каждый тип документов
представляется в виде набора объектов со своими
характеристиками и атрибутами.
RCDL2002
Объектная модель документов
ОБЪЕКТНАЯ МОДЕЛЬ ДОКУМЕНТА
В модели RDF документ рассматривается как частичноупорядоченный набор абстрактных объектов (элементов),
обладающие свойствами (атрибутами) и имеющими
идентификатор. Любой объект при своем создании получает
генерируемый системой уникальный идентификатор, который
связан с объектом во все время его существования и не
меняется при изменении состояния объекта. RDF позволяет
определять произвольные объекты в документе. Атрибуты
(имена и значения) должны выбираться из словарей,
связанных с теми или иными предметными областями.
Формально RDF не накладывает никаких ограничений на
значения атрибутов объектов, перекладывая создание
соответствующих
словарей
на
заинтересованные
организации. Основной словарь имен объектов системы
создан на основе словарей стандартных схем метаданных.
RCDL2002
Объектная модель документов
Основные схемы данных
В качестве схем данных описания ДОКУМЕТОВ ИРИС
используются принятые в мировой практике
стандартные схемы (GILS, Collection, CIMI, GEO,
ZTHES, EXPLAIN, RUSMARC, USMARC).
К сожалению публичные источники содержат тезаурусы
(описания схем) преимущественно каталогизированной
информации (или библиографии) – поэтому основной
задачей является выработка корпоративного стандарта
описаний.
RCDL2002
Объектная модель документов
Основные схемы данных
Метаописание Класса документов дает структурные
свойства объектов, составляющих документ. При
этом структура объекта определяется как линейная
последовательность атрибутов и/или иерархий
атрибутов.
name – имя объекта;
title – название объекта;
request – обязательность объекта;
search – возможность включения в поиск и в
навигацию;
template_input (output) – шаблоны ввода/вывода;
order – порядок объекта;
type – тип объекта;
access – уровень доступа к объекту.
RCDL2002
Объектная модель документов
Основные схемы данных
Каждый объект имеет состояние, поведение и
содержание. Состояние объекта – набор значений его
атрибутов, значение атрибута объекта – это тоже
некоторый объект или множество объектов. Поведение
объекта – набор методов доступа (программный код),
оперирующих над состоянием и содержанием объекта.
Содержание объекта – информационное наполнение
данного объекта: это может быть ссылкой (link) на
объект или на другой документ или на часть другого
документа.
Состояние
и
поведение
объекта
инкапсулированы в объекте; взаимодействие между
объектами
производится
на
основе
передачи
сообщений и выполнения соответствующих методов.
Поведение объекта зависит от запроса к документу, т.е.
в зависимости от запроса и уровня доступа объект
модель документов
RCDL2002
может менять своеОбъектная
содержание.
Информационные ресурсы




RCDL2002
Электронная коллекция в нашем понимании - это набор
документов, которые содержат фактографическую
информацию имеющую одинаковое формальное описание
структуры. Работа с любой электронной коллекцией
разделяется на две части: работа с описаниями коллекции и
документов (работа с метаинформацией) и работа с
содержательной частью коллекции (работа с
фактографической информацией).
Коллекция: набор однотипных документов -- характеризуется
своим описанием и стилем коллекции, а также описанием
структуры, входящих в нее документов.
Документ: характеризуется своим описанием и стилем
документа, а также описанием характеристик (атрибутов,
свойств и функций) объектов его составляющих.
Объект: определяется заданием типа объекта и описанием
его атрибутов, свойств и функций.
Объектная модель документов
Структурная схема коллекции
Коллекция:
метаинформация,
стиль
Документ:
метаинформация,
стиль
ОБЪЕКТ:
метаинформация
RCDL2002
Объектная модель документов
Структурная схема коллекции
Совокупность документов и их
метаописаний, принадлежащих
фиксированному Классу и помещенных в
информационное пространство ИРИС,
является базовой информационной
структурой (БИС) системы.
RCDL2002
Объектная модель документов
Структурная схема коллекции
Основной пользовательской структурой
системы является коллекция. Коллекция
может состоять либо из одной БИС,
либо
быть
динамическим
(в
зависимости от запроса) соединением
(join) БИС, т.е.
<Коллекция> ::= <БИС> [<Коллекция>]
RCDL2002
Объектная модель документов
Унификация доступа
СЛОВАРЬ ИРИС
Конкретные значения характеристик атрибутов
объектов (имена и значения) должны выбираться из
общих словарей или тезаурусов, которые связанны с
предметной областью коллекции, и записываться в
соответствии с формальным стандартом для описания
элементов метаданных. Помимо унификации доступа,
словарь дает схему классификации предметной
области коллекции.
В соответствии с многоязычной спецификой нашей
системы словарь имен объектов является
многоязычным.
RCDL2002
Объектная модель документов
Унификация доступа
СЛОВАРЬ ИРИС
Словарь имен объектов системы – набор
многоязычных термов и структурных атрибутов.
Многоязычный терм – согласованная совокупность
одноязычных термов, содержащих характеристики
атрибута на языках системы, и включающая средства
для указания их эквивалентности. Средства
установления соответствия термов одноязычных
версий реализуются введением кода эквивалентности
термов (идентификационного кода) в многоязычный
терм и кодов языков-компонент для соответствующих
одноязычных термов.
RCDL2002
Объектная модель документов
Унификация доступа
СЛОВАРЬ ИРИС
Основа метаописаний – словари.
Каждый терм (одноязычный), используемый в
объектах ДОКУМЕНТОВ состоит из пяти частей:

name – имя терма;

value – значение терма (название терма);
 type - тип терма;

note – описание: представляет содержание и
внутреннюю природу терма;

synonyms – список синонимов терма;
 relation – поисковый терм .
.
RCDL2002
Объектная модель документов
Унификация доступа
Атрибут Type :

Word – слово из группы не пустых символов;
 Word list – одно или несколько слов
разделенных пробелами;

String – строка рассматривается целиком,
без разделения на отдельные слова;
 Text – одна или несколько строк;

Numeric string – строка, представляющая
собой число;

Date – дата;

UID – идентификатор документа;
Structure – структура: описывает составной тип
объекта.
RCDL2002
Объектная модель документов
Информационные ресурсы
RCDL2002
Name
Value
Synonyms
Personal_name
Имя персоны
pname: name_personal
First_name
Имя
fname, name_first
Middle_name
Отчество
mname, name_middle
Last_name
Фамилия
lname, name_last,
family_name
Sex
Пол
Birth_day
Дата рождения
Email
e-mail
Bday
Объектная модель документов
Схема обработки запросов
Приложение
Ввод
Document Parser
На ввод
Редактирование
Ввод
Список IDкодов
Обновление
Ответ
Просмотр
На поиск
ID-код
Просмотр
List_show
Удаление
Удаление
Метод
запроса
(U, L, D)
RCDL2002
Объектная модель документов
Принцип
построения
ИРИС
Информационная
система
СО РАН
Хранилище данных (центральный диспетчер)
В основу создания ИС
положен принцип
информационных хранилищ,
с учетом поддержки уже
функционирующих
технологий.
В основу технологических
решений заложены
принципы обработки
метаописаний данных на
основе серверов
метаданных и Z39.50.
Для СУБД не имеющих
средств сетевого доступа
используется HTTP-SQL
шлюз для организации
доступа к данным и (или)
технологии Z39.50.
RCDL2002
Сервер обработки запросов
SQL для
доверительных БД
Сервер
Z39.50
Серверы
метаданных
Серверы
каталогов
HTTP(FTP)-SQL шлюз
БД
БД
SQL-БД SQL-БД
ODBC
Локальные
HTTP БД
БД
Объектная модель документов
Информационные ресурсы
Динамическая
система
электронных
публикаций
Разработана концепция динамической системы формирования электронных документов с среде Интернет, в основе которой лежит представление документа, содержащего информацию о конкретных
фактах, в виде набора объектов со своими характеристиками и атрибутами. При реализации используется трехуровневая модель представления данных и метаданных,
поддерживаемая стандартом
CORBA.
RCDL2002
Объектная модель документов
Информационные ресурсы
Электронные
коллекции
Созданная система позволяет
использовать принципиально
новые возможности которые
предоставляют современные
информационные технологии
по накоплению, оперативному
управлению большими объемами биологических данных и
решения задач по сохранению
биоразнообразия. Позволяет
осуществлять комплексные
исследования, научный
прогноз и принятие
обоснованных управленческих решений для рационального использования
природных ресурсов.
RCDL2002
Объектная модель документов
RCDL2002
Объектная модель документов
RCDL2002
Объектная модель документов
RCDL2002
Объектная модель документов
RCDL2002
Объектная модель документов
RCDL2002
Объектная модель документов
Объектная модель
документов в
электронных коллекциях
Благодарю
за
внимание!
RCDL2002
Объектная модель документов
Download