Информационные ресурсы Сибирского отделения РАН Объектная модель документов в электронных коллекциях Шокин Ю.И., Федотов А.М., Леонова Ю.В ИРИС Документы В основу создания ИРИС и электронных коллекций положена концепция динамической системы формирования документов. Используемая концепция основана на расширенной объектной модели документа, в которой каждый тип документов, содержащих информацию о конкретных фактах, представляется в виде набора объектов со своими характеристиками и атрибутами (наподобие тому, как это принято в объектных языках программирования), т.е. любая сущность реального мира моделируется в виде объекта. RCDL2002 Объектная модель документов Документы Специфика применения объектноориентированного подхода для организации и управления информационными документами и ресурсами потребовала уточненного толкования классических концепций и некоторого их расширения. Это определяется потребностями долговременного хранения объектов во внешней памяти, ассоциативного доступа к объектам, обеспечения согласованного состояния в условиях множественного доступа и тому подобных возможностей, свойственных базам данных. RCDL2002 Объектная модель документов Документы В целом, конструируя технологию описания документов, мы основывались на методике RDF, которая предлагается консорциумом W3C в качестве стандарта для определения и обработки метаданных сетевых информационных ресурсов. Специфика RDF состоит в том, что механизмы описания ресурсов, не делают никаких предположений относительно специфики предметной области и могут быть удобны для описания и обработки сведений о любой области. Примечательной стороной RDF является то, что он позволяет сделать утверждения не только о документах (ресурсах), но и о самих утверждениях. RCDL2002 Объектная модель документов Основные схемы данных В информационном пространстве события, факты и любые другие сущности реального мира существуют только в форме документов. Вследствие этого документ является основным объектом, с которым оперирует любая информационная система. Под документами мы понимаем любое описание реальной сущности (объекта, факта или понятия), которые составляют информационное наполнение системы. RCDL2002 Объектная модель документов Основные схемы данных RCDL2002 В основе реализации системы лежит метамодель, исходящая из того, что документ характеризуется набором присущих ему атрибутов и методов, характеризующих связи с другими документами. Информация о документах системы, их атрибутах и методах поддерживается сервером метаданных, содержащий метаописания системы и метаописания отдельных коллекций. Сервер метаданных является отдельной частью системы, содержащей описание информационной модели предметной области, параметров настройки стандартных функций системы. По информации сервера метаданных осуществляется динамическая генерация схем базы данных системы и ведение служебных баз данных, в которых хранятся данные, обеспечивающие поддержку стандартных функций системы и динамически определяемые отношения между документами. Объектная модель документов Основные схемы данных В информационной системе реальные сущности существуют либо непосредственно в виде документа, в который ее представляет: описывает, представляет или моделирует, либо в виде упоминания об этой сущности, которые присутствуют в других документах, т.е. содержат опосредованную информацию об этой сущности (информация об этой сущности или ссылается на информацию об этой сущности). RCDL2002 Объектная модель документов Основные схемы данных Таким образом, под Документом понимается целостный информационный объект (в том смысле как это понимается в языках объектноориентированного программирования) фиксированного Класса, помещенный в информационное пространство ИРИС, который описывает, представляет, отображает или моделирует некоторую сущность реального мира. Класс документа определяется смысловую структуру документа, атрибуты и функции, а так же методы доступа к нему. В Классе задается функциональность: множество Документов, принадлежащих одному Классу, выполняют одинаковые функции. RCDL2002 Объектная модель документов Основные схемы данных Допускается порождение нового Класса на основе уже существующего Класса – наследование. В этом случае новый Класс, называемый подклассом существующего Класса наследует все атрибуты и методы существующего Класса. В подклассе, кроме того, могут быть определены дополнительные атрибуты, функции и методы. RCDL2002 Объектная модель документов Основные схемы данных Очевидно, что приведенный выше набор функций документа не является исчерпывающим и может быть расширен. Поясним смысл основных функций документа: Документ-Описание – содержит описание реальной сущности, например, описание некоторой организации или конкретной персоны, информация о которых используется в информационной системе, т.е. содержит информацию о некоторой сущности, но при этом сам не является сущностью. Отметим, что описательными документами также являются описания информационных ресурсов в каталоге или описание библиографических источников. RCDL2002 Объектная модель документов Основные схемы данных Документ-Представление – непосредственно является конкретной сущностью, например, научная статья, книга или фотография. Кроме того, к этому классу относятся документы, которые содержат информацию о некоторой сущности и при этом сами является сущностью, например, библиографические карточки. Документ-Отображение – является отображением другого документа, т.е. его точной копией или электронным образом, например, PDF (или PS)-файл статьи, сканированный документ и т.д. Документ-Моделирование – моделирует некоторую реальную сущность, например, с помощью компьютерной программы. RCDL2002 Объектная модель документов Статус документа Помимо принадлежности к Классу Документ обладает Статусом. Статус определяет состояние документа (статичность, версия и т.п.), возможность создания КОПИЙ документа и/или наличие оригинала, наличие авторского и имущественного прав, и т.п. RCDL2002 Объектная модель документов Статус документа Права собственности и копии документа Владелец документа отвечает за хранение и представление документа пользователями системы. В нашем понимании ИРИС является владельцем всех представленных в ней документов. Документ может не принадлежать системе, т.е. его «владельцем» может быть другая информационная система, а нашей системе содержится только его описание или ссылка на этот документ. Автор – документ, представленный может иметь авторство. Это особенно важно при публикации научных электронных коллекций. Автор несет ответственность за содержание документа. Собственник документа несет ответственность за содержание документа и имеет право пользоваться и распоряжаться принадлежащим ему документом по своему усмотрению (передавать права собственности). Собственниками документов могут быть организации или лица, зарегистрированные в системе. RCDL2002 Объектная модель документов Статус документа Документ характеризуется наличием оригинала и копий или дубликатов. В распределенной системе Документ может быть представлен в различных местах (а так же иметь нелегальные или платные копии). Оригинал – «первый» экземпляр документа (экземпляр, принадлежащий собственнику или автору). Копия – документ, полностью воспроизводящий информацию оригинала и все его внешние признаки или часть их. RCDL2002 Объектная модель документов Статус документа Статичность документа и версии документов Документ в информационном пространстве не является застывшим объектом. Документ может передаваться для обработки другим пользователям, над документом выполняются операции, которые могут менять его состояние или значения его свойств, удалять документы и создавать новые документы. Т.е. у документа есть определенный жизненный цикл. Понятие жизненного цикла документа стало, в определенном смысле, уже стандартом. RCDL2002 Объектная модель документов Статус документа Статичность документа и версии документов Жизненный цикл документа включает в себя следующие фазы: Создание/ввод документов Модификация документов Утверждение документов Опубликование документов Повторное использование документов Устаревание и передача документов в архив RCDL2002 Объектная модель документов Статус документа Статичность документа и версии документов Коллективный характер работы с документами, требование повторного использования содержащихся в них сведений выводят в число базовых характеристик управление версиями документов, т.е. хранение всех промежуточных вариантов с историей модификаций и возможность порождения нового документа на основе любой из существующих версий. RCDL2002 Объектная модель документов Статус документа Права доступа к документу Право доступа разрешает пользователю исполнять определённый набор действий над документом. ИРИС имеет функциональные возможности, чтобы установить дифференцированные права доступа для групп или индивидуальных пользователей к документам. Определенные права доступа для документа могут быть назначены для индивидуальных пользователей или группы пользователей. С другой стороны, документы могут также быть сделаны доступными для анонимного доступа из Internet. Документ всегда связан с определенным пользователем — своим собственником. Права доступа приписываются документу. Собственнику разрешено изменять права доступа к документу. Имеется три стандартных набора прав доступа к документам: административный, служебный и публичный. RCDL2002 Объектная модель документов ОБЪЕКТНАЯ МОДЕЛЬ ДОКУМЕНТА Исходя из объектной модели представления информации, в основе нашей системы лежат «метаданные» — это структурированные сведения о документе или ресурсе, представляющие его свойства (атрибуты) и функции. На основе метаданных осуществляется поиск документов (ресурсов), вывод результатов поиска, управление ресурсами, взаимодействие с ними. Формальное определение смысловой структуры Документа дается (мета) описанием Класса документа (аналог DTD), в котором каждый тип документов представляется в виде набора объектов со своими характеристиками и атрибутами. RCDL2002 Объектная модель документов ОБЪЕКТНАЯ МОДЕЛЬ ДОКУМЕНТА В модели RDF документ рассматривается как частичноупорядоченный набор абстрактных объектов (элементов), обладающие свойствами (атрибутами) и имеющими идентификатор. Любой объект при своем создании получает генерируемый системой уникальный идентификатор, который связан с объектом во все время его существования и не меняется при изменении состояния объекта. RDF позволяет определять произвольные объекты в документе. Атрибуты (имена и значения) должны выбираться из словарей, связанных с теми или иными предметными областями. Формально RDF не накладывает никаких ограничений на значения атрибутов объектов, перекладывая создание соответствующих словарей на заинтересованные организации. Основной словарь имен объектов системы создан на основе словарей стандартных схем метаданных. RCDL2002 Объектная модель документов Основные схемы данных В качестве схем данных описания ДОКУМЕТОВ ИРИС используются принятые в мировой практике стандартные схемы (GILS, Collection, CIMI, GEO, ZTHES, EXPLAIN, RUSMARC, USMARC). К сожалению публичные источники содержат тезаурусы (описания схем) преимущественно каталогизированной информации (или библиографии) – поэтому основной задачей является выработка корпоративного стандарта описаний. RCDL2002 Объектная модель документов Основные схемы данных Метаописание Класса документов дает структурные свойства объектов, составляющих документ. При этом структура объекта определяется как линейная последовательность атрибутов и/или иерархий атрибутов. name – имя объекта; title – название объекта; request – обязательность объекта; search – возможность включения в поиск и в навигацию; template_input (output) – шаблоны ввода/вывода; order – порядок объекта; type – тип объекта; access – уровень доступа к объекту. RCDL2002 Объектная модель документов Основные схемы данных Каждый объект имеет состояние, поведение и содержание. Состояние объекта – набор значений его атрибутов, значение атрибута объекта – это тоже некоторый объект или множество объектов. Поведение объекта – набор методов доступа (программный код), оперирующих над состоянием и содержанием объекта. Содержание объекта – информационное наполнение данного объекта: это может быть ссылкой (link) на объект или на другой документ или на часть другого документа. Состояние и поведение объекта инкапсулированы в объекте; взаимодействие между объектами производится на основе передачи сообщений и выполнения соответствующих методов. Поведение объекта зависит от запроса к документу, т.е. в зависимости от запроса и уровня доступа объект модель документов RCDL2002 может менять своеОбъектная содержание. Информационные ресурсы RCDL2002 Электронная коллекция в нашем понимании - это набор документов, которые содержат фактографическую информацию имеющую одинаковое формальное описание структуры. Работа с любой электронной коллекцией разделяется на две части: работа с описаниями коллекции и документов (работа с метаинформацией) и работа с содержательной частью коллекции (работа с фактографической информацией). Коллекция: набор однотипных документов -- характеризуется своим описанием и стилем коллекции, а также описанием структуры, входящих в нее документов. Документ: характеризуется своим описанием и стилем документа, а также описанием характеристик (атрибутов, свойств и функций) объектов его составляющих. Объект: определяется заданием типа объекта и описанием его атрибутов, свойств и функций. Объектная модель документов Структурная схема коллекции Коллекция: метаинформация, стиль Документ: метаинформация, стиль ОБЪЕКТ: метаинформация RCDL2002 Объектная модель документов Структурная схема коллекции Совокупность документов и их метаописаний, принадлежащих фиксированному Классу и помещенных в информационное пространство ИРИС, является базовой информационной структурой (БИС) системы. RCDL2002 Объектная модель документов Структурная схема коллекции Основной пользовательской структурой системы является коллекция. Коллекция может состоять либо из одной БИС, либо быть динамическим (в зависимости от запроса) соединением (join) БИС, т.е. <Коллекция> ::= <БИС> [<Коллекция>] RCDL2002 Объектная модель документов Унификация доступа СЛОВАРЬ ИРИС Конкретные значения характеристик атрибутов объектов (имена и значения) должны выбираться из общих словарей или тезаурусов, которые связанны с предметной областью коллекции, и записываться в соответствии с формальным стандартом для описания элементов метаданных. Помимо унификации доступа, словарь дает схему классификации предметной области коллекции. В соответствии с многоязычной спецификой нашей системы словарь имен объектов является многоязычным. RCDL2002 Объектная модель документов Унификация доступа СЛОВАРЬ ИРИС Словарь имен объектов системы – набор многоязычных термов и структурных атрибутов. Многоязычный терм – согласованная совокупность одноязычных термов, содержащих характеристики атрибута на языках системы, и включающая средства для указания их эквивалентности. Средства установления соответствия термов одноязычных версий реализуются введением кода эквивалентности термов (идентификационного кода) в многоязычный терм и кодов языков-компонент для соответствующих одноязычных термов. RCDL2002 Объектная модель документов Унификация доступа СЛОВАРЬ ИРИС Основа метаописаний – словари. Каждый терм (одноязычный), используемый в объектах ДОКУМЕНТОВ состоит из пяти частей: name – имя терма; value – значение терма (название терма); type - тип терма; note – описание: представляет содержание и внутреннюю природу терма; synonyms – список синонимов терма; relation – поисковый терм . . RCDL2002 Объектная модель документов Унификация доступа Атрибут Type : Word – слово из группы не пустых символов; Word list – одно или несколько слов разделенных пробелами; String – строка рассматривается целиком, без разделения на отдельные слова; Text – одна или несколько строк; Numeric string – строка, представляющая собой число; Date – дата; UID – идентификатор документа; Structure – структура: описывает составной тип объекта. RCDL2002 Объектная модель документов Информационные ресурсы RCDL2002 Name Value Synonyms Personal_name Имя персоны pname: name_personal First_name Имя fname, name_first Middle_name Отчество mname, name_middle Last_name Фамилия lname, name_last, family_name Sex Пол Birth_day Дата рождения Email e-mail Bday Объектная модель документов Схема обработки запросов Приложение Ввод Document Parser На ввод Редактирование Ввод Список IDкодов Обновление Ответ Просмотр На поиск ID-код Просмотр List_show Удаление Удаление Метод запроса (U, L, D) RCDL2002 Объектная модель документов Принцип построения ИРИС Информационная система СО РАН Хранилище данных (центральный диспетчер) В основу создания ИС положен принцип информационных хранилищ, с учетом поддержки уже функционирующих технологий. В основу технологических решений заложены принципы обработки метаописаний данных на основе серверов метаданных и Z39.50. Для СУБД не имеющих средств сетевого доступа используется HTTP-SQL шлюз для организации доступа к данным и (или) технологии Z39.50. RCDL2002 Сервер обработки запросов SQL для доверительных БД Сервер Z39.50 Серверы метаданных Серверы каталогов HTTP(FTP)-SQL шлюз БД БД SQL-БД SQL-БД ODBC Локальные HTTP БД БД Объектная модель документов Информационные ресурсы Динамическая система электронных публикаций Разработана концепция динамической системы формирования электронных документов с среде Интернет, в основе которой лежит представление документа, содержащего информацию о конкретных фактах, в виде набора объектов со своими характеристиками и атрибутами. При реализации используется трехуровневая модель представления данных и метаданных, поддерживаемая стандартом CORBA. RCDL2002 Объектная модель документов Информационные ресурсы Электронные коллекции Созданная система позволяет использовать принципиально новые возможности которые предоставляют современные информационные технологии по накоплению, оперативному управлению большими объемами биологических данных и решения задач по сохранению биоразнообразия. Позволяет осуществлять комплексные исследования, научный прогноз и принятие обоснованных управленческих решений для рационального использования природных ресурсов. RCDL2002 Объектная модель документов RCDL2002 Объектная модель документов RCDL2002 Объектная модель документов RCDL2002 Объектная модель документов RCDL2002 Объектная модель документов RCDL2002 Объектная модель документов Объектная модель документов в электронных коллекциях Благодарю за внимание! RCDL2002 Объектная модель документов