В процессе интеграции Проставляются связи между ресурсами

advertisement
Основные понятия формальной
модели семантических библиотек и
формализация процессов интеграции
в ней
О.М. Атаева, В.А. Серебряков
ВЦ РАН (Москва)
Постановка задачи
•
Семантические электронные библиотеки представляют собой
информационные системы которые обеспечивают задачи
коллекционирования, хранения и навигации по электронным документам
при этом концентрируясь не только на библиографических записях.
Интегрируются данные в различных связанных областях. (DELOS)
•
В силу специфики своей предметной области участники процесса интеграции
данных обладают данными и метаданными, дополняющими исходную
информацию: это могут быть публикации, включающие набор метаданных и
полный текст, музейные экспонаты, представленные метаданными и медиаобъектами, самостоятельные медиа-объекты такие как фотографии, видео и
аудиозаписи.
•
Интеграция информации, предоставляемой несколькими источниками,
позволит максимально составить описание предметной области, провести
анализ, выявить взаимосвязи, получить принципиально новые возможности
поиска: ресурсы, созданные в разных системах, представляются связанными
друг с другом единой системой навигации.
«Libmeta»
• Обеспечивает децентрализованное создание и хранение
цифровых данных в сочетании с централизованной базой
метаданных, а также общими сервисами навигации и
поиска во всем распределенном информационном
пространстве
• Представляет
собой
платформу
для
создания
распределенной среды интеграции неоднородных
источников данных и предоставления к этой среде единой
точки входа (веб-портала), которая позволит людям в
определенной
сфере
наук
легко
находить
специализированные данные и приложения.
3
Онтология Libmeta
Общая онтология
Онтология
системы
Онтология ПО
Тезаурус ПО
• Общая онтология – общие понятия
необходимые для функционирования
системы
• Онтология и тезаурус предметной области,
которые определяет пользователь
Формализация модели
• Предлагаемая модель:
– делает четкое различие между
идентификацией ресурса, его объектами и
доступом к ним
– обеспечивает способ моделирования
описаний в качестве независимых
ресурсов
– предоставляет язык запросов для
выявления объектов на основе описаний
их ресурса.
Информационные объекты
• Информационным объектом библиотеки может быть все,
что может быть идентифицировано.
– Цифровые ресурсы (PDF - документ, JPEG-изображения, …)
– Не цифровой объект-это любой объект, который отсутствует в цифровом
виде
• Электронная библиотека рассматривается как
информационная система, которая состоит из двух
компонентов:
– набор цифровых объектов, которые цифровая библиотека хранит
– знания об объектах которые находятся за пределами цифровой
библиотеки.
• Каждый из этих двух компонентов может
отсутствовать в цифровой библиотеке
6
Ресурсы и их атрибуты
• Информационные ресурсы определяют типы
объектов. В основе метаданных
информационных ресурсов и их объектов
лежат два вида знаний :
– это сами метаданные, что существует одно или
более описания объектов
– Контент (структура описания)
• Описание-это набор классов и/или пар “свойствозначение”.
Ресурс может быть связан с одним или более
описаний и наоборот
7
Набор атрибутов и представления
• Описание ресурсов задается определенным
набором атрибутов
– Совокупность наборов атрибутов ресурса можно
назвать его метаданными
– В метаданных ресурса содержится хотя бы по
одному атрибуту каждого вида атрибутов
• Набор атрибутов может соответствовать
нескольким ресурсам
• Представления ресурсов определяются
определенным видам атрибутов
8
Общая схема архитектуры
OAI - PMH
В процессе интеграции
– Проставляются связи
между ресурсами
– Удаляются дубликаты
– Выполняются
преобразования к
структуре хранилища
метаданных
– Выполняется очистка
данных
10
Преимущества реализации
принципов LOD в Libmeta
• Связность
– Подключение внешних источников, не обязательно
библиотек
• Машиночитаемость
– Представление в RDF, использование
общепринятых словарей и онтологий, sparql
• Доступность
– доступные для свободного использования всеми
пользователями без каких-либо ограничений в
виде авторских прав
11
Linked Open Data (LOD)
• Задачи
– наполнение данными в стандартных форматах
Semantic Web
– устанавливание связей
• Основные принципы
– использовать URI для идентификации
– использовать HTTP URIs для доступа к информации о
ресурсах.
– предоставлять информацию о ресурсе в RDF формате.
– предоставлять RDF-ссылки на другие ресурсы.
12
Функции системы «Libmeta»
• Поиск основных ресурсов определенной предметной
области
• Просмотр метаданных и данных
• Возможность подключения новых источников данных
ресурсов
• Периодический сбор метаданных (harvesting)
13
Поиск и связывание ресурсов на примере
персон из «Научного наследия России»
Список ресурсов системы
15
Просмотр ресурса
Список атрибутов
Список наборов
Атрибут. Виды. Типы
Представление персоны
Наследие
MathNet
22
VIAF
DBpedia
Спасибо за внимание!
Download