Институт прикладных математических исследований Роли

реклама
Карельский научный центр РАН
Институт прикладных
математических исследований
В.А. Лебедев
Роли онтологий в электронной
библиотеке Карельского
научного центра РАН
RCDL’2009
Петрозаводск, 2009
«Виртуальная флора
Карелии»
«Электронные научные
публикации»
«Млекопитающие
Карелии»
«Местообитания Восточной
Фенноскандии»
«Аффилофороидные
грибы Карелии»
«Минералы
Карелии»
Электронная библиотека (ЭБ) научных информационных ресурсов
Карельского научного центра (КарНЦ) РАН (dl.krc.karelia.ru)
функционирует с 2004.
Сейчас она содержит около 15 коллекций, включая коллекции
электронных копий научных статей. Для ряда коллекций разработаны
онтологии контента, что обеспечивает индексацию и тематический
поиск документов в них.
В настоящее время поставлена задача развития ЭБ с целью отобразить
научные данные по изученности природных и культурно-исторических
объектов Карелии в интересах образования и научных исследований.
При этом предполагается, что каждый информационный ресурс
должен сопровождаться онтологией контента.
Очевидно, что «частные» онтологии, например, научных статей, имеют
смысл только при наличии общей онтологии. Итак, для развития ЭБ
разработка онтологий, охватывающих тематику научных работ КарНЦ
РАН, является актуальной.
Онтологии будут выполнять в составе ЭБ несколько ролей:
являться моделью контента ЭБ наподобие словников, используемых при
разработке энциклопедий;
 обеспечивать индексацию документов коллекций для построения локальных
онтологий документов;
 представлять контент коллекций документов;
 обеспечивать построение тематических запросов на поиск релевантных
документов в коллекциях.

Онтологии
Известны несколько определений понятия «онтология». Мы предпочитаем
первоначальное определение T. Gruber – «… точная спецификация
концептуализации предметной области …». Здесь два ключевых слова,
определяющих содержание работ и технические средства.
Спецификация – описание свойств и отношений терминов в рамках какой-либо
модели данных (бинарная, сетевая и т.п.) и соответствующего языка описания
данных. По ряду причин, которые объясняются ниже, для построения
онтологии мы используем реляционную модель данных.
Концептуализация
подразумевает
построение
номенклатур
терминов
предметной области и установление отношений между ними.
Как известно, языковые отношения подразделяются на парадигматические
(ассоциативные) и синтагматические (грамматические). Для разработки
онтологии мы в основном используем парадигматические логические типы
отношений, к которым относятся: классификации (род-вид), агрегации (целоечасть), равнозначности (синонимии) и полисемии (многозначности).
Синтагматические отношения используются для уточнения значений понятий.
Например, «физиология растений», «высота над уровнем моря», «длина
реки», «уровень верхнего бьефа».
Классификации и агрегации конструктивны, обладают свойствами
антирефлексивности, антисимметричности и транзитивности, т.е. могут
создавать структуру типа графа.
Отношение синонимии симметрично, рефлексивно и транзитивно,
представимо в виде таблицы, содержащей доминантные термины и списки
их синонимов.
Отношение полисемии деструктивно и требуются специальные меры для его
«нейтрализации».
Парадигма (по Т. Куну)
Концептуализации подлежат данные наук и научных дисциплин, изучаемых в
Карельском научном центре РАН, прежде всего естественных наук. Для
обеспечения систематического подхода к построению номенклатур терминов и
отношений следует руководствоваться парадигмой рационального устройства
природы:
Природа состоит из взаимосвязанных и взаимодействующих объектов
(предметов, явлений), каждый из которых обладает набором свойств
(атрибутов), определенным строением, т.е. состоит из частей (тоже объектов),
которые взаимодействуют и тем самым обеспечивают внешний вид
(морфология), внутреннее устройство (анатомия), функционирование
(физиология),
происхождение,
становление
(генезис,
генетика).
Взаимодействие объектов является основой для выделения систем и
процессов.
Объекты и системы изучаются комплексом наук. Каждая наука и научные
дисциплины изучают объекты (предметы) определенных классов или
подмножества их свойств и взаимодействий специальными методами.
Результат исследований отображается в системе понятий и отношений,
выражаемых соответствующими терминами. Таким образом, в основу
онтологии мы полагаем классификации наук, объектов и их свойств, а также
агрегации объектов и свойств в системы и комплексы.
Построение онтологий
Термины, представляющие понятия, образуют большие разветвленные
номенклатуры. При этом многие термины образуют гнезда синонимов.
Для работы с большими связанными номенклатурами наиболее пригодна
табличная
форма.
Она
хорошо
обозрима,
достаточно
просто
трансформируется и подвергается декомпозиции, что важно для отображения
иерархических структур. Эти свойства позволяют расчленять работы на части
в пространстве и времени и затем объединять эти части в единое целое.
Таким образом, для реализации работ по построению онтологии ЭБ КарНЦ РАН
подходит реляционная модель данных и представление онтологии в виде
реляционной базы данных с использованием отработанной технологии
(например, на основе MySQL).
В качестве корневых уровней онтологии у нас принята классификация наук
ГРНТИ.
Биология
Систематика организмов
Ботаника
Физиология растений
Цитология
Зоология
Физиология человека и животных
Иммунология
Экология
Биофизика
Биохимия
Генетика
Почвоведение
Водное хозяйство
Гидрология суши
Лимнология (озероведение)
Океанология
Геология
Региональная геология
Тектоника
Стратиграфия
Геохимия
Минералогия
Петрография
Литология
Геоморфология
Геология полезных ископаемых
Четвертичная геология
Палеонтология
География
Энергетика
Экономика
Демография и этнология
Здесь представлен фрагмент соответствующей таблицы.
Организация работ
Важную часть организации работ по созданию онтологии составляет разработка
формы таблиц для записи терминов и их отношений. Мы исходим из того, что
онтология представляет собой направленный, ациклический, иерархический граф,
в котором вершины обозначены терминами, а дуги помечены названиями
отношений. Для графа указанного типа пометы дуг могут быть заменены пометами
вершин-предков. Тогда, отображающие граф онтологии таблицы могут иметь
следующую структуру:
Уровень
Название отношения
Тип отношения
Предок
1 Царства
К
Классификация организмов
2 Царство вирусов
К
Вирусы
2 Царство растений
К
Растения
3 Растения
К
Высшие
3 Растения
К
К
К
Низшие
4 Отделы
Сосудистые споровые
Потомок
Вирусы (доклеточные)
Архебактерии (Archaebacteria)
Собственно бактерии (Eubacteria)
Протисты (Protista)
Растения (Plantae)
Грибы (Fungy)
Животные (Animalia)
Вирусы позвоночных
Вирусы беспозвоночных
Вирусы многохозяинные
Вирусы растений
Вирусы бактерий (фаги, бактериофаги)
Вирусы грибов
Высшие
Низшие
Сосудистые (Tracheophyta)
Мохообразные (Моховидные, Bryophyta)
Водоросли (Альгофлора
Мхи (Bryophytes)
Псилотовидные (Psilotophyta)
Папоротниковидные (Pteridophyta)
Плауновидные (Likopodiophyta)
Ужовниковидные (Ophioglossophyta)
Здесь: «предок» и «потомок» – пара терминов, связанных отношением данного
типа (классификации или агрегации) и вида.
В качестве названия вида отношения могут выступать:
•
основание классификации или ее название;
•
название объекта (системы), объединяющего другие объекты (компоненты)
или присущие ему свойства;
•
название темы или научной дисциплины, изучающей подмножества свойств
или компонентов.
Онтология разрабатывается по предметным областям или секторам, что
отображается названием таблицы той части графа, к которой относится
фрагмент онтологии. На корневых уровнях это названия рубрик ГРНТИ. При
большом количестве уровней возможно дробление секторов.
Понятие сектора позволяет разделять работы на части и одновременно является
средством нейтрализации возможной полисемии.
Понятие уровня необходимо для установления положения таблицы или ее части
в графе онтологии.
В настоящее время разработанный фрагмент онтологии содержит около 2000
терминов (не считая видовых названий организмов) и проходит экспертизу
специалистов.
Пополнение контента
Контент ЭБ пополняется импортом коллекций документов по изученности классов
объектов, представленных в онтологии, и электронными копиями научных
публикаций. Имеется соответствующая технология.
Онтология содержит термины, обозначающие понятия или объекты. Описание
объектов будет представлено в определенной совокупности коллекций.
Термины, обозначающие понятия, имеют определения или толкования, многие из
которых в настоящее время можно получить из Интернета. Разработана
технология импорта толкований терминов с целью доступа к ним посредством
сервисов ЭБ КарНЦ РАН.
Основой является база данных, структура которой представлена здесь.
Ботаника
http://ru.wikipedia.org/wiki/Ботаника
Биомеханика
http://ru.wikipedia.org/wiki/Биомеханика
Биоценология
http://ru.wikipedia.org/wiki/Биоценология
Бриология
http://ru.wikipedia.org/wiki/Бриология
Вирусология
http://ru.wikipedia.org/wiki/Вирусология
Генетика
http://ru.wikipedia.org/wiki/Генетика
Геоботаника
http://ru.wikipedia.org/wiki/Геоботаника
Гидробиология
http://ru.wikipedia.org/wiki/Гидробиология
Индексация документов
Под индексацией здесь понимается формирование онтологии документа,
которая является фрагментом общей онтологии предметной области.
Сложность здесь в том, что в документе не обязательно содержатся термины,
идентифицирующие
соответствующий
сектор
онтологии.
Однако
фактически в каждом секторе онтологии содержатся термины средних
уровней, не связанные полисемическими отношениями. Это позволяет
идентифицировать требуемый сектор и тем самым определить
принадлежность к нему последующих терминов документа, даже
связанных полисемией.
Задача решается последовательным сравнением слов документа с
терминами онтологии.
Коллекция
Млекопитающие
Карелии
Документ
Барсук
Ключевые слова
Млекопитающие Карелии: Систематика
млекопитающих: Систематика млекопитающих (лат):
Carnivore, Mustelidae, Mustela, Mustelalutreola L.
1766;
Систематика млекопитающих (рус): Хищные, Куньи,
Барсуки, Барсук;
Экология млекопитающих: Враги: Крупные хищники,
Волк, Медведь, Росомаха, Рысь;
Использование: Жир, Охотничий;
Паразиты: Гельминты;
Питание: Ягоды, Насекомые, Мышевидные;
Здесь показана структура базы данных индексов.
Поиск
Желательность построения отдельных онтологий коллекций связана с тем,
чтобы в них содержались только те термины (кроме корневых уровней),
которые присутствуют в документах коллекций. Это предотвращает затраты
времени и ресурсов на поиск по запросам с заведомо пустым откликом.
Задача решается последовательным просмотром базы данных индексов и
сортировкой ее со сжатием. При пополнении коллекции ее онтология может
быть отредактирована вручную Разработана соответствующая технология.
Здесь показан пример добавления в онтологию нового термина.
Поиск
Онтологии коллекций используются для построения тематических запросов на
поиск релевантных документов. Разработана соответствующая технология.
В процессе просмотра онтологии пользователь отмечает некоторые термины,
которые попадают в список. Затем он из терминов этого списка формирует
логическое выражение, составляющее аргумент оператора Select.
Поиск выполняется в базе данных индексов.
Существующий вариант формирования запроса в настоящее время
модернизируется с тем, чтобы запрос отображал названия отношений
в онтологии, как показано на примере.
Автор благодарит Н.Б.Луговую и В.Г.Старкову за труды по реализации
сервисов создания и редактирования онтологии, индексирования
документов и тематического поиска.
Работа частично поддержана грантом РФФИ № 08-07-00085а.
Литература
•Вдовицын В. Т., Лебедев В. А. Онтологии для тематического поиска данных в коллекциях электронной библиотеки. // Труды
десятой Всероссийской научной конференции “Электронные библиотеки: перспективные методы и технологии, электронные
коллекции”. Дубна. 2008. С. 63-69.
•Вдовицын В. Т., Лебедев В. А., Брагин С. В., Старкова В. Г., Луговая Н. Б. Развитие сервисов электронной библиотеки
научных информационных ресурсов //Труды Всероссийской научной конференции Научный сервис в сети Интернет:
технологии параллельного программирования, г. Новороссийск, 24 – 29 сентября 2007 г. Издательство Московского
университета. 2007. С. 305-310.
•Вдовицын В. Т., Лебедев В. А., Луговая Н. Б., Сорокин А. Д., Старкова В. Г.. Развитие и разработка технологии публикации и
поиска документов в электронных коллекциях // Труды Восьмой Всероссийской научной конференции по электронным
библиотекам, Суздаль, 2006. С. 162-167.
•Вдовицын В. Т., Сорокин А. Д., Луговая Н. Б.. Развитие программных сервисов и контента ЭБ КарНЦ РАН. // Труды Седьмой
Всероссийской научной конференции по электронным библиотекам, Ярославль, 2005. С. 92-97.
•Вдовицын В. Т., Сорокин А. Д., Луговая Н. Б.. Электронная библиотека научных информационных ресурсов КарНЦ РАН. //
Труды Шестой Всероссийской научной конференции по электронным библиотекам, Пущино, 2004. С. 41-46.
•Добров Б. В., Лукашевич Н. В. и др. Разработка лингвистической онтологии для автоматического индексирования текстов по
естественным наукам // Труды Седьмой Всероссийской научной конференции по электронным библиотекам, Ярославль, 2005.
С. 70-76.
•Загорулько Ю. А. Методы и метологии разработки, сопровождения и реинжиниринга онтологий. Онтологическое
моделирование. Труды Симпозиума. Звенигород, май 2008. С. 167-200.
•Лебедев В. А., Старкова В. Г., Брагин С. В. Представление онтологии научной коллекции «Водные ресурсы региона» // Труды
шестой Всероссийской конференции по электронным библиотекам. Пущино, 2004. С. 86-92.
•Лебедев В. А., Старкова В. Г., Брагин С. В. Применение онтологии для ведения и доступа к данным коллекции «Природные
ресурсы региона». // Труды седьмой Всероссийской конференции по электронным библиотекам». Ярославль, 2005. С. 87-91.
•Перспективные направления развития российской отрасли информационно-телекоммуникационных технологий
(Долгосрочный технологический прогноз Российской IT — Foresight) М. , 2007. 223 с.
•Фазлиев А. З. Рассуждения о понятии “онтология”. Онтологическое моделирование. Труды Симпозиума. Звенигород, май
2008. С.278-296.
•Когаловский М.Р., Калиниченко Л.А. Концептуальное моделирование в технологиях баз данных и онтологические модели
//Труды симпозиума "Онтологическое моделирование", Звенигород, 21-22 мая 2008.
Хорошевский В. Ф. Онтологические модели и Semantic Web: откуда и куда мы идем //Труды симпозиума "Онтологическое
моделирование", Звенигород, 21-22 мая 2008. С. 13-45.
•Berners-Lee T., Hendler J., Lassila O. The Semantic Web. Scienific American. 2001.
•Gruber T. R. A Translation Approach to Portable Ontology specification // Knowledge Acquition, N 5, 1993.
•Uschold M., Gruninger M. Ontologies: Principles, Methods and Applications. // Knowledge Engineering Review, N 11,
1996.
Скачать