Онтология предметной области «Теплофизические свойства

advertisement
Еркимбаев А.О., Зицерман В. Ю.,
Кобзев Г. А. (ОИВТ РАН),
Серебряков В. А.,
Теймуразов Кирилл Борисович,
Хайрулин Р. И. (ВЦ РАН)
Систематизация
физико-химических данных.
Возможности онтологий
и баз данных.
Цель работы:
 Интеграция данных по теплофизическим
свойствам веществ, представленных в
термодинамических и теплофизических БД
ОИВТ РАН
 Публикация наборов данных в пространстве
LOD и связывание с тематически
родственными данными, а также
словарями и онтологиями, размещенными
в сети.
Особенности предметной
области:
 Широкий (междисциплинарный) характер
 Представляет интерес для всех
Институтов естественно-научного и
технического профиля
 Логическая структура данных очевидным
образом соответствует традиционным
концепциям реляционных БД
Основные этапы
интеграции:
 Разработка онтологии предметной области
с привлечением существующих онтологий
 Конверсия исходных данных в RDF формат,
соответствующий разработанной онтологии
 Предоставление доступа к полученным
данным в соответствии с принципами LOD
 Генерация типизованных связей между
ресурсами полученного набора данных и
ресурсами внешних наборов LOD
Главный объект в наборах данных - численные
значения свойств для различных веществ.
 Основные сущности: вещества, свойства, единицы
измерения, наборы значений свойств для вещества в
определенном состоянии.
 Вещества характеризуются набором названий,
химической формулой и могут находиться в
различных фазовых состояниях.
 Фазовые состояния включают в себя агрегатные
состояния (газ, жидкость, твердое), межфазные
границы (газ-жидкость, газ-твердое тело, жидкостьтвердое тело) и тройную точку (газ-жидкостьтвердое).
Типичная форма набора данных –
таблица термодинамических свойств
водяного пара
Процедура включения набора данных в
LOD в качестве первого шага
предполагает их загрузку в
реляционную БД
На следующем шаге составляется
онтология, расширяющая схему БД. Ее
задача:
 повторное использование терминов из
доступных в сети онтологий
 проверка выполнения логических связей
между понятиями предметной области
Схема реляционной БД – первый этап
работы с авторским набором данных
Повторное использование терминов из
существующих онтологий
 ChemAxiom – онтология,включающая
термины, связанные с понятием
«вещество»
 ChemSpider – терминологический словарь
названий химических веществ
 QUDT - онтология, включающая понятия,
связанные со свойствами: Quantities, Units,
Dimensions and Data Types in OWL and XML
Онтология ChemAxiom
Cоздана как набор автономных онтологий-модулей
для отдельных подобластей химии, связанных через
онтологию высшего уровня Basic Formal Ontology
В главном модуле выделяются понятия
«Вещество», «Молекула» и связи между ними
Возможность использования данных из
ChemSpider – RDF источника для идентификации
веществ
Терминологический словарь названий
веществ СhemSpider
Содержит данные для более, чем 30 млн.
соединений примерно из 400 источников записей
Используется как платформа для аннотирования и
сопровождения существующих данных
Позволяет провести отображение между
ChemSpider identifiers (CSIDs) и оригинальным
источником данных.
При поиске названия “hydrogen” БД выдает его
уникальный номер и соответствующий URI,
CSID:762, (www.chemspider.com/ChemicalStructure.762.html)
Онтология QUDT (www.qudt.org)
оказалась самой богатой среди
аналогичных
Определяет классы для единиц измерения, свойств, для
величин и их значений
Определяет словари типов свойств и единиц измерения
Онтология QUDT предоставляет предикаты для связи
экземпляров классов, и в то же время, списки типов
свойств и единиц измерения
Ограничения предметной области
Логические ограничения:
 непересекаемость
множеств функций и
констант;
 непременное наличие
аргумента для
свойств-функций;
 соответствие свойств
и фазовых состояний
Математические ограничения:
 ограничения на область
определения функций;
 ограничения на множество
значений функций;
 ограничения, определяемые
связями между разными
функциями из набора
Логические ограничения
контролируются использованием
конструкций языка OWL
 ограничения owl:domain и owl:range на типы экземпляров на




концах связи, в которой присутствует рассматриваемый предикат;
Ограничения owl:cardinality на количество триплетов с данным
предикатом для экземпляра заданного класса (owl:minCardinality
и/или owl:maxCardnality);
Разбиение на два непересекающихся класса: свойствафункции и свойства-константы;
Обязательность определения аргумента (другого измеримого
свойства) для свойства-функции и его использования в наборе
данных;
Требования согласованности ссылок на состояния вещества с
видом свойств-функций.
Математические ограничения касаются не
классов, а экземпляров свойств: области
определения и существования функций
определяются для каждого свойства при том, что
список свойств допускает расширение
Ограничения сформулированы для ресурсов внешнего
словаря свойств и единиц измерения на базе RDF
(онтология QUDT); задаются ограничения уже в терминах
этого словаря.
Для проверки ограничения в авторском наборе данных, где
экземпляры свойств определены отдельно от QUDT,
сделана привязка эквивалентности (owl:sameAs) между
свойствами из набора и свойствами в QUDT, как во
внешнем источнике RDF ресурсов.
Укороченная схема
разработанной онтологии
Последовательность операций:
 загрузка авторского набора данных
в виде записей реляционной БД;
 конверсия записей реляционной
БД в RDF-формат в соответствии с
построенной онтологией;
 задание соответствий между
таблицами БД и классами
онтологии
Процедура конверсии
реляционных данных в
RDF и связывания с
внешними
источниками
D2R сервер
 простое некоммерческое средство конверсии RDBRDF;
 поддерживает работу с БД PostgreSQL;
 обеспечивает дереференсирование URI ресурсов;
 отображение схемы реляционной БД на RDF-модель задается в
Mapping File, где заложена схема соответствий таблиц БД
нескольким классам сущностей;
 позволяет провести все преобразования исходных данных,
необходимые для их публикации в RDF формате и связывания с
родственными ресурсами в LOD.
Для конверсии
реляционных данных
в исходной БД
предусмотрены
специальные таблицы
с указанием связей
Таблицы “substance”, “property” и “dimension”
хранят сущности, которые предстоит связать
с внешними ресурсами
Связывание данных проводится по разным процедурам для
сущностей-веществ, сущностей-свойств и сущностей-единиц
измерения.
 При связывании сущностей-веществ эффективно использование
БД ChemSpider
В таблице «links» указано, сущность какого типа участвует в
конкретной связи
Внешние ресурсы хранятся в таблице «external_resources» и могут
принадлежать различным источникам данных в LOD
В каждой записи таблицы «links» хранится тройка
«вещество|единица измерения|свойство – предикат из
списка — внешний ресурс».
Хранение
в таблицах названия вещества и химической формулы
недостаточно для автоматической генерации связей из-за различий в
использованных названиях и неоднозначной идентификации по
химической формуле.
Эксперт генерирует связи путем нахождении соответствия между
веществами авторского набора и внешнего ресурса.
Принятый подход к процессу связывания возлагает ответственность за
связывание на пользователя, предоставив ему интерфейс связывания, а
также интерфейс определения свойств и единиц измерения в терминах
QUDT.
Далее полученные экземпляры используются как внешние ресурсы для
связывания.
Пользователю предоставлена возможность задавать ограничения на
численные значения.
Итогом работы является созданная
технология представления
теплофизических данных в
пространстве LOD
 Основу составляет детализированная онтология
предметной области, заимствующая термины тематически
близких онтологий и словарей.
 Онтология обеспечивает проверку связей и ограничений,
обусловленных спецификой предметной области.
 Конверсия реляционных данных к RDF формату позволяет
поддерживать все требования, налагаемые онтологией, и
проводить связывание в ресурсами LOD.
 Наличие открытых списков для важнейших сущностей
(вещество, свойство, единица измерения) обеспечивает
возможности гибкой подстройки развитой технологии к
постоянно расширяемой сфере применения.
 Вопросы?
 Замечания?
 Предложения?
 Пожелания?
Download