Еркимбаев А.О., Зицерман В. Ю., Кобзев Г. А. (ОИВТ РАН), Серебряков В. А., Теймуразов Кирилл Борисович, Хайрулин Р. И. (ВЦ РАН) Систематизация физико-химических данных. Возможности онтологий и баз данных. Цель работы: Интеграция данных по теплофизическим свойствам веществ, представленных в термодинамических и теплофизических БД ОИВТ РАН Публикация наборов данных в пространстве LOD и связывание с тематически родственными данными, а также словарями и онтологиями, размещенными в сети. Особенности предметной области: Широкий (междисциплинарный) характер Представляет интерес для всех Институтов естественно-научного и технического профиля Логическая структура данных очевидным образом соответствует традиционным концепциям реляционных БД Основные этапы интеграции: Разработка онтологии предметной области с привлечением существующих онтологий Конверсия исходных данных в RDF формат, соответствующий разработанной онтологии Предоставление доступа к полученным данным в соответствии с принципами LOD Генерация типизованных связей между ресурсами полученного набора данных и ресурсами внешних наборов LOD Главный объект в наборах данных - численные значения свойств для различных веществ. Основные сущности: вещества, свойства, единицы измерения, наборы значений свойств для вещества в определенном состоянии. Вещества характеризуются набором названий, химической формулой и могут находиться в различных фазовых состояниях. Фазовые состояния включают в себя агрегатные состояния (газ, жидкость, твердое), межфазные границы (газ-жидкость, газ-твердое тело, жидкостьтвердое тело) и тройную точку (газ-жидкостьтвердое). Типичная форма набора данных – таблица термодинамических свойств водяного пара Процедура включения набора данных в LOD в качестве первого шага предполагает их загрузку в реляционную БД На следующем шаге составляется онтология, расширяющая схему БД. Ее задача: повторное использование терминов из доступных в сети онтологий проверка выполнения логических связей между понятиями предметной области Схема реляционной БД – первый этап работы с авторским набором данных Повторное использование терминов из существующих онтологий ChemAxiom – онтология,включающая термины, связанные с понятием «вещество» ChemSpider – терминологический словарь названий химических веществ QUDT - онтология, включающая понятия, связанные со свойствами: Quantities, Units, Dimensions and Data Types in OWL and XML Онтология ChemAxiom Cоздана как набор автономных онтологий-модулей для отдельных подобластей химии, связанных через онтологию высшего уровня Basic Formal Ontology В главном модуле выделяются понятия «Вещество», «Молекула» и связи между ними Возможность использования данных из ChemSpider – RDF источника для идентификации веществ Терминологический словарь названий веществ СhemSpider Содержит данные для более, чем 30 млн. соединений примерно из 400 источников записей Используется как платформа для аннотирования и сопровождения существующих данных Позволяет провести отображение между ChemSpider identifiers (CSIDs) и оригинальным источником данных. При поиске названия “hydrogen” БД выдает его уникальный номер и соответствующий URI, CSID:762, (www.chemspider.com/ChemicalStructure.762.html) Онтология QUDT (www.qudt.org) оказалась самой богатой среди аналогичных Определяет классы для единиц измерения, свойств, для величин и их значений Определяет словари типов свойств и единиц измерения Онтология QUDT предоставляет предикаты для связи экземпляров классов, и в то же время, списки типов свойств и единиц измерения Ограничения предметной области Логические ограничения: непересекаемость множеств функций и констант; непременное наличие аргумента для свойств-функций; соответствие свойств и фазовых состояний Математические ограничения: ограничения на область определения функций; ограничения на множество значений функций; ограничения, определяемые связями между разными функциями из набора Логические ограничения контролируются использованием конструкций языка OWL ограничения owl:domain и owl:range на типы экземпляров на концах связи, в которой присутствует рассматриваемый предикат; Ограничения owl:cardinality на количество триплетов с данным предикатом для экземпляра заданного класса (owl:minCardinality и/или owl:maxCardnality); Разбиение на два непересекающихся класса: свойствафункции и свойства-константы; Обязательность определения аргумента (другого измеримого свойства) для свойства-функции и его использования в наборе данных; Требования согласованности ссылок на состояния вещества с видом свойств-функций. Математические ограничения касаются не классов, а экземпляров свойств: области определения и существования функций определяются для каждого свойства при том, что список свойств допускает расширение Ограничения сформулированы для ресурсов внешнего словаря свойств и единиц измерения на базе RDF (онтология QUDT); задаются ограничения уже в терминах этого словаря. Для проверки ограничения в авторском наборе данных, где экземпляры свойств определены отдельно от QUDT, сделана привязка эквивалентности (owl:sameAs) между свойствами из набора и свойствами в QUDT, как во внешнем источнике RDF ресурсов. Укороченная схема разработанной онтологии Последовательность операций: загрузка авторского набора данных в виде записей реляционной БД; конверсия записей реляционной БД в RDF-формат в соответствии с построенной онтологией; задание соответствий между таблицами БД и классами онтологии Процедура конверсии реляционных данных в RDF и связывания с внешними источниками D2R сервер простое некоммерческое средство конверсии RDBRDF; поддерживает работу с БД PostgreSQL; обеспечивает дереференсирование URI ресурсов; отображение схемы реляционной БД на RDF-модель задается в Mapping File, где заложена схема соответствий таблиц БД нескольким классам сущностей; позволяет провести все преобразования исходных данных, необходимые для их публикации в RDF формате и связывания с родственными ресурсами в LOD. Для конверсии реляционных данных в исходной БД предусмотрены специальные таблицы с указанием связей Таблицы “substance”, “property” и “dimension” хранят сущности, которые предстоит связать с внешними ресурсами Связывание данных проводится по разным процедурам для сущностей-веществ, сущностей-свойств и сущностей-единиц измерения. При связывании сущностей-веществ эффективно использование БД ChemSpider В таблице «links» указано, сущность какого типа участвует в конкретной связи Внешние ресурсы хранятся в таблице «external_resources» и могут принадлежать различным источникам данных в LOD В каждой записи таблицы «links» хранится тройка «вещество|единица измерения|свойство – предикат из списка — внешний ресурс». Хранение в таблицах названия вещества и химической формулы недостаточно для автоматической генерации связей из-за различий в использованных названиях и неоднозначной идентификации по химической формуле. Эксперт генерирует связи путем нахождении соответствия между веществами авторского набора и внешнего ресурса. Принятый подход к процессу связывания возлагает ответственность за связывание на пользователя, предоставив ему интерфейс связывания, а также интерфейс определения свойств и единиц измерения в терминах QUDT. Далее полученные экземпляры используются как внешние ресурсы для связывания. Пользователю предоставлена возможность задавать ограничения на численные значения. Итогом работы является созданная технология представления теплофизических данных в пространстве LOD Основу составляет детализированная онтология предметной области, заимствующая термины тематически близких онтологий и словарей. Онтология обеспечивает проверку связей и ограничений, обусловленных спецификой предметной области. Конверсия реляционных данных к RDF формату позволяет поддерживать все требования, налагаемые онтологией, и проводить связывание в ресурсами LOD. Наличие открытых списков для важнейших сущностей (вещество, свойство, единица измерения) обеспечивает возможности гибкой подстройки развитой технологии к постоянно расширяемой сфере применения. Вопросы? Замечания? Предложения? Пожелания?