онтологическое представление количественной спектроскопии

advertisement
ОНТОЛОГИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ
КОЛИЧЕСТВЕННОЙ СПЕКТРОСКОПИИ
А.И. Привезенцев, А.Ю. Ахлестин, Н.А. Лаврентьев, Н.Н. Лаврентьева, А.З. Фазлиев
Институт оптики атмосферы СО РАН, Томск
Научный сервис в сети Интернет 2015, Абрау Дюрсо
Содержание
1. Введение
2. Предметная область «Количественная спектроскопия»
2.1. Химическое вещество
2.2. Спектроскопия
2.3. Информационные ресурсы
3. Качество экспертных данных в спектроскопии
4. Онтологическое представление количественной спектроскопии
4.1. Определение онтологии по Гуарино (N. Guarino)
4.2. T-box (понятийная часть)
4.3. A-box (фактологическая часть)
4.4. Модульность онтологии
5. Качество прикладных онтологий по количественной спектроскопии
6. Заключение
Научный сервис в сети Интернет 2015, Абрау Дюрсо
Введение
Параметры спектральных линий применяются в разных предметных областях: оптике атмосферы, атмосферной радиации, астрономии и т.д.
Потребность в таких данных постоянно растет, и увеличивается число производителей экспертных данных. Более жесткими становятся требования
к качеству данных: их точности, полноте и согласованности, достоверности и доверию. Показано [1], что для ряда прикладных задач
существующие экспертные данные не адекватны требованиям, предъявляемым к ним, т.к. содержат в себе устаревшие, сомнительные и не
полные наборы данных.
В ИОА СО РАН совместно рядом европейских университетов [2] создана информационная система (ИС) W@DIS [3]. Поскольку число молекул и
их изотопологов, необходимых для решения прикладных задач, уже давно больше тысячи, а число опубликованных статей с параметрами
спектральных линий составляет несколько десятков тысяч, назначением этой системы является формирование полной коллекции опубликованных
спектральных данных и ее машинного описания.
Результаты анализа данных коллекции представляются в форме OWL-онтологий и каждая из них предназначена для ответа на соответствующую
группу вопросов.
К первой группе относятся вопросы о качестве источников данных, извлеченных из публикации. Среди вопросов этой группы такие вопросы как
удовлетворяет ли конкретный источник данных правилам отбора, или насколько хорошо этот источник данных коррелирует с другими
источниками данных, которые содержат переходы идентичные с частью тех, которые размещены в исходном источнике данных. Часть вопросов
относится к экспертным источникам данных и связана с оценкой доверия к ним.
Вторая группа вопросов содержит вопросы о качестве конкретных состояний или переходов молекулы.
Третья группа вопросов связана с вопросами качества входных данных, используемых для решения задач спектроскопии.
1. Lavrentyev N.A., Makogon M.M., Fazliev A. Z., Comparison of the HITRAN and GEISA Spectral Databases Taking into Account the Restriction on Publication of Spectral Data // Atmos. Ocean.
Optics, 2011. —V. 24. No. 5. PP. 436–451.
2. G. Császár , J. Tennyson, A.Fazliev, W@DIS - Prototype information system for systematization of spectral data of water // Abst. 12-th Colloq. on High Resolution Molecular Spectroscopy (Dijon,
2007). —Dijon.: 2007. — P. 270-271.
3. W@DIS (Water Internet @ccesible Distributed Information System), URL:http://wadis.saga.iao.ru
Предметная область «Количественная спектроскопия»
При анализе предметной области (ПО) базовым вопросом является вопрос о том какие предметные
Математические модели молекул определяют ряд ограничений на состояния и правила отбора для переходов.
Стоит отметить, что последние 5 лет каждый год только в абсорбционной спектроскопии вычислены миллиарды
переходов и сотни тысяч состояний для малоатомных молекул. По нашей оценке число измеренных переходов в
год составляет десятки тысяч. Число журналов, в которых публикуется информация о спектральных данных, более
сотни. Число статей по спектроскопии ежегодно публикуемых в журналах, трудах конференций, в сети интернет
и т. д. - несколько тысяч (из них несколько сотен по спектроскопии высокого разрешения).
Изменчивость спектральных данных связана как с уточнением значений физических величин, так и с изменением
числа физических характеристик, входящих в структуры данных. Дополнительные физические характеристики
появляются при использовании новых моделей контура спектральной линий или использования новых наборов
квантовых чисел. Сложной проблемой является потни тысяч состояний для малоатомных молекул. По нашей
оценке число измеренных переходов в год составляет десятки тысяч. Число журналов, в которых публикуется
информация о спектральных данных, более сотни. Число статей по спектроскопии ежегодно публикуемых в
журналах, трудах конференций, в сети интернет и т. д. - несколько тысяч (из них несколько сотен по
спектроскопии высокого разрешения).
Изменчивость спектральных данных связана как с уточнением значений физических величин, так и с изменением
числа физических характеристик, входящих в структуры данных. Дополнительные физические характеристики
появляются при использовании новых моделей контура спектральной линий или использования новых наборов
квантовых чисел. Сложной проблемой является переход от одного набора квантовых чисел к другому.
Химическое вещество
Описательных моделей предметной области «Химическое
вещество» достаточно много. Не останавливаясь на их обзоре, мы
рассмотрим только часть этой предметной области, связанную с
моделью данных. В предлагаемой модели формализованы только
изолированные атомы и молекулы и оставлены без описания
вещества в разных фазовых состояниях. Эта часть может содержать
свойства
атомов
и
молекул,
которые
не
относятся
к
спектроскопическим свойствам, но их значения являются входными
данными для решения задач спектроскопии. В первую очередь к
этим данным относятся данные о модели вещества.
Схема базы данных для предметной области «Химические вещества»
Спектроскопия
Предметная
область
«Спектроскопия»
ориентирована
на
описание
спектральных свойств молекул, в первую очередь тех свойств, которые
характерные для процессов испускания и поглощения излучения в атмосферах
планет.
Отличительная особенность нашей модели [4] состоит в том, что она основана
на выделении первичных опубликованных источников данных, содержащих
решение прямых и обратных задач, которые характеризуют значения
физических величин, относящиеся к процессам испускания и поглощения.
Число задач, решаемых в молекулярной спектроскопии, достаточно велико. Их
можно разбивать на группы. Поскольку мы ограничились свойствами,
относящимися к процессам испускания и поглощения, нас интересует группа
задач, которые связаны с измерениями или вычислениями параметров
спектральных линий, необходимых для описания этих процессов. Эти задачи
образуют структуру, состоящую из двух цепей [5].
4. Лаврентьев Н.А., Привезенцев А.И. Фазлиев А.З., Базы знаний для описания информационных ресурсов в молекулярной
спектроскопии 2. Модель данных в количественной спектроскопии // Электронные библиотеки. 2011. — Т. 14. В.2.
5. Быков А.Д., Науменко О.В., Синица Л.Н., Родимова О.Б., Творогов С.Д., Тонков М.В., Фазлиев А.З.. Филиппов Н.Н., Информационные
аспекты молекулярной спектроскопии —Из-во ИОА СО РАН, Томск. 2008. —356С.
Предметном исследования являются решения 8 задач спектроскопии. Результаты анализа качества данных
(решений задач спектроскопии) необходимо представить в форме онтологии информационных ресурсов и
состояний и переходов. Отдельная онтология должна быть сконструирована и ее качество оценено для
описания спектральных функций.
Схема базы данных первичных решений задач спектроскопии.
МОЛЕКУЛЯРНЫЕ СОСТОЯНИЯ И ПЕРЕХОДЫ
Состояния
Переходы
Информационные ресурсы
В этой предметной области нас интересует тот этап работы исследователя при котором информация о
предметной области поступает к исследователям из опубликованных статей, написанных на естественном языке.
Для исследователя технической задачей при работе со статьей является построение субъектно-предикатных
структур [6], с целью получения выводов о результате исследований. В таких структурах элементарным
информационным объектом является высказывание. Более сложными информационными объектами являются
«источник данных» и «источник информации». Источник данных содержит в себе решение одной из задач
спектроскопии и представляет собой часть публикации. Источник информации содержит в себе свойства
решения задачи спектросокпии, относящегося к соответствующему источнику данных.
Перечень свойств решения задачи определяется исследователем исходя из информационных задач, которые
ему необходимо решать. В нашей работе таких задач две. Это задача семантического поиска и задача
автоматического построения экспертного массива данных. Заметим, что первичные источники информации,
относящиеся к одной публикации, не содержат идентичных высказываний. Различие между публикацией и
первичным источником информации может быть существенно меньшим по сравнению с различием между
публикацией и первичным источником данных. Различие обусловлено теми свойствами решения задачи в
публикации, которые вошли в определение того или иного источника информации. Например, такими
свойствами могут быть описание достоверности решения задачи или описание оценки доверия экспертному
массиву данных. Более того, высказывания, содержащиеся в первичном источнике информации, могут не
содержаться в публикации.
Базовой проблемой информационных ресурсов, используемых в ИС, является контроль их качества. Для контроля
качества используются критерии достоверности данных, оценки доверия к данным и метрики.
6. Зиновьев А.А. Основы логической теории научных знаний. —М.: Наука, 1967. —260С.
Упрощенная модель данных для количественной спектроскопии
Качество экспертных данных в спектроскопии
Экспертные информационные ресурсы количественной спектроскопии должны
обеспечивать низкий порог трудозатрат для адекватного восприятия знаний о спектрах в
прикладных науках. Последнее является важным в силу того, что исследователи
прикладных наук не обладают знаниями необходимой глубины для понимания всех сторон
спектроскопических данных, и их выбор строится чаще на доверии, а не на собственной
проверке достоверности данных. По этой причине исследователи должны иметь полную
картину о том, каким критериям достоверности и доверия удовлетворяют экспертные
данные, полный набор результатов проверок по этим критериям. В нашей работе анализ
качества экспертных спектральных данных сосредоточен на проверке их достоверности и
оценке доверия по критерию опубликования [7, 8]. Такой анализ является частью решения
задачи оценки доверия экспертных информационных ресурсов по критерию
опубликования.
7. Ахлёстин А.Ю., Лаврентьев Н.А., Привезенцев А.И., Фазлиев А.З. Базы знаний для описания информационных ресурсов в
молекулярной спектроскопии. 5. Качество экспертных данных // Электронные библиотеки, 2013. — Т. 16. В.4.
8. Fazliev, A. Privezentsev, D. Tsarkov, J. Tennyson, Ontology-Based Content Trust Support of Expert Information Resources in Quantitative
Spectroscopy // In book: Knowledge Engineering and the Semantic Web, Comm. in Comp. and Inform. Sci., V. 394, Springer Berlin Heidelberg,
2012.—PP.15-28.
Качество спектральных данных
Формальные ограничения
Тип данных – квантовые числа – positiveInteger,
интенсивность, волновые числа, уровни энергии – positiveFloat, ….
Интервалы изменения – 0 < волновые числа < 100000 cm-1,
10-16 cm/mol < интенсивность <10-32 cm/mol , точные квантовые числа – J < 60,
0 < s < 5, ……
Формальные индивидуальные критерии: правила отбора – ka+kc=J или J+1, …..
Согласование данных (Dmax, s, A00, A01, A10)
Формальный относительный критерий: Dmax=| l1 - l2 |
Формальный относительный критерий: СКО (s)
Формальный относительный критерий: факторы упорядочения (A00, A01, A10)
Неформальные ограничения
Оценка доверия
Неформальный индивидуальный критерий: Критерии опубликования (Dk).
Экспертные данные содержат только опубликованные данные
Неформальный относительный критерий: Оценка экспертов
Онтологическое представление количественной спектроскопии
В ИС W@DIS используется формальное описание предметных областей, выполненное с
помощью языка разметки OWL 2 DL. Детали построения онтологии информационных
ресурсов по спектроскопии и онтологии состояний и переходов даны в наших работах
[9-11]. Ключевыми конструктами языка OWL являются индивиды, свойства и классы.
Три предметные области, описанные выше, инициируют три группы вопросов,
обусловленные качеством данных. С каждой из этих групп связаны определенные
структуры индивидов (см. [9,10]). Первая группа вопросов, связанная с качеством
публикаций по спектроскопии, порождает четыре типа индивидов: три типа связаны с
задачами спектроскопии, а четвертый тип - с оценкой качества публикаций содержащих
описание экспертных спектральных данных. Вторая группа вопросов относится к
качеству каждого перехода или состояния, которые многократно измерены. Третья
группа вопросов характеризует качество входных данных использованных при решении
задач спектроскопии. Каждой группе вопросов соответствует свои онтологии.
Качество создаваемых онтологий для каждой молекулы существенно зависит от того
насколько полна коллекция опубликованных данных и как хорошо согласованы данные
разных источников. Заметим, что если для какой-то молекулы данные не полны и не
согласованы, то оценка доверия экспертным данным для такой молекулы в рамках
данной коллекции не проводится.
9. Привезенцев А.И., Царьков Д.В., Фазлиев А.З. Базы знаний для описания информационных ресурсов в молекулярной
спектроскопии 3. Базовая и прикладная онтологии // Электронные библиотеки, 2012. — Т. 15, В.2.
10. Voronina S.S., Privezentsev A.I., Tsarkov D.V., Fazliev A.Z., An Ontological Description of States and Transitions in Quantitative
Spectroscopy // Proc. of SPIE XX-th Intern. Symposium on Atmos. and Ocean. Optics: Atmos. Physics, 2014. —V. 9292, 92920C.
11. Воронина С.С., Привезенцев А.И., Царьков Д.В., Фазлиев А.З., Различие онтологических представлений предметной
области // Труды конф. XVI Всеросс. научная конф. "Электронные библиотеки: перспективные методы и технологии",
Дубна, ОИЯИ, 2014. — С. 124-130.
T-box (понятийная часть)
Таксономия классов онтологии информационных ресурсов спектроскопии
A-box (фактологическая часть)
Онтология информационных ресурсов по молекулярной спектроскопии
Индивид «Information source
V4_T7_269_NaMaLeTe_D2O_to_V4_T1_284_ShZoPo_D2O_by_EnergyLevels_on_NormalModes_RMSPair»
V4_T7_269_NaMaLeTe_D2O_to_V4_T1_284_ShZoPo_D2O_by_EnergyLevels_on_NormalModes_RMSPair
hasRMSMember V4_T7_269_NaMaLeTe_D2O hasRMSMember V4_T1_284_ShZoPo_D2O
hasPhysicalQuantity
EnergyLevels
hasRMSBandPair V4_T7_269_to_V4_T1_284_by_EnergyLevels_on_NormalModes_v1_v2_v3_RMSBandPair
hasTotalRMSDeviationValue 34.800 hasTotalMaxDifferenceValue 225.9971 hasTotalNumberCorrelationLines 530
V4_T7_269_NaMaLeTe_D2O_to_V4_T1_284_ShZoPo_D2O_by_EnergyLevels_on_NormalModes_ident_v1_
v2_v3_RMSBandPair
hasRMSStateBand V4_T7_269_to_V4_T1_284_by_EnergyLevels_on_NormalModes_0_3_3_RMSStateBand
hasRMSStateBand V4_T7_269_to_V4_T1_284_by_EnergyLevels_on_NormalModes_1_1_3_RMSStateBand
hasRMSStateBand V4_T7_269_to_V4_T1_284_by_EnergyLevels_on_NormalModes_1_3_2_RMSStateBand
hasRMSStateBand V4_T7_269_to_V4_T1_284_by_EnergyLevels_on_NormalModes_2_1_2_RMSStateBand
hasRMSStateBand V4_T7_269_to_V4_T1_284_by_EnergyLevels_on_NormalModes_2_3_1_RMSStateBand
hasRMSStateBand V4_T7_269_to_V4_T1_284_by_EnergyLevels_on_NormalModes_3_1_1_RMSStateBand
hasRMSStateBand V4_T7_269_to_V4_T1_284_by_EnergyLevels_on_NormalModes_3_3_0_RMSStateBand
hasRMSStateBand V4_T7_269_to_V4_T1_284_by_EnergyLevels_on_NormalModes_4_1_0_RMSStateBand
hasNumberOfRMSBands 8
V4_T1_284_ShZoPo_D2O ………….
hasReference S.V. Shirin, N.F. Zobov, O.L. Polyansky,
Theoretical line list of D216O up to 16000 cm-1 with an
accuracy close to experimental, J. Quant. Spectr.
Rad. Trans., 109 (2008) 549
V4_T7_269_NaMaLeTe_D2O ……….
hasReference O.V.Naumenko, F. Mazzotti, O.M.
Leshchishina, J. Tennyson and A. Campargue, Intracavity
laser absorption spectroscopy of D2O between 11 400 and
11 900 cm-1. // Journal of Molecular Spectroscopy, 2007, v.
242, no. 1, p. 1-9
hasQuantumNumberBand QuantumNumbers_on_NormalModes_0_3_3_Band
hasBandMaxDifferenceValue 121.42 hasBandNumberCorrelationLines 45
hasBandRMSDeviationValue 23.717
hasQuantumNumberBand QuantumNumbers_on_NormalModes_2_3_1_Band
hasBandMaxDifferenceValue 121.42 hasBandNumberCorrelationLines 45
hasBandRMSDeviationValue 23.717
hasQuantumNumberBand QuantumNumbers_on_NormalModes_1_1_3_Band
hasBandMaxDifferenceValue 121.42 hasBandNumberCorrelationLines 45
hasBandRMSDeviationValue 23.717
hasQuantumNumberBand QuantumNumbers_on_NormalModes_3_1_1_Band
hasBandMaxDifferenceValue 121.42 hasBandNumberCorrelationLines 45
hasBandRMSDeviationValue 23.717
hasQuantumNumberBand QuantumNumbers_on_NormalModes_1_3_2_Band
hasBandMaxDifferenceValue 121.42 hasBandNumberCorrelationLines 45
hasBandRMSDeviationValue 23.717
hasQuantumNumberBand QuantumNumbers_on_NormalModes_3_3_0_Band
hasBandMaxDifferenceValue 121.42 hasBandNumberCorrelationLines 45
hasBandRMSDeviationValue 23.717
hasQuantumNumberBand QuantumNumbers_on_NormalModes_2_1_2_Band
hasBandMaxDifferenceValue 121.42 hasBandNumberCorrelationLines 45
hasBandRMSDeviationValue 23.717
hasQuantumNumberBand QuantumNumbers_on_NormalModes_4_1_3_Band
hasBandMaxDifferenceValue 121.42 hasBandNumberCorrelationLines 45
hasBandRMSDeviationValue 23.717
(131 + 5Nbands) statements
ОНТОЛОГИЯ СОСТОЯНИЙ И ПЕРЕХОДОВ МОЛЕКУЛЫ
Структура индивидов предметной области Количественная спектроскопия
Здесь 1999_Toth идентификатор публикации, из которой извлечены данные, H2O –и молекула состояние которой
описывается, Un – сокращение, соответствующее «метод неизвестен», Prim – сокращение, соответствующее
типу источника данных, в данном случае «Primary» и QNS – квантовые числа состояния (T – переход, LP –
профиль линии).
В индивидах типа Molecule_LineProfile_QNLP используются более 20 типов контуров спектральных линий, но в
каждом конкретном индивиде такого типа содержатся факты о физических величинах, относящихся к одному
типу контура. Часть опубликованных значений физических величин не включена в индивиды. В число таких
физических величин входят те, которые относятся к переходам и состояниям, квантовые числа которых не
удовлетворяют ограничениям на состояния или правилам отбора, или квантовые числа которых имеют
дубликаты в рамках публикации или они не идентифицированы полностью.
Описание публикации дано стандартным способом. Часть библиографических свойств публикации опущена, в
числе таких свойств, например, место работы авторов, подробная дата публикации и т.д.. К числу
математических отношений, используемых в описании индивидов, относятся максимальные разности
физических величин и среднеквадратичные значения. Эти отношения используются как ко всем идентичным
физическим величинам, так и к паре групп. Группами формируются из рассчитанных, измеренных или эталонных
физических величин.
Онтология спектроскопии хорошо разбиваются на смежные онтологии по молекулам и трем группам задач. Каждая группа задач
разбивается на описание индивидуальных свойств источника данных, и ряда относительных свойств. Детали разбиения
представлены на рисунке.
Индивиды, классы и свойства являются основными конструктами онтологии.
Качество онтологий по спектроскопии
Контроль над качеством онтологий, формируемых автоматически возможен при условии
измерения ее различных метрик. Метрики позволяют проводить быструю оценку онтологии и
следить за ее изменениями. В нашей работе используются структурные метрики. Детальное
описание метрик представлено в работе [11].
Контроль над онтологией, формируемой автоматически, возможен при условии измерения
ее различных метрик. Метрики позволяют проводить быструю оценку онтологии и следить за
ее изменениями. Метрики могут быть структурными, семантическими, статистическими и
т.д.. Большая часть метрик относится к структурным метрикам, т.к. они определяются на
RDF-графе, представляющем OWL-онтологию. Существует небольшое число метрик,
учитывающих семантику и практически не используются стабильные метрики, значения
которых должны быть инвариантны относительно добавления в онтологию классов, свойств
и индивидов.
11. Воронина С.С., Привезенцев А.И., Царьков Д.В., Фазлиев А.З., Различие онтологических
представлений предметной области // Труды конф. XVI Всеросс. научная конф. "Электронные
библиотеки: перспективные методы и технологии", Дубна, ОИЯИ, 2014. — С. 124-130.
PROTÉGÉ. МЕТРИКИ ОНТОЛОГИИ
Метрики
1.Аксиомы (число логических аксиом - количество логических аксиом, т.е. тех, что
влияют на семантику.
2.Число классов
3.Число объектных свойств
4.Число конкретных свойств
5.Число индивидов
6.DL-выразительность какой Дескриптивной Логики достаточно для того, чтобы
описать все аксиомы данной онтологии.
Аксиомы классов
1.Число аксиом подклассов
2.Число аксиом эквивалентных классов
3.Число аксиом смежных классов
4.Число GCI - количество общих аксиом, т.е. аксиом вида C [= D, где С -- сложный
концепт, а не просто имя.
5.Число спрятанных GCI - Hidden GCI count -- количество "скрытых", неочевидных
GCI. Это аксиомы, которые в силу особенности табличного алгоритма ведут себя как
GCI. В частности, если в онтологии имеются два определения одного термина (A = C,
A [= D), то одно из них и будет таким скрытым GCI.
Аксиомы объектных свойств
1. Число аксиом subObjectPropertyOf
2. Число аксиом equivalentObjectProperty
3. Число аксиом inverseObjectProperty
4. Число аксиом disjointObjectProperty
5. Число аксиом functionalObjectProperty
6. Число аксиом inversefunctionalObjectProperty
7. Число аксиом transitiveObjectProperty
8. Число аксиом symmetricObjectProperty
9. Число аксиом asymmetricObjectProperty
10. Число аксиом reflexiveObjectProperty
11. Число аксиом irreflexiveObjectProperty
12. Число аксиом ObjectPropertyDomain
13. Число аксиом ObjectPropertyRange
14. Число аксиом subPropertyChainOf
Аксиомы объектных свойств
1.Число аксиом subDataPropertyOf
2.Число аксиом equivalentDataProperty
3.Число аксиом disjointDataProperty
4.Число аксиом functionalDataProperty
5.Число аксиом DataPropertyDomain
6.Число аксиом DataPropertyRange
Аксиомы индивидов
•Число аксиом ClassAssertion
•Число аксиом ObjectPropertyAssertion
•Число аксиом DataPropertyAssertion
•Число аксиом NegativeObjectPropertyAssertion
•Число аксиом NegativeDataPropertyAssertion
•Число аксиом SameIndividual
•Число аксиом DifferentIndividual
Аксиомы аннотаций
1.Число аксиом AnnotationAssertion
2.Число аксиом AnnotationPropertyDomain
3.Число аксиом AnnotationPropertyRange
Онтология информационных ресурсов количественной спектроскопии
14 молекул и их изотопологи
DL-выразительность онтологии ALCOIN(D)
В T-box отнесены высказывания (аксиомы (триады)) о классах, свойства (и индивидах
относящиеся к молекулам и атомам).
В A-box отнесены аксиомы, относящиеся к индивидам, источникам информации,
характеризующим состояния и переходы молекул, публикациям, содержащим решения задач
спектроскопии, … и число индивидов, характеризующих источники информации о
спектральных свойствах молекул.
T-box включает 3560 аксиом, 166 классов, 953 свойств (и 2389 индивидов).
Фактологическая часть (A-box) содержит аксиомы и индивиды. Аксиомы относятся к решениям
спектроскопических прямых (T1-T3) и обратных задач (T5-T7). Общее число аксиом в
фактологической части n равно 7 189 552, (n1,7=13 3611,
n2,6=2 515 800 n3,5=4 540 141, здесь nk,m k=Ti m=Tj, где i=1,2,3 j=5,6,7, т.е. n1,7- число аксиом,
относящихся к задачам T1 и T7).
Общее число индивидов s=1 716 910 (s1,7=25 776, s2,6=639 375, s3,5=1 051 759, здесь sk,m k=Ti
m=Tj, где i=1,2,3 j=5,6,7, т.е. s1,7- число индивидов, относящихся к задачам T1 и T7)
СТРУКТУРНЫЕ МЕТРИКИ ОНТОЛОГИЙ КОЛИЧЕСТВЕННОЙ СПЕКТРОСКОПИИ
Онтология спектральных функций и
онтология переходов молекул
Онтология спектральных функций
7 молекул
T-box 2 504 аксиом, 111 классов, 37 свойств (и 623 индивида).
A-box содержит 20 514 аксиом и 4 359 индивидов.
Онтология переходов изолированных молекул
14 молекул и их изотопологи
DL-выразительность онтологии ALCRIF (D)
T-box включает 336 аксиом, 29 классов, 37 свойств (и 390 индивидов).
A-box содержит 35 310 879 аксиом и 5 230 586 индивидов.
СТРУКТУРНЫЕ МЕТРИКИ ОНТОЛОГИЙ КОЛИЧЕСТВЕННОЙ СПЕКТРОСКОПИИ
ПРЕДВАРИТЕЛЬНАЯ ОЦЕНКА ОНТОЛОГИЙ
КОЛИЧЕСТВЕННОЙ СПЕКТРОСКОПИИ
Онтология
Примитивные
метрики
TNOC
Информационных Ресурсов
Спектроскопии
Сечений Поглощения
Переходов Изолированной
Молекулы
TNOR
166 953
111 37
29
37
Составные
метрики
Схемные метрики
Метрики БЗ
Метрики
классов
TNOR/TNOC
RR=|TNOR|/(|SC|+|TNOR|)
PI=I/C
Rd
5.13
0.33
1.31
0.86
0.25
0.56
10342
39.2
249294
1300
20
40
Примитивные метрики
TNOC – полное число классов онтологии
TNOR – полное число свойств онтологии
Схемные метрики
RR=|P|/(|SC|+|P|), P – полное число свойств, SC – сумма числа подклассов
Метрики базы знаний
PI=|I|/|C|, I - число индивидов, используемых в онтологии, С=TNOC - число классов, используемых в онтологии
Метрики классов
Rd = |A, A=rdfs:comment|+| A, A=rdfs:label|
Заключение
В работе рассмотрены два онтологических представления предметной области
«Количественная спектроскопия». Первое из них характеризует качество публикаций из
которых извлечены спектральные данные, а второе – качество измеренных характеристик
переходов и состояний. Заметим, что шумовые данные, неопределенности, связанные с
квантовыми числами и размерностями физических величин, неполнота информации о
квантовых числах фиксировались на этапе формирования онтологии (графа знаний), но для
ряда молекул нам не удалось в настоящее время достигнуть желаемого качества спектральных
данных. Созданные онтологии описывают качество данных содержащихся в коллекции и
ориентированы на работу с агентами.
Дальнейшие перспективы развития онтологии количественной спектроскопии мы связываем с
развитием онтологий, характеризующих модели веществ, спектральные свойства которых
входят в коллекцию ИС W@DIS.
Download