Онторедактор как комплексный инструмент онтологической

advertisement
ОНТОРЕДАКТОР
КАК КОМПЛЕКСНЫЙ ИНСТРУМЕНТ
ОНТОЛОГИЧЕСКОЙ ИНЖЕНЕРИИ
Рубашкин В. Ш.
Пивоварова Л. М.
Чуприн Б. Ю.
кафедра информационных систем
в искусстве и гуманитарных науках
Факультет филологии и искусств СПбГУ
1. Gomez-Perez A., Fernando-Lopez M., Corcho O. Ontology
Engineering. – Springer – Ferlag, 2004.
2. Staab Steffen, Studer Rudi (eds). Handbook on Ontologies. –
Berlin—Heidelberg: Springer—Verlag, 2004
3. Nirenburg S., Raskin V. Ontological Semantics. – Cambridge, MA:
MIT Press, 2004
4. Denny M. Ontology Tools Survey, Revisited – 2004
http://www.xml.com/pub/a/2004/07/14/onto.html
=========================
1. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний
интеллектуальных систем. – СПб.: Питер, 2000. С. 271 – 316
2. Рубашкин В. Ш. Представление и анализ смысла в
интеллектуальных информационных системах. - М.: Наука, 1989
6. Рубашкин В. Ш. Универсальный понятийный словарь:
функциональность и средства ведения // КИИ-2002. Восьмая
национальная конференция по искусственному интеллекту с
международным участием. Труды конференции. М., 2002. С. 231
– 237.
7. Рубашкин В. Ш., Лахути Д.Г. Семантический (концептуальный)
словарь для информационных технологий. // Научнотехническая информация. - Сер. 2. Часть1. 1998.- N 1. - С. 19 –
24; Часть2. 1999.- N 5. - С. 1 -12. Часть3. 2000. - N 7. - С. 1 – 9
8. Рубашкин В. Ш., Лахути Д.Г. Онтология: от натурфилософии к
научному мировоззрению и инженерии знаний // Вопросы
философии № 1, 2005. С. 64 – 81.
9. Guarino Nicola. Formal Ontology and Information Systems // Formal
Ontology in Information Systems. Proceedings of FOIS’98, Trento,
Italy, 6-8 June 1998. Amsterdam, IOS Press, pp. 3-15.
6. Русский семантический словарь. Толковый словарь,
систематизированный по классам слов и значений / РАН. Ин-т
рус. яз.; Под общей ред. Н.Ю.Шведовой. – М.: Азбуковник.
Том I.-1998; Том II. - 2000; Том III. – 2003.
10. Толковый словарь русских глаголов: Идеографическое описание.
Английские эквиваленты. Синонимы. Антонимы. – М.: АСТПРЕСС, 1999.
Wiki:
Ontology editors are applications designed to assist
in the creation or manipulation of ontologies.
Онтология
Том Грубер (1991):
T. R. Gruber. The Role of Common Ontology in Achieving Sharable,
Reusable Knowledge Bases // Principles of Knowledge
Representation and Reasoning: Proceedings of the Second
International Conference, 1991.
An ontology is an explicit specification of a conceptualisation.
Michael Denny. Ontology Tools Survey, 2004 :
Ontologies are a way of specifying the structure of domain knowledge
in a formal logic designed for machine processing.
Существенны три пункта:
1) Концептуальная структура
2) Формальная модель
3) Информационно-вычислительный ресурс
Онтология
1) Концептуальная структура
а) единицы – понятия, а не слова!
б) система, включающая множество понятий и набор
утверждений об этих понятиях. (классификация понятий,
отношения между понятиями; в частности иерархии понятий по
отношениям общее – частное и часть - целое)
Проблема выбора и уровня детализации единиц; граница между
понятиями и лексическими вариантами.
- линейный размер, цвета и оттенки
Онтология
• Формальная модель (Модель знаний)
Формализованное (посредством некоторого ЯПЗ) описание
концептуальной системы, специфицирующее:
а) используемую классификацию концептов
б) набор допустимых парадигматических отношений между
концептами
в) аксиомы и правила вывода
Принципиальная важность выбора той или иной модели знаний
• OKBC – фреймовая модель: концепты (классы), экземпляры,
слоты, фасеты
• OWL – классы, экземпляры, свойства (datatype property, object
property)
• InfoL – концепты, их словарные характеристики, связи между
концептами; дерево признаков.
3) Информационно-вычислительный ресурс
(а не просто словарь!)
Технически – исполняемый модуль
(напр., dll библиотека, COM-объект),
обладающий некоторой функциональностью и стандартным
образом подключаемый к любым информационным
технологиям.
Формально – это набор функций вида :
F (D),
F (D1, D2)
===========================
Поэтому ближайшим и непосредственным предшественником
можно считать информационно-поисковые тезаурусы (ИПТ),
а переход к онтологиям интерпретировать как процесс
интеллектуализации ИПТ.
Наша мотивировка функциональности онтологии –
семантический анализ текста
•
•
•
•
вопрос – ответные соответствия (цвет - красный);
представление числовых данных;
кореференция;
предикат – актанты;
Функциональность:
•
•
•
полный набор объемных отношений (тигр – охотник - повар);
предметно –ассоциативные отношения (тигр – лапа);
функциональные отношения (кг - масса)
Представление данных и операционная среда онтологии:
СУБД как "естественная операционная среда".
Варианты: продукционная система.
Онторедактор –
не просто средство ввода и редактирования,
но интегрированная среда разработки и использования
(integrated development environment - IDE)
Функциональность онтологии (использование)
vs
функциональность онторедактора (создание и поддержка)
Онтология предоставляет программный интерфейс
приложениям;
онторедактор реализует человеко-машинный интерфейс,
обеспечивающий администрирование онтологий.
NB: Для реализации части функций онторедактора должна
использоваться функциональность самой онтологии.
Функциональность онторедактора
Функциональный стандарт еще только формируется.
Традиционные функции:
• навигация, броузинг и поиск;
• ввод и редактирование.
Нетрадиционные:
• тестирование онтологии;
• экспорт – импорт;
• интеграция разнородных концептуальных систем (ontology
merging);
• (полу)автоматическое пополнение онтологий;
• определение взаимного соответствие концептов и единиц ЕЯ
("Лексикон");
• работа с описаниями экземпляров, являющихся "примерами"
(instance) концептов.
(+ Функциональность онтологии)
Специфика навигации, броузинга, поиска
Просмотр и навигация предполагают некоторую "естественную"
упорядоченность материала. "Естественный порядок в
концептуальной системе = ???!
– по алфавиту?
– по ключу?
– в порядке "физического" следования?
- Поиск как средство навигации
-
"Лексическая" навигация
-
Классификационные фильтры и фильтры администрирования
"Естественной" для концептуальной системы можно считать,
скорее, таксономическую (общее - частное) упорядоченность
концептов; она образует ядро всякой концептуальной модели.
Просмотр "сверху вниз" (от общего к частному).
А
также, возможно, просмотр групп концептов связанных
иерархическими связями другого типа (например, целое часть).
Отсюда - потребность графического представления всех или
некоторых связей между концептами и поддержки процедур
графического редактирования.
Вопрос об объеме графического представления связей:
– только общее – частное?
– + целое – часть?
– + другие виды связей?
(артефакт – функция: судно – плыть;
единица измерения – признак: ватт – мощность
и т.д.)
Складывающееся решение:
в графике представляется только таксономия.
Специфика ввода и редактирования
a) "ручной" ввод (собственно ввод);
b) автоматический или автоматизированный ввод на основе
анализа корпуса текстов;
c) автоматизированный ввод с использованием традиционной
лексикографической информации (энциклопедических и
толковых словарей).
Главные проблемы:
• достоверность;
• эргономичность.
Конечная цель при проектировании процедур собственно ввода –
максимально исключить формально определимые ошибки.
Самое плохое решение – неконтролируемый ввод.
Не лучшее решение - обнаруживать ошибки post factum.
Технологически "хорошее" решение процедура ввода должна быть организована так, чтобы ввод
некорректных элементов описания оказался вообще
невозможным.
Требование достоверности ввода – конкретизация:
1) Неизбыточность и полнота описания –
должны быть определены те и только те словарные признаки,
которые релевантны для концептов данного типа.
2) Непротиворечивость описания –
элементы словарных характеристик не должны противоречить
друг другу.
Пример:
Для концепта, определяемого конъюнкцией (пересечением
объектных классов; в других терминах – класс, определяемый
через множественное наследование), определяющие концепты
должны быть совместимы (в терминах OWL –не должны
находиться в отношении Disjoint):
'слон'  'животное' And 'металлический' ???
NB: Вызов машины вывода!
3) Правильность означивания –
значения определяемых словарных признаков должны
принадлежать области их допустимых значений.
Пример1:
Формально неправильно:
БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'нагрев'
???
правильно:
БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'линейный размер'
(допустим только концепт класса 'наименование числового
признака', подкласс 'сочетающийся с числом').
Пример2 :
'лед'  'агрегатное состояние' And 'химический состав' ???
-
категориальная ошибка: формальное толкование типа
"конъюнкция" для объектного термина может содержать только
объектные термины, либо означенные признаки.
4) Содержательная правильность –
вводимые словарные характеристики должны быть адекватны
смыслу добавляемого или редактируемого концепта.
Примеры:
ОБОБЩАЮЩИЙ_ПРИЗНАК ( 'цвет' ) =
'химические свойства вещества' ???
БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'температура'
???
'лед'  'отверстие' And 'цилиндрической формы'
???
- определение является формально правильным.
Такого рода ошибки не являются формально контролируемыми;
они могут оставаться не выявленными, пока онтология не начнет
использоваться в приложениях, для которых именно эта связь
окажется существенной.
Решение задач формального контроля обусловлено возможностью
построить формальное описание системы словарных
признаков.
a) определение области значений каждого признака;
b) установление отношений зависимости по условиям
применимости между признаками.
Тестирование
Тестирование как проверка формальной корректности (вместо
контроля ввода)
vs
тестирование как содержательный экспертный контроль.
Предмет тестирования во 2-м случае = ?
Формальный ответ:
проверка отдельного концепта = просмотр словарной статьи;
собственно тестирование как экспертный контроль связей:
• объемные отношения;
• ассоциативные отношения;
• функциональные отношения.
Тестирование
Терминология [Gomez-Perez]:
• evaluation - общее название для процедур проверки;
• verification - whether the ontology is building correctly
• validation – whether the ontology definitions really model
the real world
• assessment – judging the ontology from the user's &
application's point of view
Автоматизация пополнения
•
Интеграция онтологий (ontology merging)
•
Собственно пополнение (ontology learning)
- по корпусу текстов
- из традиционных словарей (+WordNet ?)
Интеграция номологических и фактографических знаний
(представление экземпляров)
Онтология – знание о применимости признаков к классу объектов.
Фактография (напр., БД) – знание о значениях признаков для
конкретного объекта.
Относительность разделения на классы и экземпляры (ср. марки и
автомобили).
Download