Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) УДК 002.53:004.89 В.В. Бова, Д.В. Лещанов О ВОПРОСЕ ИНТЕГРАЦИИ РЕСУРСОВ ЗНАНИЙ НА ОСНОВЕ АНАЛИЗА И СИНТЕЗА ОНТОЛОГИЙ Данная статья посвящена обзору применения онтологий в интеллектуальных технологиях управления знаниями. Рассмотрены подходы к решению задачи интеграции разнородных знаний на основе онтологического анализа и синтеза. Сущность задачи интеграции разнородных ресурсов знаний состоит в применении единого онтологического подхода в рамках субъектно-ориентированной модели приобретения знаний. Приведены примеры разработки, объединения и применения онтологий при работе со знаниями в проблемно-ориентированных системах сферы образования. Обоснованы проблемы повторного совместного использования ресурсов знаний на основе связывания онтологий и информационных ресурсов. Онтологии, сетевые модели представления знаний, модель предметной области, проблемно-ориентированные системы, интеграция знаний, информационные ресурсы. V.V. Bova, D.V. Leshchanov ABOUT THE ISSUE OF INTEGRATING KNOWLEDGE RESOURCES BASED ON THE ANALYSIS AND SYNTHESIS OF ONTOLOGIES This article reviews the use of ontologies in intelligent knowledge management technologies. Approaches to the problem of integrating heterogeneous knowledge based on ontological analysis and synthesis. The essence of the problem of integration of heterogeneous knowledge resources is to apply a single ontological approach within the subject-oriented model of knowledge acquisition. The examples of the development, consolidation and application of ontologies when dealing with knowledge in problemoriented education system. Substantiated problems re sharing knowledge resources based on binding ontologies and information resources. Ontology, network models of knowledge representation, domain model, problemoriented systems, knowledge integration, information resources. Введение. Процесс развития современного общества характеризуется постоянно возрастающей ролью информационных технологий в науке, производстве и управлении. В последние годы многократно увеличились объемы информационных потоков и сложность ориентации в информационных ресурсах, что привело к необходимости поиска новых способов хранения, представления, формализации, систематизации и обработки информации в компьютерных системах [1−3]. В условиях экспоненциального роста и объема накопленной современным обществом информации наиболее заметно воздействие глобальной сети на интеллектуальные сферы человеческой деятельности, на технологии накопления и распространения знаний. Создаются системы баз знаний (БЗ), иначе − системы, основанные на знаниях (СОЗ), которые включают, кроме собственно данных, также средства управления знаниями, моделирования и оценки ситуаций, логического вывода и под1 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) держки принятия решений [4]. В основе моделей большинства СОЗ лежат онтологии предметных областей. Онтологии предметной области в настоящее время находят основное применение в области построения поисковых систем, систем представления знаний, инженерии знаний и при решении задач семантической интеграции информационных ресурсов. В данной работе рассматриваются вопросы логической интеграции разнородных распределенных семантически связанных ресурсов знаний. Принимая во внимание тот факт, что информационные ресурсы одной предметной области содержат отличающиеся внешне термины, понятия, сущности, но могут быть семантически связанными (близкими по смыслу), и, наоборот, имея одинаковые названия, могут нести абсолютно разную смысловую нагрузку, необходимо применять подходы к решению задачи интеграции разнородных знаний на основе онтологического анализа и синтеза. Онтологии в системах информатизации образования. В информатизации образования выделяют группы коммутативных и сущностных проблем. В технологиях коммутативных проблем быстрый прогресс обусловлен развитием семантической сети (Semantic Web), высокими скоростями передачи данных, потоковым видео, реализацией быстрого доступа к распределенным БЗ, агрегированием информации из разных источников с помощью средств RSS [5]. Онтологии применяют в технологиях сущностных проблем, направленных на создание, преобразование, использование контента при обучении. В свою очередь, сущностные проблемы можно разделить на проблемы проектирования и управления содержанием (контентом) обучения. В задачи проектирования входит разработка учебных программ и обеспечивающих их электронных образовательных ресурсов (ЭОР). Задачи управления решаются непосредственно в процессе обучения и направлены на оперативную корректировку хода обучения в зависимости от результатов промежуточного тестового контроля усвоения обучаемым предлагаемого учебного материала. Значительную роль в вопросах создания ЭОР и их адаптации к особенностям конкретных обучаемых сыграла концепция модульности образовательного контента [6] и ее воплощение в стандарте SCORM [7]. В большинстве инструментальных сред создания гипертекстовых ЭОР межмодульные связи являются фиксированными, что существенно ограничивает возможности изменения структуры и состава модулей в ресурсе, т.е. ограничивает возможности адаптации контента к запросам и уровню предварительной подготовки обучаемых. Поэтому в моделях ЭОР, соответствующих стандарту SCORM, ради адаптивности ЭОР произошел отказ от использования межмодульных ссылок. В отличие от технологии SCORM, в онтологической технологии ТРЕК [6] модули содержат гипертекст с возможными гиперссылками на другие модули, что превращает каждый ЭОР в средство навигации по различным разделам БЗ. Гиперссылки реализуются посредством концептов онтологии, которая выполняет роль интегрирующей среды, и поэтому при удалении или перемещении модулей в БЗ не требуется корректировки семантического представления узлов знаний – модулей. Таким образом, появляется возможность разработки оптимальных траекторий обучения и их обеспечение оперативно создаваемыми объектами знаний – индивидуализированными ЭОР. Онтологии могут быть полезны также при проектировании банков тестов, автоматизации оценивания знаний и управления траекториями обучения по результатам тестирования. Онтологический подход к созданию и применению ЭОР реализован в системе «База и генератор образовательных ресурсов» (БиГОР) [6]. 2 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) Трудоемкость создания и сопровождения онтологий довольно велика и потому для их развития, важно иметь средства объединения онтологий, созданных разными коллективами, в которых должны быть согласованны методы построения понятийного базиса онтологий на основе семантических сетей. Задача объединения онтологий описана в ряде источников, например, [8−10], однако автоматизированы лишь отдельные операции композиции онтологий. Подходы к интеграции ресурсов знаний на базе онтологий. Онтология – это подробная спецификация структуры определенной проблемной области, основное назначение которой – интеграция информации. Обычно такая спецификация состоит из иерархической структуры данных, содержащей все релевантные классы объектов, их связи и правила, принятые в этой области. Она является виденьем эксперта предметной области, выраженном в некотором формальном представлении, что дает возможность использования этого понимания структуры и значения элементов информации при ее автоматической обработке. Именно формализация представления связей между понятиями в онтологии делает возможным их использование в широком спектре автоматизированных информационных систем. Онтология состоит из терминов (понятий), их определений и атрибутов, а также связанных с ними аксиом и правил вывода. Формальная модель онтологии – это упорядоченная тройка конечных множеств О=<T, R, F>, где: Т – термины предметной области, которую описывает онтология O; R – отношения между терминами заданной предметной области; F – функции интерпретации, заданные на терминах и/или отношениях онтологии O. Идея использования онтологий для интеграции разнородных ресурсов заключается в том, что при принятии решения об отождествлении некоторой пары информационных атрибутов из различных источников, осуществляется анализ их смысловой эквивалентности путем выявления связей между соответствующими этим атрибутам понятиями (концептами) в онтологии предметной области. Почти все подходы к интеграции разнородных ресурсов применяют онтологии для явного описания их семантики [10]. В общем можно выделить три направления использования онтологий. 1. Подход с использованием единой онтологии. Используется одна общая онтология, предоставляющая разделяемый словарь терминов, который используют все информационные ресурсы для представления смысла содержащейся в них информации. Основным преимуществом является быстрота и малая трудоемкость проведения процесса интеграции. Недостатком же является требование принадлежности ресурсов к узкой предметной области и наличия одинакового ее представления. 2. Мультионтологический подход. При применении мультионтологического подхода каждый информационный ресурс описывается своей онтологией. Вследствие этого нет необходимости в какой-либо обобщающей онтологии, и каждая новая онтология может разрабатываться независимо от других, что облегчает подключение новых информационных ресурсов. Недостатком мультионтологического подхода является то, что необходимо устанавливать соответствие между различными онтологиями. Обычно это делается путем связывания семантически эквивалентных термов в двух или более онтологиях. Для реализации этой идеи в существующих системах используется, в том или ином виде, специализированный формализм (эвристики взаимозависимостей концептов) установления соответствия [6−9]. На практике реализация связи онтологий представляет собой очень сложную 3 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) задачу, поскольку онтологии, в общем случае, разнородны – используют различные домены для представления знаний, различную глубину детализации концептов, и т.п. 3. Гибридный подход. Гибридный подход призван нивелировать недостатки моно- и мультионтологических подходов к интеграции разнородных ресурсов. В этом случае, также как при мультионтологическом подходе, каждый ресурс описан в своей собственной частной онтологии. Однако все эти онтологии строятся в общей терминологической базе (словаре), которая представляет собой набор примитивных концептов, из которых, при помощи набора специальных операций, формируются описания концептов частных онтологий. Описание концептов в общих терминах дает возможность сравнивать их (оценивать семантическую близость). Достоинством гибридного подхода является то, что при этом достаточно легко можно добавлять в систему новые информационные ресурсы, без необходимости доработки общего словаря, как в случае моноонтологического подхода, или модификации системы соответствий между онтологиями, как в случае использования различных онтологий для описания каждого ресурса. Недостатком гибридного подхода является то, что при этом нельзя использовать уже существующие онтологии – все локальные описания семантики должны быть привязаны к глобальному словарю. Использование онтологий предметных областей для совместного использования и аннотирования информации обеспечивает решение следующих задач: 1) использование людьми и программами общего понимания структуры информации; 2) повторное использование знаний предметной области; 3) отделение знаний предметной области от оперативных знаний; 4) анализ знаний предметной области. В контексте проблемы интеграции информационных ресурсов наиболее важны первые две задачи. Так, решение первой из них позволяет соединить разные источники информации в единое информационное пространство знаний, с которым могут работать программные агенты [11]. Рассмотрим более подробно задачу повторного применения ресурсов знаний. Подходы для решения проблемы повторного использования онтологий. На данный момент уже существуют детальные онтологии некоторых областей знаний и, следовательно, встает вопрос их повторного совместного использования, но при этом могут возникнуть трудности с различным значением терминов. Для их преодоления необходимо выполнить картирование терминов одной онтологии в другую. Эта проблема хорошо известна в инженерии знаний. Пока не найдено способов выполнять автоматическое картирование, машина может лишь предлагать определенные соответствия и проверять валидность соответствий, заданных человеком-оператором. Необходимо также отметить, что существование семантических несоответствий и использование картирования для их устранения предполагает определенную потерю информации, что может являться серьезной проблемой в определенных сферах деятельности, например, в электронной коммерции, где неточность информации недопустима. Среди различных подходов для решения проблемы повторного использования онтологий выделяются [6-8]: 1. Определение отображения. Объединение онтологий осуществляется отображением их объектов с помощью специального промежуточного программного агента. Причем трансляция может производиться в широких пределах, начиная от простых классов и значений свойств до картирования сложных выражений. Этот подход обеспечивает высокую гибкость, но не может гарантировать сохране4 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) ния семантики, так как разработчик может определять любые правила транслирования, даже если это приводит к определенным конфликтам. 2. Лексическое связывание. Данный метод предполагает создание общей описательной логической модели, основанной на лингвистических отношениях между онтологиями. Как правило, в системах, использующих этот метод, отношениями являются: синоним (synonym), гиперним (hyponym), перекрытие (overlap), покрытие (covering) и несвязность (disjoint). В то время как эти отношения подобны конструктам в дескриптивной логике и позволяют формально осуществить отображение терминов, но используя их далеко не всегда в достаточной степени можно отразить семантику. Данный алгоритм получается в большей мере эвристическим, чем формальным. 3. Использование общего основания. Самым простой способ не выйти за пределы необходимого формализма – это использовать общую онтологию, чьи концепты будут наследоваться связываемыми онтологиями. Это позволит решить возникающие семантические конфликты. Минусом может являться тот факт, что возможность установить прямое соответствие между классами реализуется только через суперкласс общей онтологии. 4. Семантические соответствия. Данный подход призван нивелировать проблему отсутствия прямого соответствия. Он заключается в переклассификации концептов одной семантической структуры в другую. Задача переклассификации состоит в определении отношений связности между рассматриваемым концептом одной онтологии и набором классов другой. Данный подход также предполагает создание общего словаря в терминах и свойствах для определения различных концептов, и отнесении их впоследствии к соответствующим онтологическим классам. Его создание осуществляется экспертом, знакомым с проблемами и задачами определенной области знаний, но не имеющего отношения к конкретному информационному ресурсу. Основной проблемой данного метода является невозможность, в случае семантически слабо связанных онтологий, создания достаточно полного общего словаря, в результате чего пропадает возможность переклассифицировать некоторые концепты с сохранением их точной семантики. Немаловажным также является вопрос связывания онтологий и информационных ресурсов. Данная задача может быть решена следующими способами. Копирование структуры. Наиболее быстрый подход, заключающийся в создании копии структуры информационного ресурса и в последующем перекодировании ее на универсальном языке, позволяющем проводить автоматизированную обработку метаданных. Впоследствии переработанная таким образом модель может быть легко преобразована в оригинальный формат ресурса. Определение термов. В некоторых случаях, для того чтобы более ясно выразить смысл термов информационного ресурса, онтология может использоваться для предоставления их описаний, которые представляют собой набор правил, определяющих тот или иной терм. Данные описания не описывают структуру ресурса, а только связывают информацию с помощью термов, определяемых ими. Обогащение структуры. Это наиболее распространенный метод для связи онтологий и информационных ресурсов. Он является комбинацией ранее упомянутых методов и включает построение копии модели, содержащей в себе дополнительные определения концептов. Использование метаописаний. Новый подход, предполагающий включение метаописаний, выражающих семантику, в контент информационного ресурса. 5 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) Метаонтология – унифицированная онтологическая модель. Метаонтология рассматривается как унифицированная онтологическая модель – формализованный набор понятий и отношений, конкретизируемый в метаданных образовательных информационных ресурсов [1]. В соответствии с методическими принципами описания информационных ресурсов, онтологии предметных областей и онтологические описания программных информационных объектов используются для хранения данных и знаний в репозитарии, а также для их интеграции в программные комплексы ИТ-инфраструктуры информационнообразовательных сред. Определение метаданных – задача семантического анализа описания ЭОР и заключается в определении смысловых характеристик декларативного описания ЭОР. Метауровневая спецификация является разновидностью сетевой модели представления знаний о предметной области и разрабатывается на основе [1, 4]: универсального языка (возможности представления разнородных знаний независимо от предметной области); унифицированности языковых конструкций, обеспечивающих возможность разным информационным системам обмениваться знаниями; наличия эффективных алгоритмов семантического анализа, классификации и структурированности знаний. Метаонтология позволяет представить структуру информационных профилей пространств знаний в обобщенном унифицированном виде при организации семантического поиска и интеграции объектов знаний. Наиболее известной системой метаданных для ЭОР достаточно общего вида является система Дублинского ядра DC (Dublin Core) [12]. В набор метаданных DC входят слоты (параметры, атрибуты): Title (Заголовок) – название, присвоенное ресурсу создателем или издателем; Creator (Автор) – человек или организация, создавшие ресурс; Subject (Предмет) – тема ресурса; Description (Описание) – текстовое описание содержания ресурса, например, монография; Date (Дата) – дата создания ресурса; Type (Тип) – категория ресурса (например, учебник, статья, научный отчет); Identifier (Идентификатор) – уникальный идентификатор ресурса и некоторые другие (всего 15 слотов). Другим примером набора метаданных может служить система описания образовательных ресурсов, предложенная в спецификации Learning Resource Metadata Specification [12]. В набор входят слоты: автор, название, предметная область, аннотация, владелец ресурса, ключевые слова и др. Общей целью практически всех проектов в данной области является разработка новых подходов к построению пространств знаний в контекстно-зависимых системах и средств работы с ними, которые бы обеспечивали: использование семантики при управлении процедурами выполнения запросов в пространстве разнородных знаний; возможность формирования ЭОР, содержащих компоненты, формально представляющие семантику и обладающие простым синтаксисом для интерпретации программными поисковыми агентами; гомогенный доступ к информации, физически распределенной и гетерогенно представленной в информационно-образовательных средах и Internet; 6 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) 1. 2. 3. 4. возможность получения информации, которая явно не присутствует в объектах знаний (релевантных запросу), но может быть выведена из поисковых образов, зафиксированных в онтологиях. Уже сейчас создан ряд важнейших технологий для реализации этой цели [1, 5]. Язык XML (Extensible Markup Language), расширенный язык разметки, позволяющий добавлять метаинформацию к определенному информационному ресурсу. Язык RDF (Resource Definition Framework), предоставляющий удобную среду формализации метаданных и сведений о контексте. RDF создан консорциумом W3C и предназначен для описания метаданных, является подмножеством языка XML и имеет собственный язык RDF Schema для описания структуры документов. RDF – это самый низкоуровневый из существующих языков описания метаданных. Язык онтологий OWL (Web Ontology Language) общий набор терминов, которые используются для описания и представления объектов в Интернет, поддерживается популярными редакторами онтологий, такими как Altova's SemanticWorks, Protege. SPARQL – язык запросов к RDF репозиториям и, одновременно, протокол передачи информации RDF (SPARQL Query Language for RDF). Все эти технологии служат для решения следующих задач: определение таксономии объектов и связей между ними; преставления информационного ресурса в виде совокупности экземпляров объектов, их свойств и конкретных значений этих свойств; выполнение запросов к представлениям информационных ресурсов и конструирование новых ресурсов на основе результатов запросов. Заключение. На основе онтологических аннотаций может обеспечиваться семантически ориентированный доступ к информации из различных источников, к которым относятся ресурсы глобальной сети, научно-технические базы знаний, обучающие системы, а также управленческие, производственные и коммерческие информационные ресурсы и системы. Во всех этих сферах существует проблема возрастающей сложности ориентации пользователей в постоянно увеличивающемся объеме документов, заполняющих информационные хранилища в глобальных и корпоративных сетях. Таким образом, рассмотренные подходы к интеграции с использованием онтологий в целом решают проблему информационной интеграции и лишены многих недостатков, присущих техническим методам, и предоставляют возможность разработки приложений, работающих с информацией на семантическом уровне. Рост числа проблем, для решения которых отсутствуют приемлемые формальные методы, обусловливает актуальность развития методов искусственного интеллекта. В ближайшее время следует ожидать появления новых интеллектуальных технологий и систем поддержки научной и образовательной деятельности, эффективность которых обусловлена применением онтологий в задачах управления и интеграции знаниями. 1. БИБЛИОГРАФИЧЕСКИЙ СПИСОК Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии / Учебное пособие. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. – 304 с. 7 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) Бова В.В Моделирование области знаний в системах поддержки принятия решений для непрерывного профессионального обучения // Известия ЮФУ. Технические науки. – 2009. – № 7. – С.103-108. 3. Курейчик В.M. Особенности построения систем поддержки принятия решений // Известия ЮФУ. Технические науки. – 2012. – № 7. – С. 92-98. 4. Бова В.В. Модели предметных знаний на основе системно-когнитивного анализа // Известия ЮФУ. Технические науки. – 2010. – № 7. – С. 146-153. 5. Курейчик В.В., Бова В.В., Нужнов Е.В., Родзин С.И. Интегрированная инструментальная среда поддержки инновационных образовательных процессов // Открытое образование. – 2010. – № 4. – С. 101-111. 6. Норенков И.П., Соколов Н.К., Уваров М.Ю. Адаптивные среды создания образовательных ресурсов // Наука и образование. 2009. – № 3. 7. SCORM. Shareable Content Object Reference Model. 2d Edition. - Advanced Distributed Learning, 2004 8. Кравченко Ю.А. Синтез разнородных знаний на основе онтологий // Известия ЮФУ. Технические науки. − 2012. – № 11.– С. 216-221. 9. Родзина Л.С., Родзин С.И. Контекстно-зависимые мобильные обучающие системы // Известия Южного федерального университета. Технические науки. − 2013. – № 7 (144). – С. 247-253. 10. Кравченко Ю.А., Марков В.В. Онтологический подход формирования информационных ресурсов на основе разнородных источников знаний // Известия ЮФУ. Технические науки. – 2013. – № 7 (144). – С. 116-120. 11. .Кравченко Ю.А. Метод создания математических моделей принятия решений в многоагентных подсистемах // Известия ЮФУ. Технические науки. – 2011. – № 7. − С. 141-145. 12. IEEE 1484.12.1-2002. Learning Object Metadata standard. – New York: IEEE, 2002. 2. Статью рекомендовал к опубликованию д.т.н., профессор Ю.А. Гатчин. Бова Виктория Викторовна Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Южный федеральный университет». Факультет «Автоматики и вычислительной техники». E-mail: [email protected] 347928, г. Таганрог, Некрасовский, 44. Тел.:8(8634) 37-16-51. Кафедра систем автоматизированного проектирования; старший преподаватель Лещанов Дмитрий Валерьевич Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Южный федеральный университет». Факультет «Автоматики и вычислительной техники». E-mail: [email protected] 347928, г. Таганрог, Некрасовский, 44. Тел.:8(8634) 37-16-51. Кафедра систем автоматизированного проектирования; студент. Bova Victoria Victorovna Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”. The College of Automation and Computer Engineering E-mail: [email protected] 44, Nekrasovskiy, Taganrog, 347928, Russia. 8 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) Phone: 8(8634) 37-16-51. The Department of Computer Aided Design; Senior Teacher. Leshchanov Dmitry Valerevich Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”. The College of Automation and Computer Engineering E-mail: [email protected] 44, Nekrasovskiy, Taganrog, 347928, Russia. Phone: 8(8634) 37-16-51. The Department of Computer Aided Design; student. 9