ПРИМЕНЕНИЕ ОНТОЛОГИЙ ДЛЯ ДЛЯ СОЗДАНИЯ СЕМАНИТЧЕСКИХ МЕТООПИСАНИЙ ИНФОРМАЦИОННЫХ РЕСУРСОВ ВУЗА Балова Т.Г, . Жомарткызы Г. Восточно-Казахстанский государственный технический университет им. Д. Серикбаев, Усть-Каменогорск, Казахстан, [email protected], [email protected] Введение. Сегодня пользователи получают доступ к огромному количеству информационных ресурсов, значительная часть которых представлена на естественном языке (ЕЯ). Поскольку большая часть информации содержится в текстовом виде, технологии интеллектуальной обработки текстов помогают решать многие задачи на основе извлечения знаний из текстовых коллекций, их структурирования и анализа. Решение проблемы связано с переходом от хранения и обработки данных к накоплению и обработке знаний. Одним из таких подходов является семантическое аннотирование текстовых документов, которое заключается в создании мета описания документа на основе существующего корпуса текстов и онтологии, отображающей структуру предметной области (ПО). Semantic Web, базируется на использование метаданных для описания семантики информационных ресурсов (ИР) и средств обработки этих метаописаний. В приложениях автоматического анализа текста онтологий ПО используются для таких задач, как автоматическая классификация, реферирование, семантическое аннотирование [1]. В данной работе предлагается обобщенная схема семантического аннотирования текстовых документов. Семантическое аннотирование текстов. Существует набор стандартных решений, которые разработаны для описания метаданных и формирования семантических аннотаций, как например, стандарт Dublin Core. Однако набор заданных тегов для описания текстовых документов не отображает информацию, которая может является актуальной для текущей онтологии предметной области (ПО), а несет лишь общие сведения [2]. Поэтому актуальной задачей в системах управления знаниями является разработка моделей и методов семантического аннотирования текстовых документов. Семантическая аннотация – аннотация, которая написана на формальном языке с хорошо определенной семантикой, и базирующаяся на онтологии. При формировании семантической разметки нужно использовать не только знания ПО, но и правила того конкретного естественного языка, на котором написан текст. Создание такой разметки является нетривиальной и довольно трудоемкой задачей. Семантическая разметка зависит и от того, какие именно средства используются для описания ПО. Для семантической разметки ЕЯ-текстов необходимо разработать алгоритм, который обеспечит выделение фрагментов ЕЯ-текста, связанных с определенными понятиями выбранной пользователем ПО. Для этого предлагается анализировать ЕЯ-тексты определенной ПО с учетом как морфологических и синтаксических свойств естественного языка, так и структуры ПрО и знаний пользователя об этой ПО. Следует разработать средства и методы, позволяющие с помощью семантической разметки осуществлять поиск информации, релевантной персональным информационным потребностям конкретного пользователя. Для обработки семантической разметки различными модулями информационной системы, целесообразно использовать технологии и стандарты, разработанные в рамках проекта Semantic Web Лингвистический анализ текста. Лингвистически методы позволяют выделить в тексте слова, связанные с понятиями (классами) ПО, и слова, являющиеся именами, т. е. связанные с экземплярами понятий (классов) онтологии [3]. Обычно лингвистический анализ включает этапы морфологического, синтаксического и семантического анализа [3]. Для выделения лексем в ЕЯ-тексте применяют морфологический анализ. Лексема с грамматической точки зрения определяется как система словоформ, основы которых тождественны по значению, а одноименные морфы основ, также тождественные по значению. В одну лексему объединяются разные словоформы одного слова. Синтаксический анализ заключает в распознавании синтаксической структуры предложений на основе морфологической информации и синтаксических правил объединений слов и словосочетаний данного языка. Синтаксическая структура – это связь между словами предложения. Для единообразного описания синтаксических правил языка используются формальные грамматики. Семантическое метаописание документа. Семантический анализ направлен на распознавание смысла текста. Способы описания семантики текста и предложения, также алгоритмы построения такого описания определяются целями анализа. Назначение семантического анализа – извлечь из ЕЯ-текста содержащиеся в нем знания, и предоставить в форме, пригодной для автоматизации их обработки [3-4]. Онтология – это явная спецификация концептуализации на уровне знаний. Онтология обязательно включает словарь понятий ПО и указания о связях между ними, что задает структуру ПО и ограничивает возможные интерпретации терминов. Представим формальную модель онтологии следующим образом: O = < 𝑃, 𝑅, 𝐹 > где, 𝑃 – множество понятий ПО, 𝑅– множество связей между понятиями ПО, 𝐹 – множество аксиом и правил вывода ПО. В задачах понимания смысла ЕЯ-текстов для использования онтологий необходимы алгоритмы отображения синтаксических отношений, присутствующих в ЕЯ-текстах, на отношения, имеющиеся в онтологиях. Для исходного ЕЯ-текста определяются формальные характеристики грамматики в категориях род, число, падеж, так же возможно непосредственное определение семантических отношений из морфологической формы слов [3]. Семантическая разметка ЕЯ-текстов для определенной ПО создается в два этапа: этап накопления лингвистических сведений, этап автоматической семантической разметки. На первом этапе используется алгоритм накопления лингвистических сведений о ПО. На этапе обучения необходимо сформировать следующие множества: P – словоформы, связанные с понятиями онтологии ПО. Эта информация может быль извлечена из различных словарей синонимов, а также явным образом вручную из корпуса текстов; R - словоформы, связанные с отношениями онтологии ПО; I, отношения именования (ОИ), связывающие: поименованные сущности (ПС в онтологии соответствуют экземпляры классов) и классы, классы и подклассы; Iw, словоформы, связанные с ОИ; шаблоны, связывающие ПС и имена их классов. Множество шаблонов может расширяться для учета специфики ПО. Каждый шаблон представляет собой строку символов, состоящую из имени предиката и модели управления. Каждый шаблон включает слово из Iw и морфологическую информацию для связанных с ним слов в соответствии с моделью управления. Синтаксическая структура терминов предметной области в большинстве случаев могут соответствовать следующим шаблонам: одиночные существительные, прилагательные, сокращения; существительное + существительное в родительном падеже; прилагательное + существительное; прилагательное + прилагательное + существительное; существительное + прилагательное + существительное в родительном падеже [6]. В результате обучения системы каждому термину онтологии 𝑂 приписывается несколько словоформ, соответствующих в исходном тексте данному понятию. Словоформы извлекаются из обучающего множества текстов, отнесенных пользователем к определенной ПО. Алгоритм семантической разметки текста. На вход алгоритма автоматической семантической разметки подается: словоформы, связанные с понятиями, отношениями онтологии ПрО (Pw, Rw); словоформы, связанные с ОИ (Iw); шаблоны, связывающие ПС и имена их классов; ЕЯ – тексты, для которых надо создать семантическую разметку. На этапе анализа нового ЕЯ-текста необходимо выделить в тексте: словоформы, связанные с понятиями онтологии ПО; словоформы, связанные с отношениями онтологии ПО; слова, которые могут быть именами ПС. Вначале в текстах обнаруживаются слова и словосочетания, которые могут являться именами ПС. Затем к тексту нужно применить шаблоны, описывающие правила, связывающие имена ПС с именами их классов. Если ПС, имя понятия и имя отношения именования ОИ занимают место в предложении, соответствующие шаблону места (определение синтаксической структуры предложения), то считать ПС относящейся к соответствующему классу. Для записи семантических метаданных используется язык RDF. Язык RDF совместим с языком описания онтологий OWL, так же его синтаксис позволяет делать высказывания относительно триплетов. В результате работы этого алгоритма получаем множество семантически размеченных по правилам языка RDF /XML текстов, пригодных для автоматического анализа. В результате работы этого алгоритма получаем множество семантически размеченных по правилам языка RDF/XML текстов, пригодных для автоматического анализа. Библиографический список: 1. Б.В. Добров, Н.В. Лукашевич, “Автоматизированная обработка научнотехнических текстов с помощью Онтологии по естественным наукам и технологиям” // Труды XIV Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2011), Санкт-Петербург, Россия, октябрь 2011, – С. 53-57. 2. Dublin Core Metadata Initiative http://dublincore.org/ 3. Лесько О. Н., Рогушина Ю. В. Использование онтологий для анализа семантики естественно-языковых текстов. //Проблеми програмування, №3, 2009, – С. 59-66. 4. Н.В. Рябова, О.В. Шубкина, “Обобщенная модель семантического анотирования текстовых документов в системах управления знаниями”// Системи обробки інформації, №9 (90), 2010, -С. 165-168. 5. Vineet R. Khare, Rahul Chougule Decision support for improved service effectiveness using domain aware text mining // Knowledge-Based Systems №33, 2012, - С 29–40. 6. B. Dobrov, N. Loukachevitch, O. Nevzorova. The technology of new domains’ ontologies development // Proceedings of the X-th International Conference “KnowledgeDialogue-So lution” (KDS’2003).- Varna, Bulgaria.-2003.- pp.283-290.