Семантический поиск и интеграция веб

реклама
УДК 004.896 (06) Интеллектуальные системы и технологии
А.А. ХОБОТОВ, В.В. КЛИМОВ
Научный руководитель – Б.А. ЩУКИН, д.т.н., профессор
Национальный исследовательский ядерный университет «МИФИ»
СЕМАНТИЧЕСКИЙ ПОИСК И ИНТЕГРАЦИЯ
ВЕБ-СЕРВИСОВ НА ОСНОВАНИИ ИХ OWL-S ОПИСАНИЙ
В докладе проводится обзор технологии семантических веб-сервисов и описывается система
семантического поиска и автоматической интеграции веб-сервисов на базе этой технологии.
В последнее время все большую популярность набирает концепция Семантической паутины (англ.
Semantic Web), которая должна стать следующим шагом в развитии Всемирной паутины [1]. Эта концепция
была принята и продвигается Консорциумом Всемирной паутины (англ. World Wide Web Consortium, W3C).
Одной из ее главных целей является реализация возможности машинной обработки информации,
доступной во Всемирной паутине. Для этого предполагается повсеместное использование
унифицированных идентификаторов ресурсов (URI), а также онтологий и языков описания метаданных.
Также в последнее время все большее значение придается программированию не целостных систем, а
систем, состоящих из большого числа разнородных частей. Наиболее важным направлением построения
таких систем можно считать подход сервис-ориентированной архитектуры (SOA) [2].
Если пользователю помимо описания интерфейса веб-сервиса (обычно на языке WSDL)
предоставляются еще и описание его семантики, т.е. того, что сервис делает, его предметной области,
назначения и т.п., то такой сервис называют семантическим.
Консорциум W3С предполагает использование для описания веб-сервисов тех же языков разметки, что и
для статической части семантической паутины (RDF, RDF Schema, OWL), а также онтологии OWL-S,
описывающей базовую терминологию предметной области.
OWL-S состоит из четырех онтологий: базовой онтологии, онтологии сервиса, онтологии модели
сервиса, онтологии процесса. Таким образом, OWL-S содержит в себе все необходимые данные для поиска
семантических веб-сервисов на основании описания его характеристик (входов, выходов, предусловий и
эффектов) на естественном языке. Также OWL-S предоставляет возможность описания композитных вебсервисов, то есть сервисов, составленных из нескольких более простых.
Задачей данного проекта являлось создание семантического поиска веб-сервисов на основании их OWLS описаний. Основным отличием семантического поиска от традиционного является возможность
определения смысла поискового запроса, его семантики. Это достигается за счет использования онтологий
верхнего уровня, таких как WordNet, OpenCyc, DOLCE и др., а не синтаксического разбора запроса,
статистического анализа и анализа частотных характеристик документов, как это происходит при
традиционном поиске. Это дает возможность определения смысла и роли каждого из употребляемых в
поисковом запросе понятия. Как следствие, поисковая машина также может использовать для поиска
синонимичные понятия, гиперонимы и гипонимы исходного понятия, употребляя их в правильном
смысловом значении.
Получив от пользователя описание желаемого сервиса в виде его входов, выходов, предусловий и
эффектов, система анализирует запрос и понятия в нем. На первом этапе ищутся описания сервисов, точно
совпадающие с поисковым запросом (с точностью до перестановки отдельных входов, выходов,
предусловий и эффектов). Найденным описаниям присваивается максимальная релевантность. Если же
подобный поиск не дает результатов, то он продолжается с использованием онтологий верхнего уровня.
Определяются синонимы, гипонимы, гиперонимы выявленных понятий и процессов, также определяется
степень их удаленности от исходного понятия в семантической сети. Анализируются смысловые значения
понятий и определяются их роли (объект действия, субъект действия, место действия и т.д.), выявляются
наиболее подходящие по смыслу синонимы. Далее поиск проводится уже с использованием выбранных
ранее синонимов, гиперонимов и гипонимов. На этой стадии будут найдены OWL-S описания сервисов, в
которых используются синонимичные понятия, а также описания с недостатком или избытком входов,
выходов, предусловий и эффектов. Затем все найденные описания сервисов анализируются на соответствие
поисковому запросу. Им присваивается степень их релевантности (число от 0 до 1). Результаты поиска
предоставляются в виде описаний сервисов, упорядоченных по убыванию их релевантности. Также система
предоставляет возможность найти возможные интеграции уже имеющихся сервисов в новый составной
сервис.
Таким образом, данный проект реализует две новые идеи.
Во-первых, это принципиально новый подход к поиску ресурсов в сети — семантический. Его
возможности не ограничиваются только поиском по OWL-S описаниям сервисов. Подобный вид поиска
может с успехом применяться и для поиска любых ресурсов, которые имеют описания на естественном
языке. Это могут быть страницы в сети Интернет, изображения, новости и пр. Поскольку данный подход
основан на выявлении смысла поисковых запросов, их семантики, то он позволит получить более
релевантные по сравнению с традиционным поиском результаты. Это приведет к повышению
_______________________________________________________________________
ISBN 978-5-7262-1229-6. XIII конференция «Молодежь и наука»
1
УДК 004.896 (06) Интеллектуальные системы и технологии
эффективности работы не только поисковой машины, но и таких инструментов как таргетированная и
контекстная реклама.
Во-вторых, это идея поиска веб-сервисов и их интеграции. Благодаря этому можно будет легко
отыскивать наиболее подходящий для решения текущей бизнес-задачи веб-сервис. Если потребуется, то
несколько простых веб-сервисов можно будет скомбинировать, получая в результате почти готовую
сложную систему.
Каждая компания сможет предоставлять веб-сервисы, которые решают те или иные задачи. При этом
взаимодействие между сервисами различных организаций идет по общим, известным всем стандартам
интерфейсов, а вся логика реализации будет скрываться каждой фирмой как комерческая тайна. Это
позволит любому пользователю использовать компоненты различных производителей в собственной
системе в зависимости от их стоимости, доступности или надежности. А компании получат удобный
инструмент представления своих решений потенциальным покупателям.
Таким образом, система семантического поиска и интеграции веб-сервисов на основании их OWL-S
описаний является реализацией концепции семантической паутины и удобным инструментом поддержки
построения сервис-ориентированных систем. Дальнейшее развитие идеи семантического поиска позволит
расширить область его применения за пределы только описаний веб-сервисов, где его возможности будут
полностью раскрыты.
Список литературы
1. James Hendler, Ora Lassila, Sir Timothy John Berners-Lee. The Semantic Web. — Scientific American Magazine, Май 2001
2. F. Curbera , S. Weerawarana. Web Services Platform Architecture. Prentice Hall PTR, 2005
3. Sir Timothy John Berners-Lee. Spinning The Semantic Web. — MIT Press, 2003. — 366 с.
4. Lee Lacy. Owl: representing information using the web ontology language. Trafford, 2005.
5. Barry Norton. Experiences with OWL-S, Directions for Service Composition: The Cashew Position —
Knowledge Media Institute, Open University, 2005 — 5 с.
_______________________________________________________________________
ISBN 978-5-7262-1229-6. XIII конференция «Молодежь и наука»
2
Скачать