А.В. САХАЦКИЙ, А.С. БОХУЛЕНКОВ Научный руководитель – П.А. ШАПКИН

реклама
А.В. САХАЦКИЙ, А.С. БОХУЛЕНКОВ
Научный руководитель – П.А. ШАПКИН
Национальный исследовательский ядерный университет «МИФИ»
ОПТИМИЗАЦИЯ ПОИСКА И ОБРАБОТКИ СВЯЗАННЫХ
ДАННЫХ
На основе серверного приложения для работы с RDF данными рассмотрена
возможность автоматизированного эффективного динамичного поиска и редактирования связанных данных.
Семантическая паутина — это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров[1]. В семантической паутине для
описания данных используется стандарт RDF, посредством которого
описываются тройки данных вида Subject — Predicate — Object. Такие
данные называются связанными(linked) данными [2]. С помощью RDF
можно описать как документы, отдельные фрагменты знаний внутри документа, так и объекты реального мира, например конкретного живого
человека. Главными преимуществами использования связанных данных
является возможность вывода новых фактов, осуществление семантического (смыслового) поиска, гибкость модели данных и невероятная лёгкость обмена данных между системами. Широкое распространение имеет
проект FOAF (Friend of a Friend), суть которого заключается в создании
домашних страниц и социальных сетей, данные в которых записаны в RDF
[3]. На начало 2010 года количество информации записанное в виде связанных данных составило 26 950 млн. троек и продолжает расти.
Для эффективного поиска актуальной нужной информации предлагается использовать ряд алгоритмов для индексирования rdf-файлов и
ранжировки полученных индексов. Для индексации файлов предлагается
использовать в качеcтве ссылок на другие документы предикат rdfs:seealso,
описанный в спецификации RDF. Использование URI (Uniform Resource
Identifier) [4] в качестве одной из основных технологий, на которых строится RDF, позволяет повысить точность поиска, так как для каждого ресурса URI уникален. Таким образом гарантируется невозможность получения информации семантически не имеющей отношения к искомой. Так
же альтернативой индексации rdf-документов является возможность создания запросов к уже имеющимся базам связанных данных, с последу-
ющим использованием алгоритмов ранжировки к полученным в результате
запроса данным.
Схема работы поискового сервера.
Рассмотрена возможность использования серверного приложения,
написанного на Javascript при помощи фреймворка Node.js. Такой подход
обеспечивает высокую производительность и позволяет избежать многих
ограничений, наложенных браузерами на выполнение скриптов и раскрыть
весь потенциал языка Javascript. Асинхронная модель работы Node.js
осуществляет максимально эффективное использование ресурсов сервера,
позволяет ему лучше выдерживать нагрузки и динамически загружать
новые библиотеки RDF документов.
Таким образом может быть реализовано мощное серверное приложение
на основе технологий семантического веба, для эффективного поиска и
отображения связанных данных, способных обрабатываться как машинно,
так и человеком.
Список литературы
1.
Бернерс-Ли Т. Дж., Scientific American, №5.2001.
2.
Консорциум Всемирной паутины. 2004. Рекомендация W3C, информативное введение в RDF. http://www.w3.org/TR/rdf-primer/
3.
Консорциум Всемирной паутины. 2010. Спецификация W3C, словарь проекта
FOAF. http://xmlns.com/foaf/spec/
4.
Консорциум Всемирной паутины. 2010. Спецификация W3C, Web naming and
adressing. http://www.w3.org/
Скачать