Автореферат - Институт вычислительной математики и

реклама
На правах рукописи
Нгуен Ба Нгок
МОДЕЛИ И МЕТОДЫ ПОИСКА ИНФОРМАЦИОННЫХ РЕСУРСОВ
С ИСПОЛЬЗОВАНИЕМ СЕМАНТИЧЕСКИХ ТЕХНОЛОГИЙ
Специальность 05.13.11 – Математическое и программное обеспечение
вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Томск – 2012
Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Национальный исследовательский Томский политехнический университет».
Научный руководитель:
доктор технических наук, профессор
Тузовский Анатолий Федорович
Официальные оппоненты: Марчук Александр Гурьевич
доктор физико-математических наук, профессор
Федеральное государственное бюджетное учреждение науки Институт систем информатики им. А.П.
Ершова Сибирского отделения РАН, директор
Привезенцев Алексей Иванович
кандидат технических наук
Федеральное государственное бюджетное учреждение науки Институт оптики атмосферы им. В.Е. Зуева СО РАН, научный сотрудник
Ведущая организация:
Федеральное государственное бюджетное образовательное учреждение высшего профессионального
образования «Новосибирский государственный
технический университет»
Защита состоится «27» ноября 2012 года в 15:00 часов на заседании диссертационного совета Д 003.061.02 на базе Федерального государственного бюджетного учреждения науки Института вычислительной математики и математической геофизики Сибирского отделения Российской академии наук по адресу:
630090, г. Новосибирск, пр. академика Лаврентьева, 6, тел. (383)330-71-59.
С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Института вычислительной математики и математической геофизики Сибирского отделения Российской академии
наук.
Автореферат разослан «18» октября 2012 г.
Ученый секретарь
диссертационного совета Д 003.061.02
д.ф.-м.н.
С.Б. Сорокин
2
Актуальность исследования. Огромный объем доступных в компьютерных сетях электронных ресурсов является ценным источником информации.
Однако поиск в таком источнике может быть выполнен только с помощью поисковых систем.
Исследования, связанные с поиском информации, начались еще в середине
прошлого века вскоре после изобретения электронно-вычислительных машин
(ЭВМ). В результате этих исследований были разработаны сотни поисковых
систем, однако большинство из них в основном базируется на общем методе, в
соответствии с которым искомые документы описываются (индексируются)
наборами содержащихся в них терминов (ключевых слов), и для выполнения
поиска пользователи вводят запрос, также состоящий из набора терминов, описывающих их информационные потребности. После обработки такого запроса
поисковая система возвращает документы (или ссылки на них), содержащие
термины, заданные в запросе пользователя.
Классический метод является эффективным в том случае, когда у пользователей имеется информация о содержании требуемых документов. Однако с
использованием классического метода трудно выполнять запросы исследовательского характера, когда пользователи не имеют информации о нужных документах, но могут сформулировать свои информационные потребности. Ограниченность классических систем поиска информации связана с отсутствием
возможности понимания ими базовой концептуализации информационных потребностей пользователей и смысла искомых документов.
В связи с этим для преодоления ограниченности классического метода и
достижения высокого качества поиска требуется выполнять работы с семантикой (смыслом) документов. В этом случае требуется описывать документы на
более высоком концептуальном уровне с использованием понятий из семантических моделей знаний предметной области. Подходы информационного поиска, в которых используется такое представление документов, обычно называются семантическими подходами поиска информации.
Целью диссертационной работы является разработка комплекса моделей,
методов и алгоритмов выполнения поиска информационных ресурсов на основе
использования онтологических моделей знаний и семантических технологий.
Для достижения цели необходимо было решить следующие задачи:
1) Разработать метод описания документов и запросов с использованием
семантических моделей знаний, которые позволяют выполнять работу с
их семантикой;
2) Разработать алгоритмы вычисления семантической близости между метаописаниями документов и запросов;
3) Разработать эффективную систему поиска информационных ресурсов с
возможностью работать с семантикой.
Объектом исследования является процесс поиска пользователями интересующих их информационных ресурсов в компьютерных сетях.
Предметом исследования являются методы и алгоритмы выполнения поиска информационных ресурсов с использованием семантических технологий
для реализации концепции семантического поиска информации.
3
Методы исследования. При выполнении диссертационной работы использовались методы математической логики, семантического моделирования,
системного анализа, а также проведения и обработки экспериментов с использованием экспертных оценок.
Научная новизна диссертационной работы заключается в следующем:
1) Разработана новая модель семантического поиска с использованием
онтологических моделей знаний. В отличие от существующих моделей поиска
информации, в разработанной модели документы и запросы описываются с использованием простых фраз (триплетов), составленных на основе онтологических моделей знаний предметной области (их метаописания).
2) Разработаны новые методы вычисления семантической близости между
метаописаниями, между триплетами и между компонентами триплетов. Выполнено теоретическое обоснование и экспериментальные проверки предложенных методов вычисления семантической близости.
3) Разработан эффективный алгоритм поиска текстовых меток элементов
онтологии в документах, который востребован для реализации метода полуавтоматического создания метаописаний.
4) Разработаны новый метод оптимизации хранения наборов триплетов с
использованием числовых идентификаторов и алгоритм сжатия словарей строк
URI, позволяющие значительно сократить требуемые объемы памяти.
5) Разработана новая архитектура системы семантического поиска на основе метаописаний. Описаны базовые функции системы и структуры данных
необходимых индексов для её работы.
Практическая значимость диссертационной работы заключается в возможности использования разработанных методов, алгоритмов и прототипов
программного обеспечения для выполнения поиска информации в компьютерных сетях. Разработанные алгоритмы вычисления близости также могут быть
применены для решения таких задач, как классификация семантических данных, автоматическое разрешение многозначности терминов и т.п.
Предложенные в диссертационной работе модели, методы и алгоритмы
были внедрены в одной вьетнамской и двух российских компаниях, а также использованы в учебном процессе кафедры оптимизации систем управления Института кибернетики Томского политехнического университета.
Получено два свидетельства Роспатента на программное обеспечение, разработанное в рамках выполнения диссертационной работы: «TST – инструментальное программное обеспечение для организации поиска по семантическим
метаописаниям» [10] и «Triple – редактор семантических метаданных» [11].
На защиту выносятся следующие результаты:
1) Разработанная модель семантического поиска информации, основанная
на метаописаниях, которые формируются с использованием онтологических
моделей знаний.
2) Разработанные методы вычисления близости между метаописаниями,
триплетами и компонентами триплетов.
3) Метод оптимизации хранения наборов триплетов с использованием
числовых идентификаторов и алгоритм сжатия словарей URI-идентификаторов.
4
4) Алгоритм быстрого поиска меток элементов онтологии в документах.
5) Разработанная архитектура системы семантического поиска информационных ресурсов.
Личный вклад автора. Все выносимые на защиту результаты получены
автором лично.
Апробация работы. Основные положения и отдельные результаты исследования докладывались и обсуждались на следующих конференциях:
1) VI Международная научно-практическая конференция «Электронные
средства и системы управления» (Томск, 2010);
2) IV университетская научно-практическая конференция иностранных
студентов, магистрантов и аспирантов, обучающихся в ТПУ, «Коммуникация
иностранных студентов, магистрантов и
аспирантов, в
учебнопрофессиональной и научной сферах» (Томск, 2010);
3) Интеллектуальные информационно-телекоммуникационные системы
для подвижных и труднодоступных объектов (Томск, 2010);
4) IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых с международным участием «Молодежь и современные информационные технологии» (Томск, 2011);
5) VIII Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2011);
6) IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2012).
Публикации. Основные результаты диссертационного исследования изложены в 11 печатных работах, в том числе в 4 статьях из списка рецензируемых журналов, рекомендованных ВАК РФ.
Структура и объем диссертации. Диссертация содержит введение, 5 глав,
заключение, список использованной литературы, содержащей 157 наименования. Общий объем диссертации составляет 198 страниц машинописного текста,
включающих 38 рисунков, 18 таблиц, и 3 приложения.
Основное содержание диссертации
Во введении обосновывается актуальность темы диссертации, определяются цели, задачи, объект и предмет исследования, рассматривается методологическая база исследований, определяется научная новизна работы и личный
вклад автора, формулируются результаты, выносимые на защиту, поясняется
практическая значимость проведенного исследования, описывается апробация
полученных результатов, кратко поясняется структура диссертации.
В первой главе сформулирована постановка решаемой задачи, сделан обзор существующих моделей информационного поиска на основе ключевых слов
и популярных методов для оценки поисковых системах.
Постановка задачи поиска информационных ресурсов:
Заданы множество документов D  {d i | i  1 n}, где n – количество документов коллекции, и описание информационной потребности q.
5
Требуется найти подмножество R множества документов D, которое состоит из релевантных документов для запроса q – результирующее множество.
Кроме текстовых документов также может выполняться поиск мультимедийных ресурсов (изображений, аудиозаписей, видеороликов и т.п.). Однако
для этого требуется создавать текстовые описания, которые включаются во
множество документов D в качестве входных ресурсов.
Описание процесса поиска информации представлено на рис. 1.
формирование
использовать
Запрос
Требование
использовать
Индекс
Сопоставление
представлена
базируется на
как
Информационная
потребность
обработать
Электронные
ресурсы
содержать
Релевантность
Коллекция
Рис. 1. Процесс поиска информации
С одной стороны, у человека-пользователя есть информационная потребность, представляемая некоторым требованием, которое затем преобразуется в
запрос. С другой стороны, в поисковых северах имеются коллекции электронных ресурсов, которые индексированы для цели выполнения поиска. В результате обработки запросов поисковые серверы возвращают множество релевантных документов пользователям.
В настоящее время существует большое количество поисковых систем.
Однако все они имеют общую архитектуру, которая представлена на рис. 2.
2
Информационная
потребность
1
Документы
Формирование
запроса
Индексирование
Запрос
Индекс
документов
3
Сравнение
Системные
сообщения
Релевантные
документы
Рис. 2. Общая архитектура систем информационного поиска
Как показано на рис. 2 любая система информационного поиска выполняет
следующие три базовые функции:
1) Индексирование – сбор электронных ресурсов и создание их логических
представлений, а также хранение этих представлений с использованием индексов (оптимизированных структур данных для быстрого выполнения поиска).
2) Формирование запросов – описания информационных потребностей
пользователя на языке, поддерживаемом поисковой системой.
6
3) Сравнение – вычисления оценок близости (релевантности) между запросами и документами. На основе оценок релевантности определяется множество
результатов, которое затем возвращается пользователям.
Связь между системными сообщениями и подсистемой формирования запроса означает возможность использования результатов поиска пользователями
для уточнения информационных потребностей.
Отмечается, что система информационного поиска обычно реализуется на
основе соответствующей теоретической модели, в которой описываются ее основные особенности: логические представления документов и запросов, а также
алгоритмы вычисления оценки релевантности между ними. В общем случае
модель информационного поиска состоит из следующих 4-х компонентов:
Model = [D, Q, F, R(q, d)],
(1)
где D – множество логических представлений документов (логические представления документов являются их упрощенными моделями в поисковых системах); Q – множество логических представлений информационных потребностей (запросов); F – платформа для моделирования документов, запросов и для
реализации функции вычисления близости между документами и запросами –
функции R(d, q).
Подход к обработке документов на синтаксическом уровне в большинстве
существующих моделей (например, модель булевого поиска, модель векторного пространства, вероятностная модель, модель нечеткого множества, модели
обобщенного векторного пространства) вызывает следующие фундаментальные
проблемы, которые затрудняют работу пользователей при поиске нужной информации: 1) синонимичность терминов; 2) многозначность терминов.
Кроме того, из-за отсутствия семантических отношений между терминами
системы не способны найти документы, которые являются релевантными по
смыслу, но не содержат термины запроса. В связи с этой проблемой снижается
полнота множества результатов.
Решение этих проблем требует выполнять работу с семантикой документов и представлять документы на более высоком концептуальном уровне с использованием понятий из семантических моделей знаний предметных областей.
Во второй главе сделан обзор и классификация существующих подходов
семантического поиска с целью формирования общего представления о данном
направлении информационного поиска.
Отмечается, что важной особенностью подходов семантического поиска
является использование концептуальных представлений документов, которые
создаются на основе семантических моделей знаний предметных областей, а
среди существующих инструментов представления знаний онтология считается
наиболее выразительном. В онтологиях знания предметных областей описываются с помощью иерархий понятий и свойств, а также семантических сетей
связанных экземпляров понятий.
Отмечается, что только использование онтологических моделей знаний
позволит достигнуть значительного улучшения качества поиска по сравнению с
существующими подходами. В связи с этим, несмотря на сложность и трудоемкость создания онтологических моделей, охватывающих области знаний поис7
ковой системы, а также сложность и трудоемкость создания семантических
описаний существующих текстов, считается, что семантический поиск на основе онтологий является наиболее перспективным направлением развития методов информационного поиска.
В третьей главе рассматривается предлагаемая модель семантического
поиска с использованием онтологических моделей знаний. Задана следующая
обобщенная структура онтологии О:
O = <C, E, T, R>,
(2)
где C – множество элементов, называемых понятиями (классами); E – множество экземпляров понятий (классов); R –свойство (предикатов); T – множество
отношений, которые включают: частичный порядок на C и R, задающий отношения «подкласс–суперкласс»; отношение типа «экземпляр–родительское понятие» – instanceOf; семантические отношения между экземплярами.
Онтология является моделью знаний реального мира, в которой каждое
понятие, вещь идентифицируется с помощью уникальной строки (которая известна как URI-идентификатор). Предлагается использовать онтологии в качестве словарей терминов формального языка, в котором терминами являются
URI-идентификаторы, следовательно, решены основные проблемы естественного языка (синонимичность и многозначность).
На основе такого языка и естественного языка предлагается составить фразы формата «субъект–предикат–объект» (триплеты) для описания информационных ресурсов. При этом субъект есть URI-идентификатор понятия или экземпляра понятия; предикат – URI-идентификатор свойства; объект – URIидентификатор понятия или экземпляра, или литеральное значение, а триплеты
обозначаются как <s–p–o> или p(s, o), где s – субъект; p – предикат; o – объект.
На основе таких фраз создаются логические представления документов –
их метаописаний. При этом метаописания m(d) документа d представляют собой набор триплетов с весовыми коэффициентами, выражающими степени значимости триплетов:
m(d )  {( pi ( si , oi ), ki ) | i  1 n} ,
(3)
где n – количество триплетов; ki –весовой коэффициент триплета pi ( si , oi ) .
Аналогично документам, информационные потребности пользователя
также описываются в виде метаописаний (запроса)
q  {( pi ( si , oi ), ki ) | i  1 m} ,
(4)
где m – количество триплетов запроса q.
Метаописания позволяют более точно описать семантики документов (и
информационных потребностей) по сравнению с известными форматами набора слов (BOW – bag of words) и набора понятий (BOC – bag of concepts) за счет
формального представления знаний с помощью онтологий и явного описания
связи между сущностями.
Для вычисления семантической близости между метаописаниями предложен метод, согласно которому близость между наборами триплетов вычисляется путем комбинирования оценок близости между составляющими их триплетами, а близость между триплетами вычисляется путем комбинирования оценок
8
близости между их компонентами. Возможные случаи сравнения компонентов
триплетов представлены в табл. 1.
Таблица 1. Возможные случаи сравнения компонентов триплетов
Компоненты
Понятие
Экземпляр
Предикат
Литерал
Понятие
сем
сем
–
–
Экземпляр
сем
сем
–
–
Предикат
–
–
сем
–
Литерал
–
–
–
несем
В табл. 1 используются следующие обозначения: «сем» – семантическая
оценка близости; «несем» – несемантическая оценка близости; знак «–» означает невыполнимое сравнение. Среди возможных случаев семантической является оценка близости между элементами онтологии. При этом предполагается,
что два элемента онтологии являются семантическими близкими, если они являются связанными (существуют пути между ними), а степени близости между
элементами онтологии определяются на основе путей между ними.
Для вычисления оценки близости элементов онтологии в работе предложена мера GWSP (generalized weighted shorted path), согласно которой пусть
PATH = {P1, P2, …, Pk}
(5)
является множеством всех возможных путей между элементами x и y онтологии
O, тогда близость между ними определяется следующим образом:
Pmax
simGWSP ( x, y )  simGWSP
( x, y ) ,
(6)
где Pmax определяется по следующему условию:
Pmax
P
| simGWSP
( x, y ) | max PPATH (| simGWSP
( x, y ) |) ,
(7)
где
P
simGWSP
( x, y)  (1)inv( P)  spec s ( P)  gen g ( P)  d IC ic( P)  dCI ci( P)  wr oth( P) , (8)
P
( x, y ) – есть близость между x и y на основе пути P, параметры когде simGWSP
торого представлены в табл. 2.
Таблица 2. Характеристики пути между элементами онтологии
Тип ребра
Весовой коэффициент Количество
От общего понятия до более детального понятия
spec
s(P)
От детального понятия до более общего понятия
gen
g(P)
От экземпляра до родительского понятия
dIC
ic(P)
От родительского понятия до экземпляра
dCI
ci(P)
Инверсное отношение (invertOf)
–1
inv(P)
Остальные отношения
wr
oth(P)
В случае если PATH   , то значение близости считается равным нулю:
simGWSP ( x, y )  0 , если PATH   .
(9)
Вычисления близости между триплетами. Предполагается, что близость
двух триплетов пропорциональна абсолютной величине оценки близости предикатов и сумме оценок близости субъектов и объектов.
Отмечается, что если p1 и p2 составляют инверсную пару отношений (p1 invertOf p2), то триплет t 2  s2 , p2 , o2  имеет такое же значение как триплет
t 2*  o2 , p1 , s2  . Поэтому при сравнении субъектов и объектов двух триплетов
имеются два случая:
9
1) Если sim(p1, p2) < 0 (путь между предикатами в онтологии содержит нечетное количество отношений invertOf), то s1 сравнивается с o2, а o1 сравнивается с s2 (перекрестное сравнение),
2) иначе s1 сравнивается с s2, а o1 сравнивается с o2 (прямое сравнение).
В данной работе предлагается следующее определение близости между
триплетами t1  s1 , p1 , o1  и t2  s2 , p2 , o2  (метод «обратное отношение»):
sim sem ( s1 , s2 )  sim sem (o1 , o2 )

|
k
|

, если k  0,

2
(10)
sim sem (t1 , t 2 )  
sim
(
s
,
o
)

sim
(
o
,
s
)
sem
1
2
sem
1
2
| k | 
, если иначе,

2
где k  simsem ( p1 , p2 ) – оценка близости между предикатами.
Оценки семантической близости между документами и запросами вычисляются с использованием их метаописаний, т.е.
sim(q, d) = sim(q, m(d)).
(11)
Для вычисления близости между метаописаниями предложены два метода:
1) метод «суммирования»; и 2) метод «максимального паросочетания». Согласно первому методу, оценка близости между q и m(d) вычисляется по формуле
| q  m( d ) |
q  m( d )
,
(12)
sim sem (q, m(d )) 

max(| m(d i ) |) | q |  | m(d ) |
где |  | – размер множества; max(|m(di)|) – максимальное количество триплетов
метаописаний документов; q  m(d ) – сумма оценок близости триплетов:
(13)
q  m(d )    sim(ti , t j )  ki  k j ,
ti q t j m ( d )
где ki и k j являются весовыми коэффициентами триплетов t i и t j .
По методу «максимальное паросочетание», для вычисления оценки близости между q и m(d) вначале формируется двудольный взвешенный граф
BG = <V, E>,
где множество вершин графа V является объединением левого множества вершин VL  q (множество триплетов запроса) и правого множества вершин VR  m(d ) (множество триплетов метаописаний документа)
V  VL  VR ;
E – множество ребер с весовыми коэффициентами, которые равны значениям
близости между триплетами.
(14)
E  {( vt (i ) , vt ( j ) , eij ) | vt (i ) VL ; vt ( j ) VR } ,
где
(15)
eij  e(vt (i ) , vt ( j ) )  simsem (ti , t j )  ki  k j .
На основе графа BG близость между метаописаниями q и m(d) вычисляется
по следующей формуле:
max PPi ( sumBG ( P))
,
(16)
sim sem (q, m(d )) 
max(| m(d i ) |)
где Pi – множество всех возможных паросочетаний; sumBG(P) – сумма весовых
10
коэффициентов ребер паросочетания P в графе BG:
sumBG ( P) 
e(vl (i ) , vr (i ) ) .

(17)
( vl ( i ) ,vr ( i ) )P
В четвертой главе рассмотрена проблема реализации системы семантического поиска на основе метаописаний. Предложена общая схема системы семантического поиска, которая показана на рис. 3.
Семантическое аннотирование и
создание метаописаний
Документы
Редактор
онтологии
Семантические
контентные
метаданные
Информационная
потребность
Формирование
запроса
Онтология
системы
Семантические
контекстные
метаданные
Индексирование
Индекс метаописаний
– Контекстные метаданные;
– Контентные метаданные.
Запрос
Обработчик
Системные
сообщения
Релевантные
результаты
Рис. 3. Общая схема системы семантического поиска с использованием
метаописаний.
Базовыми компонентами системы являются онтологии предметных областей. Такие онтологии могут быть созданы ручным путем с помощью редакторов онтологий, например Protégé, либо автоматическим путем.
В отличие от классических систем поиска информации (рис. 2), в предлагаемой схеме при индексировании и формировании запросов создаются метаописания на основе онтологий предметных областей, а обработка запросов выполняется на основе оценок семантической близости между метаописаниями.
Для повышения эффективности создания семантических метаописаний
документов в диссертационной работе предложен полуавтоматический метод,
согласно которому при создании метаописаний документов система автоматически выделяет элементы онтологии, а человек с помощью редактора выбирает
необходимые данные для составления метаописаний. Предложенный метод автоматического выделения элементов онтологии выполняется двумя этапами:
1) поиск меток элементов онтологии в тексте; 2) разрешение многозначности.
Проблема поиска меток элементов онтологии в тексте сформулирована
следующим образом:
Заданы текстовый документ Д и набор меток элементов онтологии Dic, состоящий из m текстовых меток:
Dic = {метка1, метка2, …, меткаm}.
11
При этом документ Д и каждая метка может быть представлена в виде последовательности лемм (лемма – это основная форма слова).
Д = лемма1  лемма2 … леммаn и меткаi = лемма1 …леммаk(i),
где n – количество лемм документа Д; k(i) – количество лемм меткиi.
Каждая j-я лемма документа Д и j-я лемма i-й метки обозначаются соответственно как Д(j) и меткаi(j).
Требуется найти все пары индексов (i, j), для которых строковое значение
строка(i, j, Д) = Д(i)  Д(i + 1) … Д(j)
(18)
является элементом множества меток Dic и j является максимальным значением
среди возможных для фиксированного индекса i.
Блок-схема предложенного алгоритма решения поставленной задачи показана на рис. 4. Функция search(Д, i) либо возвращает максимальное значение
индекса j  i , если существуют метки на i-й позиции документа Д, либо –1, если не существуют метки на i-й позиции документа Д.
Начало
j=search(Д, i);
i = 1; j = i;
нет
j≥i
да
i ≤ |Д|
да
i = i + 1;
нет
вывод(i, j);
i = j + 1;
Конец
Рис. 4. Блок-схема алгоритма поиска меток элементов онтологии в тексте
Для оптимизации выполнения функции search(Д, i) при проверке принадлежности метки набору меток предполагается сохранить наборы текстовых меток с использованием структуры данных, представленной на рис. 5.
Леммы
1
2
1
3
0
4
1
Уровни иерархии
2
3
5
2
1
2
4
root
2
1
Метки
3
3
3
4
4
5
4
5
Леммы
Множество следующих лемм
Повторения
i
5
Индикатор конец i-й метки
Рис. 5. Структура данных наборов меток
На основе предложенной структуры данных имеется следующее пошаговое описание алгоритма функции search(Д, i):
Шаг 1. Начало алгоритма, j = i; jmax = –1; pointer = root;
Шаг 2. pointer = pointer.next(Д(j)) – переход на следующий узел, содержащий лемму Д(j).
Если существует узел p ∈ pointer.next, содержащий уникальный идентификатор, то:
обновить значение jmax = j; j = j + 1; повторить шаг 2;
иначе если pointer != null, то:
j = j + 1; повторить шаг 2;
иначе на шаг 3.
Шаг 3: вывод jmax; конец алгоритма.
12
Следующим шагом после поиска меток является разрешение многозначности, т. е. определение подходящего элемента онтологии для каждой метки. Для
этой цели в работе рассмотрены два существующих методов разрешения многозначности: 1) разрешение многозначности на основе оценок семантической
близости; 2) разрешение многозначности на основе степени популярности.
Для обеспечения функционирования предложенной системы семантического поиска требуется создание индексов, показанных на рис. 6.
Обработка
запросов
Запрос
1
3
Обратный индекс (IT)
Списки
метаописаний
Предварительные
вычисления близости
Создание обратного индекса
метаописания
документов
оптимизация
Редактирование
метаописаний
Выделение
элементов онтологии
ИД
2
Информационная
потребность
Запрос
оптимизация
Формирование
запроса
Редактирование триплетов
1
3
UID
UID-UID
Матрицы (SM)
Статические
оценки близости
Документы
4
Релевантные
результаты
Декодирование
Ранжирование
1
2
URI
Словарь URI (UD)
С∪R∪E
4
ИД-ИД
Граф (OG)
Онтология
оптимизация
Protégé
Редактирование
онтологии
SPARQL
Virtuoso (VT)
Онтология
XML
Онтология
метки
Lucene (LC)
С∪R∪E
Индексирование
Рис. 6. Структура индексов предложенной системы семантического поиска
Как показано на рис. 6, при индексировании онтологий создаются индексы
UD, OG, VT и LC, а при индексировании метаописаний электронных ресурсов
создаются индексы SM и IT. Индексы VT и LC используются в основном функциями формирования триплетов для выборов элементов онтологии, а индекс
OG используется для нахождения путей между элементами онтологии, на основе которых вычисляются их близости.
В индексе SM сохраняются оценки близости между элементами онтологии
для цели исключения их повторных вычислений, а в индексе IT сохраняются
инвертированные списки метаописаний для выполнения их фильтрации при
обработке запросов.
13
На основе индекса UD разработан метод оптимизации хранения коллекции
триплетов с использованием числовых идентификаторов, предназначенный
для сокращения требуемых объемов памяти при хранении наборов триплетов.
Основная идея предложенного метода заключается в замене каждого URIидентификатора на уникальный числовой идентификатор, который затем может
быть преобразован обратно в строку URI. Сопоставления между URIидентификаторами и числовыми идентификаторами сохраняются в словаре
URI-идентификаторов, структура которого показана на рис. 7.
Словарь URI-идентификаторов без сжатия
после сжатия
i
строки URI в явном виде
1 http://dbpedia.org/resource/Alexei_Gusarov
2 http://dbpedia.org/resource/James_R._Russell
3 http://dbpedia.org/resource/Martina_Hellmann
d[i]
0
28
28
p[i]
1
1
1
ид
строки URI после сжатия
1 http://dbpedia.org/resource/ Alexei_Gusarov
2 James_R._Russell
3 Martina_Hellmann
Рис. 7. Структура словаря URI с использованием метода сжатия
С целью сокращения требуемого объема оперативной памяти для хранения
словаря URI-идентификаторов разработан специальный метод сжатия без потери для набора строк URI и соответствующий метод декодирования. Как показано на рис. 7, с использованием разработанного метода сжатия потребуется
меньше памяти для сохранения строки URI за счет удаления их общих фрагментов (например, если все строки URI начинаются с http://..., data://… и т.п.).
В пятой главе описаны результаты тестирования предложенных алгоритмов оптимизации хранения коллекции триплетов, сжатия словаря строк URI и
вычисления семантической близости.
Полученными результатами указанных экспериментов подтверждают следующие выводы: 1) Предложенный метод сжатия без потери позволяет уменьшить требуемые объемы памяти для хранения словарей URI-идентификаторов и
декодировать строки URI-идентификаторов с высокой скоростью; 2) Использование числовых идентификаторов для представления триплетов позволяет одновременно значительно сократить требуемые объемы памяти для хранения
наборов триплетов и повысить скорости поиска триплетов в коллекциях;
3) Предложенные алгоритмы вычисления семантической близости между компонентами триплетов, между триплетами и между метаописаниями обеспечивают эффективность, достаточную для их использования в системах семантического поиска на основе метаописаний.
Основные результаты работы
1) Разработана модель семантического поиска информации с использованием
онтологических моделей знаний, обоснован метод представления документов и запросов в виде семантических метаописаний.
2) Разработаны методы вычисления семантической близости между метаописаниями, между триплетами и между компонентами триплетов.
3) Разработаны алгоритмы автоматического выделения элементов онтологии в
тексте, а также рассмотрена возможность их применения в задаче полуавтоматического создания метаописаний.
14
4) Разработан метод оптимизации хранения коллекции триплетов с использованием числовых идентификаторов, предложен специализированный алгоритм сжатия без потери для словарей URI-идентификаторов.
5) Проведены эксперименты для проверки эффективности предложенного метода хранения триплетов и алгоритма сжатия словарей строк URI, и точности предложенных методов вычисления оценок семантической близости.
6) Разработана архитектура системы семантического поиска информации на
основе метаописаний, предложены структуры данных для хранения индексов и алгоритмы их создания.
7) Реализовано инструментальное программное обеспечение для выполнения
поиска по семантическим метаописаниям «TST» и редактор семантических
метаданных «Triple». Разработанное программное обеспечение официально
зарегистрировано в Роспатенте.
8) Выполнено практическое внедрение основных результатов работы. Предложенная в работе модель семантического поиска, методы и алгоритмы использованы в учебном процессе кафедры оптимизации систем управления
Института кибернетики Томского политехнического университета, а также
использованы: вьетнамской компанией «Nam Thanh» LLC для разработки
подсистемы поиска профилей сотрудников; ООО «Томский завод резиновой
обуви» для создания подсистемы «Поиск электронных документов предприятия»; ООО «Мегаполис» (г. Томск) для создания подсистемы «Поиск
документов в системе электронного документооборота». Результаты опытной эксплуатации созданных подсистем подтвердили высокий уровень качества поиска документов.
Список основных публикаций
В журналах, рекомендованных ВАК РФ для публикации результатов диссертационных исследований:
1. Нгуен Б. Н. Обзор подходов к семантическому поиску документов / Ба Нгок
Нгуен, А. Ф. Тузовский // Доклады Томского государственного университета
систем управления и радиоэлектроники. – 2010. – T. 2, № 2. – С. 109–111.
2. Нгуен Б. Н. Классификация текстов на основе оценки семантической близости терминов / Б. Н. Нгуен, А. Ф. Тузовский // Известия Томского политехнического университета. – 2012 – Т. 320, № 5 – С. 43 – 48.
3. Нгуен Б. Н. Метод семантического поиска в коллекции интеллектуальных
документов / Б. Н. Нгуен, А. Ф. Тузовский // Научно-технический вестник
Поволжья. – 2012 – № 2 – С. 246–254.
4. Нгуен Б. Н. Оптимизация хранения словаря триплетов с использованием числовых идентификаторов / Б. Н. Нгуен, А. Ф. Тузовский // Научнотехнический вестник Поволжья. – 2012 – № 2 – С. 235–245.
В сборниках трудов и тезисов конференций:
5. Нгуен Б. Н. Обзор подходов семантического поиска / Б. Н. Нгуен, А. Ф. Тузовский // III Всероссийский смотр научных и творческих работ иностранных
студентов и аспирантов вузов. – Томск, 2010. – С. 117–121.
15
6. Нгуен Б. Н. A survey of semantic search engines / Б. Н. Нгуен, А. Ф. Тузовский
// IV университетская научно-практическая конференция «Коммуникация
иностранных студентов, магистрантов и аспирантов в учебнопрофессиональной и научной сферах». – Томск, 2010. – С. 82–85.
7. Нгуен Б. Н. Семантический поиск документов с использованием онтологического подхода / Б. Н. Нгуен, А. Ф. Тузовский // IX Всероссийская научнопрактическая конференция студентов, аспирантов и молодых ученых с международным участием «Молодежь и современные информационные технологии». – Томск, 2011. – С. 308–309.
8. Нгуен Б. Н. Оптимизация хранения словаря триплетов с использованием числовых идентификаторов / Б. Н. Нгуен, А. Ф. Тузовский // IX Всероссийская
научно-практическая конференция студентов, аспирантов и молодых ученых
«Технологии Microsoft в теории и практике программирования». – Томск,
2012. – С. 176–182.
9. Нгуен Б. Н. Метод семантического поиска документов по метаописаниям /
Б. Н. Нгуен, А. Ф. Тузовский // IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в
теории и практике программирования». – Томск, 2012. – С. 182–190.
Свидетельства об официальной регистрации программных систем, разработанных на основе результатов диссертации:
10. Программная система «TST – инструментальное программное обеспечение
для организации поиска по семантическим описаниям» / Ба Нгок Нгуен,
А. Ф. Тузовский // Свидетельство о государственной регистрации программы для ЭВМ № 2012618280. М.: Федеральная служба по интеллектуальной
собственности (Роспатент). – 2012.
11. Программная система «Triple – редактор семантических метаданных» /
Ба Нгок Нгуен, А.Ф. Тузовский // Свидетельство о государственной регистрации программы для ЭВМ в Роспатенте РФ № 2012618289. М.: Федеральная служба по интеллектуальной собственности (Роспатент). – 2012.
16
Скачать