модели информационного поиска

реклама
Из цикла лекций «Современные Internet-технологии» для студентов 5-го курса кафедры Компьютерных технологий
физического факультета Донецкого национального университета
Модели
информационного
поиска
ДонНУ, кафедра КТ, проф. В. К. Толстых
Основные модели
Булева модель
Гибридная модель
Векторная модель
Вероятностная модель
Рассмотрим два наиболее популярных подхода. Первый базируется на теории
множеств, а второй на векторной алгебре. Оба подхода достаточно
эффективны на практике, однако у них есть общий недостаток, который
следует из основного упрощающего предположения, заключающегося в том,
что смысл документа, его основное содержание определяется множеством
ключевых слов – терминов и понятий, входящих в него. Конечно же, такие
подходы частично ведут к потере содержательных оттенков текстов, зато
позволяют выполнять быстрый поиск и группировку документов по
формальным признакам.
2
Булева модель поиска
(теория множеств и булева алгебра)
Булева модель является классической, широко используемой моделью
представления информации. Популярность этой модели связана, прежде всего, с
простотой ее реализации, позволяющей индексировать и выполнять поиск в
массивах документов большого объема.
В рамках булевой модели документы и запросы представляются в виде
множества морфемных основ ключевых слов – термов ti . Все документы,
охваченные поисковиком, индексируются относительно термов. При этом
получается Словарь – это индексная база всех термов:
T = {t1 ,t2 , …, tn}.
Документ – это подмножество словаря: D  T .
Запрос – это булевская форма, например,
t5 OR t7 AND NOT t12
означает, что необходимо найти документы, которые включают пятый или седьмой
термы словаря, но не включают двенадцатый. Если формула выполнена для какоголибо документа, то считается, что этот документ соответствует запросу.
Основные недостатки булевской модели – крайняя жесткость и непригодность
3
для ранжирования документов.
Векторная модель
(векторные пространства и линейная алгебра)
В векторной модели документы и запросы представляются в виде векторов d и
q в n-мерном евклидовом пространстве словаря термов T = {t1 ,t2 , …, tn} документов,
охваченные поисковиком.
Документы в словаре
Пространство
словаря T
Запрос
Если не учитывать веса термов (бинарные веса), то, например, d = {1,1,
0,0,1,0…}n означает, что документ содержит термы t1 ,t2 и t5 из словаря n-термов.
Запрос может иметь вид q = t2 AND t5 = {0,1, 0,0,1,0…} n. Далее можно оценить
на сколько векторы d и q близки или далеки.
4
Учёт весов термов, релевантность
Компоненты векторов документов и запросов могут быть не бинарные (0,1), а иметь
величину wik – вес документа di (например, рейтинг страницы – PageRank) и
важность терма tk в документе. При этом, степень важности терма k для документа i
задаётся весовой матрицей:
w  tf  idf
ik
ik
k
где tfik (Term Frequency) – относительная доля слова i в документе k,
idfk (Inversed Document Frequency) – величина, обратная количеству документов,
содержащих терм k. Обычно idfk = log(n/nk), где nk - количество документов в
словаре Т, содержащих терм tk
Первый сомножитель показывает на сколько слово подходит документу, второй –
является ли слово общеупотребительным или редким.
Релевантность вычисляется как косинус угла между векторами запроса и документа:
qd
R ( q, d ) 

qd
q  d  cos 
qd
 cos  
w w
qi
 wqi   wdi
2
i
Чем ближе вектора, тем больше релевантность.
di
i
2
i
5
Векторная модель: достоинства
и недостатки



Достоинства:
– Учет весов повышает эффективность поиска
– Позволяет оценить степень соответствия документа запросу
– Косинусная метрика удобна при ранжировании
Проблемы:
– Нет достаточного теоретического обоснования для построения
пространства термов. Поскольку термины не являются независимыми
друг от друга, то они не могут быть полностью ортогональными,
например, что характерно для слов синонимов.
Имеет преимущество перед другими моделями ввиду простоты и
изящества
6
Вероятностные модели

Заключаются в оценке вероятности того, что документ является релевантным по
отношению к запросу.

При ранжировании документов в выборке ключевым являет Принцип
Ранжирования Вероятностей, согласно которому если каждый ответ поисковой
системы представляет собой список документов, ранжированный по убыванию
вероятности полезности для пользователя, то общая эффективность системы для
пользователей будет наилучшей.
Вероятность того, что документ d – релевантный вычисляется на основе теоремы
Байеса:
P R | d  
Pd | R   PR 
Pd 
где P(R) – вероятность того, что случайно выбранный документ из коллекции D
является релевантным, P(d|R) – вероятность случайного выбора именно документа
d из множества релевантных документов, P(d) – вероятность случайного выбора
документа d из коллекции всех документов D.
Документы в ответе ранжируются по величине P(R|d).
7
Вероятностные модели:
достоинства и недостатки


Достоинства:
– Хорошее теоретическое обоснование
– При имеющейся информации дают наилучшие предсказания
релевантности
– Могут быть реализованы аналогично векторным моделям
Проблемы:
– Требуется информация о релевантности или ее приближенные оценки
– Структура документа описывается только термами
– Оптимальные результаты получаются только в процессе обучения на
основе информации о релевантности
8
Гибридные модели поиска
Булева модель
Методы семантической
обработки информации
Векторнопостранственная модель
Вероятностная модель
На практике чаще всего используются гибридные подходы, в которых
объединены возможности булевой и векторной моделей и зачастую
добавлены оригинальные методы семантической обработки информации.
Чаще всего в информационно-поисковых системах процедура поиска
выполняется в соответствии с булевой моделью, а результаты ранжируются
по весам в соответствии с моделью векторного пространства.
9
Скачать