Воронежский государственный университет Факультет компьютерных наук Кафедра информационных систем Математические модели документального поиска Информационно-поисковые системы. Сычев А.В. 2006 г. 1 Обобщенное описание модели документального поиска Задается в виде кортежа <D, Q, F, R(d,q)>, где D – множество представлений документа Q – множество представлений информационной потребности (запроса) F – средства моделирования представлений документа, запросов и их отношений R(d,q) – функция ранжирования Ставит в соответствие d из D и q из Q вещественные числа Определяет порядок на множестве документов относительно запроса q Информационно-поисковые системы. Сычев А.В. 2006 г. 2 Математические модели документального поиска Теоретико-множественные (булевская, нечеткие множества, расширенная булевская) Вероятностные (сети вывода, энтропийная и др.) Алгебраические (векторная, матричная и др.) Информационно-поисковые системы. Сычев А.В. 2006 г. 3 Теоретико-множественная модель N X X X N X - Множество всех документов в системе - Подмножество документов, соответствующих заданной информационной потребности пользователя (релевантных) - Подмножество нерелевантных документов YN - Подмножество автоматно-релевантных документов Y - Подмножество автоматно-нерелевантных документов Информационно-поисковые системы. Сычев А.В. 2006 г. 4 Теоретико-множественная модель a X Y - Подмножество релевантных документов, оказавшихся в выдаче b X Y - Подмножество нерелевантных документов, оказавшихся в выдаче c X Y - Подмножество релевантных документов, не оказавшихся в выдаче d X Y - Подмножество нерелевантных документов, не оказавшихся в выдаче Информационно-поисковые системы. Сычев А.В. 2006 г. 5 Теоретико-множественная модель Информационно-поисковые системы. Сычев А.В. 2006 г. 6 Теоретико-множественная модель b = c = 0: идеальное качество поиска Информационно-поисковые системы. Сычев А.В. 2006 г. 7 Метрики подобия QD 2 QD Q D QD - коэффициент Дайса (Dice) - коэффициент Жаккарда (Jaccard) QD QD Q - простое соответствие D QD min( Q , D ) - косинусный коэффициент - коэффициент перекрытия где Q и D – множества терминов в запросе и документе соответственно Информационно-поисковые системы. Сычев А.В. 2006 г. 8 Булевская модель Самая простая модель, основанная на теории множеств Запросы представляются в виде булевских выражений из слов и логических операторов И, ИЛИ, НЕ. Релевантными считаются документы, которые удовлетворяют булевскому выражению в запросе. Информационно-поисковые системы. Сычев А.В. 2006 г. 9 Булевская модель Матрица документ-термин C(d,t) показывает какие встречаются слова и в каких документах C(d,t) d d d d d 1 2 3 4 5 Запрос: t a t b t c 1 1 1 0 1 0 1 0 1 1 0 0 1 0 1 1 2 3 q = a И (b ИЛИ (НЕ c)) Информационно-поисковые системы. Сычев А.В. 2006 г. 10 Булевская модель a b НЕ c -> 1,1,1,0,1 -> 0,1,0,1,1 -> 1,1,0,1,0 ИЛИ 1,1,0,1,1 Запрос: q = a И (b ИЛИ (НЕ c)) Результат: d1, d2, d5 Информационно-поисковые системы. Сычев А.В. 2006 г. И 1,1,0,0,1 11 Расширенная булевская модель Взамен бинарных величин термины в документах и запросах описываются весовыми коэффициентами (значимость или статистическая оценка) Используется аппарат нечетких множеств, т.е. степень принадлежности элемента к множеству задается величиной из интервала [0,1]. Степень принадлежности элементов может использоваться для ранжирования результатов запроса Информационно-поисковые системы. Сычев А.В. 2006 г. 12 Булевские модели: достоинства и недостатки Достоинства: Недостатки: простая, легко понимаемая структура запроса простота реализации недостаточно возможностей для описания сложных запросов результатов запроса либо слишком много либо слишком мало проблематичность при ранжирования результатов Пока еще распространены в коммерческих ИПС Информационно-поисковые системы. Сычев А.В. 2006 г. 13 Альтернативные модели Требуется метрика для описания подобия между запросом и документом. Для этого необходимо привлекать характеристики документов и запроса. Можно предположить, что лингвистическое подобие документа и запроса подразумевает тематическое подобие, т.е. выражает фактически релевантность документа. Информационно-поисковые системы. Сычев А.В. 2006 г. 14 Векторная модель Документы и запросы представляются в виде векторов в N-мерном евклидовом пространстве Компоненты вектора соответствуют N терминам, образующим пространство. Информационно-поисковые системы. Сычев А.В. 2006 г. 15 Векторная модель Релевантность выражается через подобие векторов Для вычисления подобия векторов используется косинусная метрика q d cos qd S ( q, d ) cos qd qd w w qi di i wqi wdi 2 i 2 i Информационно-поисковые системы. Сычев А.В. 2006 г. 16 Векторная модель Для построения пространства терминов обычно используются основы слов, отдельные слова, а также целые фразы, пары слов и т.д. Документы и запросы представляются в виде векторов, компоненты которых соответствуют весам терминов wt. Чем больше используется терминов, тем сложнее понять какие подмножества слов являются общими для подобных документов. Информационно-поисковые системы. Сычев А.В. 2006 г. 17 Векторная модель Ключевые вопросы: Как выбирать размерность пространства терминов N ? Как вычислять весовые коэффициенты wt ? Информационно-поисковые системы. Сычев А.В. 2006 г. 18 Закон Ципфа (Zipf) Произведение частоты термина f на его ранг r остается примерно постоянной величиной 6 частота f 5 4 3 2 1 0 1 3 5 7 9 11 13 15 17 19 21 ранг r f = C/r, C ≈ N/10 Информационно-поисковые системы. Сычев А.В. 2006 г. 19 Принцип Луна (Luhn) 6 Разрешающая способность f 5 частота 4 3 2 1 0 1 3 5 Значимые слова 7 9 11 13 15 17 19 21 ранг r Самые часто встречающиеся слова – не самые значимые! Информационно-поисковые системы. Сычев А.В. 2006 г. 20 Расчет весов терминов Бинарные веса: Wij=1 если документ di содержит термин tj, иначе 0. Частота термина tfij , т.е. сколько раз встретился термин tj в документе di tf x idf: чем выше частота термина в документе – тем выше его вес, но термин должен не часто встречаться во всей коллекции документов Информационно-поисковые системы. Сычев А.В. 2006 г. 21 Расчет tf x idf tfik – частота термина Tk в документе Di idfk – обратная документальная частота для термина Tk в коллекции С N – общее число документов в коллекции Nk - количество документов в коллекции C, содержащих термин Tk w tf idf ik ik N idf log( N ) ik Информационно-поисковые системы. Сычев А.В. 2006 г. k k 22 Векторная модель Достоинства: Проблемы: Учет весов повышает эффективность поиска Позволяет оценить степень соответствия документа запросу Косинусная метрика удобна при ранжировании Нет достаточного теоретического обоснования для построения пространства терминов Поскольку термины не являются независимыми друг от друга, то они не могут быть полностью ортогональными Имеет преимущество перед другими моделями ввиду простоты и изящества Информационно-поисковые системы. Сычев А.В. 2006 г. 23 Вероятностные модели Заключаются в оценке вероятности того, что документ d является релевантным по отношению к запросу q: Pr(R|d,q). При ранжировании документов в выборке ключевым являет Принцип Ранжирования Вероятностей, согласно которому если каждый ответ поисковой системы представляет собой ранжированный по убыванию вероятности полезности для пользователя список документов, то общая эффективность системы для пользователей будет наилучшей. Информационно-поисковые системы. Сычев А.В. 2006 г. 24 Вероятностные модели: определения Релевантность R определяется как отношение: R d , q | d D, q Q, d релевантен q P( R | d ), P( R , d ) – вероятности того, что d – релевантный и не релевантный соответственно Допущения: • Структура документа описывается бинарным вектором в пространстве терминов • Релевантность документа запросу оценивается независимо от других документов. Информационно-поисковые системы. Сычев А.В. 2006 г. 25 Вероятностные модели: правило принятия решения Вероятность вычисляется на основе теоремы Байеса: Pd | R PR P R | d Pd P(R) – вероятность того, что случайно выбранный из коллекции документ D является релевантным P(d|R) – вероятность случайного выбора документа d из множества релевантных документов P(d) – вероятность случайного выбора документа d из коллекции D Информационно-поисковые системы. Сычев А.В. 2006 г. 26 Вероятностные модели: правило принятия решения Решающее правило заключается в максимизации следующей функции: Pr d | R S d Pr d | R Информационно-поисковые системы. Сычев А.В. 2006 г. 27 Вероятностные модели: правило принятия решения В предположении о независимости терминов друг от друга: Pr d | R Pt | R Pt | R Pd i | R n td i 1 di – бинарная величина, указывающая на наличие либо отсутствие термина ti в документе d Информационно-поисковые системы. Сычев А.В. 2006 г. 28 Вероятностные модели: правило принятия решения Вводя обозначения: p Pr d 1 | R 1 p Pr d 0 | R q Pr d 1 | R 1 q Pr d 0 | R i i i i i i i i получим: n Pr d | R Pr i 1 n Pr d | Pr R i 1 d | R p n i i 1 di i 1 p 1 d i i d | R q 1 qi n i i 1 di 1 d i i Информационно-поисковые системы. Сычев А.В. 2006 г. 29 Вероятностные модели: правило принятия решения В итоге: S d Pr Pr d | R d | R n i 1 di pi qi 1 di 1 pi 1 q i или после логарифмирования: S d p 1 p n i i ci d i C log log d 1 d i i l l i 1 q 1 q i 1 i i n Информационно-поисковые системы. Сычев А.В. 2006 г. 30 Вероятностные модели: правило принятия решения C – константа, не зависящая от документов ci – вес релевантности термина, показывающий дискриминантную способность между релевантными и нерелевантными документами термина ti. Проблема: оценка вероятностей pt и qt Информационно-поисковые системы. Сычев А.В. 2006 г. 31 Оценка вероятности на основе обратной связи по релевантности (Robertson&Jones) Если пользователь предоставляет информацию об оценке релевантности полученных им документов (обратная связь) в виде R – числа релевантных документов и r – число релевантных документов, содержащих термин t N – общее число документов выданных пользователю n - число документов, содержащих термин t , то можно получить следующие оценки: pt = r/R qt = (n-r)/(N-r) Информационно-поисковые системы. Сычев А.В. 2006 г. 32 Оценка вероятности на основе обратной связи по релевантности (Robertson & Spark Jones) Релевантные Нерелевантные Содержат t Не содержат t Всего Всего r n-r n R-r N-n-R+r N-n R N-R N Информационно-поисковые системы. Сычев А.В. 2006 г. 33 Оценка вероятности на основе обратной связи по релевантности (Robertson & Spark Jones) Оценка веса релевантности термина: c log t r R r nr N n R r Проблема: высокая затратность оценки Большинство систем используют формулу “Okapi BM25”, учитывающую веса Робертсона-Спарка Джонса. Логистическая регрессия Информационно-поисковые системы. Сычев А.В. 2006 г. 34 Пример (1) Имеется 20 документов оцениваемых по 2 терминам: D = (d1, d2) d D1 D4 D7 D10 D13 D16 D19 Rel R R R ^R R ^R ^R d1 1 1 1 1 0 0 0 d2 1 1 0 0 1 1 0 d D2 D5 D8 D11 D14 D17 D20 Rel d1 R 1 ^R 1 R 1 ^R 1 R 0 ^R 0 ^R 0 d2 d Rel d1 d2 1 D3 R 1 1 1 D6 R 1 0 0 D9 R 1 0 0 D12 R 0 1 1 D15 ^R 0 1 1 D18 R 0 0 0 Отсюда: N = 20; R = 12; r1 = 8; r2 = 7; n1 = 11; n2 = 11 Информационно-поисковые системы. Сычев А.В. 2006 г. 35 Пример (2) Таблица оценки релевантности d D1 D4 D7 D10 D13 D16 D19 Rel R R R ^R R ^R ^R d1 1 1 1 1 0 0 0 d2 1 1 0 0 1 1 0 S(D) d 1,54 D2 1,54 D5 1,2 D8 1,2 D11 0,34 D14 0,34 D17 0 D20 Rel R ^R R ^R R ^R ^R d1 1 1 1 1 0 0 0 d2 1 1 0 0 1 1 0 S(D) d 1,54 D3 1,54 D6 1,2 D9 1,2 D12 0,34 D15 0,34 D18 Rel R R R R ^R R d1 d2 S(D) 1 1 1,54 1 0 1,2 1 0 1,2 0 1 0,34 0 1 0,34 0 0 0 0 p1 = 8/12; p2 = 7/12; q1 = 3/8; q2 = 4/8; c1 = 1.2; c2 = 0.34; S(D) = 1.2*d1+0.34*d2 Информационно-поисковые системы. Сычев А.В. 2006 г. 36 Вероятностные модели: достоинства и недостатки Достоинства: Хорошее теоретическое обоснование При имеющейся информации дают наилучшие предсказания релевантности Могут быть реализованы аналогично векторным моделям Недостатки: Требуется информация о релевантности или ее приближенные оценки Структура документа описывается только терминами Оптимальные результаты получаются только в процессе обучения на основе информации о релевантности Информационно-поисковые системы. Сычев А.В. 2006 г. 37 Матричная модель Рассматривает множество из n документов. На его основе можно построить множество из m терминов, которые хоть раз встречались в какомлибо или более документах. Можно ввести матрицы сопряженности трех типов: “документ-документ” “термин-термин” “документ-термин” Информационно-поисковые системы. Сычев А.В. 2006 г. 38 Матричная модель 1 C 12 22 cn 2 t t d c c d c c 1 11 2 21 d c n n1 2 t c c m 1m 2m c nm Информационно-поисковые системы. Сычев А.В. 2006 г. 39 Матричная модель Матрица сопряженности “документ-документ” размерностью (n x n) D d d d d d d d c 1 2 1 11 12 2 21 22 d d n n1 d n2 d d d n 1n 2n d nn Элемент d[i,j] указывает на наличие терминов содержащихся одновременно в j-м и i-м документах (бинарный случай), либо равен количеству общих терминов в этих документах Информационно-поисковые системы. Сычев А.В. 2006 г. 40 Матричная модель Матрица сопряженности “термин-термин” размерностью (m x m) tm t1m 1 11 12 t 2m 2 21 22 t m t m1 t m2 t mm t t t t t t t t 1 T 2 Элемент t[i,j] указывает на наличие документов содержащих одновременно j-й и i-й термины (бинарный случай), либо равен количеству таких документов Информационно-поисковые системы. Сычев А.В. 2006 г. 41 Матричная модель Запрос пользователя можно представить в виде: n-мерного вектора-строки Q[qi] , i-ая координата которого не равна нулю в том случае, если i-ый документ включен пользователем в список документов, представляющих его запрос m-мерного вектора-столбца Q[qi], i-ая координата которого равна единице, если i-ый термин включен пользователем в список терминов, представляющий его запрос. Информационно-поисковые системы. Сычев А.В. 2006 г. 42 Матричная модель Реакция системы (вектор релевантностей) на запрос пользователя Q вычисляется как: A = C*Q Значение i-ой координаты n-мерного вектора A[ai] при этом оказывается равным числу терминов запроса (бинарный случай), оказавшихся в i-ом документе. Информационно-поисковые системы. Сычев А.В. 2006 г. 43 Матричная модель Информационный поиск описывается в виде итерационного процесса: A(0) = C*Q(0) Q(1) = CT*A(0) A(1) = C*Q(1) …………………….. A(t) = C*Q(t) Q(t+1) = CT*A(t) Элементы Q(i), i>0, рассматриваются как уточненные величины значимостей терминов в запросе. Информационно-поисковые системы. Сычев А.В. 2006 г. 44 Матричная модель Можно заметить, что Q(t) = (CTС)tQ(0) A(t) = (CCT)t*A(0) Из теоремы Сильвестра при достаточно больших t можно получить приближение: Q(t+1) = λ0Q(t) A(t+1) = λ0A(t) где λ0 – собственное значение матрицы CTС. Информационно-поисковые системы. Сычев А.В. 2006 г. 45 Матричная модель Видно, что с увеличением t векторы Q(t) и A(t) стремятся принимать направления собственных векторов матриц CTС и СCT, соответствующих собственным значениям этих матриц. Т.е. если вектор Q(0) не учитывает фактор поисковой среды, то уже начиная с Q(1) этот фактор учитывается. При больших значениях t вектор Q(t) выражает только свойства самой среды. Вывод: на первых тактах (при небольших t) итерационный процесс улучшает качество поиска, но при дальнейших итерациях качество поиска ухудшается, поскольку результаты перестают зависеть от запроса пользователя. Информационно-поисковые системы. Сычев А.В. 2006 г. 46 Матричная модель Корректировка модели: A(0) = C*Q(0) Q(1) = CT*A(0)+Q(0) A(1) = C*Q(1) …………………….. A(t) = C*Q(t) Q(t+1) = CT*A(t) +Q(0) Информационно-поисковые системы. Сычев А.В. 2006 г. 47 Матричная модель Можно показать, что при достаточно больших значениях t матрицы Q и A являются решением системы уравнений: A = CQ Q = CTA+Q(0) или в матричном виде: A Q 0 T C A C 0 Q 0 0 Q Информационно-поисковые системы. Сычев А.В. 2006 г. 48 Энтропийная модель ac p ( x 1) n ab p ( y 1) n - Коэффициент релевантности запросу - Коэффициент выдачи a - Коэффициент полноты поиска p( y 1 | x 1) 1 ac Информационно-поисковые системы. Сычев А.В. 2006 г. 49 Энтропийная модель d - Коэффициент специфичности p ( y 0 | x 0) 2 d b a p ( x 1 | y 1) 1 - Коэффициент точности ab d p ( x 0 | y 0) 2 cd Информационно-поисковые системы. Сычев А.В. 2006 г. 50 Энтропийная модель H [ x] log (1 ) log( 1 ) H [ y ] log (1 ) log( 1 ) H [ x | y ] [1 log 1 (1 1 ) log( 1 1 )] (1 ) [2 log 2 (1 2 ) log( 1 2 )] Информационно-поисковые системы. Сычев А.В. 2006 г. 51 Энтропийная модель 1. 1 2 1 (1 2 1) : H [ x | y ] 0, I [ x, y ] H [ x] H [ x | y ] H [ x] 2. 1 2 0 (1 2 0) : H [ x | y ] 0, I [ x, y ] H [ x] H [ x | y ] H [ x] 3. 1 2 1 (1 ; 2 1 ) : H [ x | y ] H [ x], I [ x, y ] H [ x] H [ x | y ] 0 [ x, y ] I [ x, y ] / H [ x] - Коэфф. относит. уменьшения исходной неопределенности Информационно-поисковые системы. Сычев А.В. 2006 г. 52 Источники Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики. М.: РГГУ, 1997. S.E.Robertson, K.S.Jones Simple, proven approaches to text retrieval. Cambridge Technical Report, 1997. Ray Larson “Principles of Information Retrieval”. Слайды (http://www.sims.berkeley.edu/academics/courses/is240/s06/) D.Carmel, A.Soffer “Information Retrieval”. Слайды. (http://cs.haifa.ac.il/courses/infor/) Информационно-поисковые системы. Сычев А.В. 2006 г. 53