Uploaded by Umarali Uralov

Маъруза 5

advertisement
Введение в информационный поиск
Introduction to Information
Retrieval
Лекция №5
Словопозиции с координатами
и фразовые запросы.
Мудрость народов
Человек, у которого нет времени
учиться, не будет учиться и тогда,
когда у него это время появится
Корейская поговорка
Цель лекции.
Рассмотрим и постараемся понять, что такое
фразовые запросы;
указатели расстояния (координаты)
лексемы.
Фразовые запросы
Многие
сложные
понятия,
названия
организаций и торговые марки представляют
собой многословные словосочетания или
фразы.
Например, Stanford University, рассматривая их
как единую фразу, и чтобы документ с текстом
The inventor Stanford Ovshinsky never went to
university не попадал в индексы.
Понятно, что инвертированные индексы для
таких запросов не пригодны.
Фразовые запросы
Не менее 10% всех вебзапросов представляют
собой фразовые запросы.
Однако неявных фразовых запросов, которые
вводятся без двойных кавычек, намного больше
(например, при поиске людей по именам и
фамилиям).
Двухсловные индексы
В этом разделе рассмотрим два подхода к об
работке фразовых запросов.
Двухсловные индексы
Один из подходов к обработке фразовых
запросов
предусматривает
рассмотрение
каждого последовательного двухсловия как
термин словаря.
Это сразу дает нам возможность обрабатывать
двухсловные фразовые запросы.
Двухсловные индексы
Более длинные фразы обрабатываются путем
разбиения на двухсловные части.
Запрос Stanford university palo alto можно разбить на
логический запрос, состоящий из двухсловий.
"Stanford university" AND "university palo" AND "palo
alto"
Этот запрос на практике может себя оправдать, но
иногда он может возвращать ложно положительные
ответы.
Без проверки этих документов невозможно
убедиться, что документы, удовлетворяющие этому
булеву
запросу,
действительно
содержат
первоначальную фразу из четырех слов.
Двухсловные индексы
Среди всех возможных запросов имена
существительные и именные словосочетания
занимают особое положение при описании
понятий, которые хотят найти люди.
Однако связанные между собой имена
существительные
часто
оказываются
отделенными
друг
от
друга
разными
служебными словами, как, например, в фразах
the abolition of slavery и renegotiation of the
constitution (отмена рабства и пересмотр
конституции).
Двухсловные индексы
Сначала необходимо разбить текст на лексемы
и выполнить разметку по частям речи (part-ofspeech tagging).
Затем термины группируются по частям речи, в
частности
по
именам
существительным,
включая собственные имена (N), и служебным
словам, включая артикли и предлоги (X).
Теперь любую строку терминов можно
представить в виде NX*N, т.е. как расширенную
фразу из двух слов.
renegotiation(N) of(X) the(X) constitution(N)
Двухсловные индексы
Для
поиска
по
такому
расширенному
двухсловному
индексу
запрос
так
же
необходимо проанализировать на наличие
существительных (N) и служебных слов (X), а
затем сегментировать запрос на расширенные
двухсловия, по которым можно производить
поиск в индексе.
Двухсловные индексы
Концепцию двухсловного индекса можно расширить
на более длинные цепочки слов.
Если индекс содержит цепочки слов переменной
длины, говорят об индексе фраз (phrase index).
Действительно,
было
бы
неестественно
обрабатывать однословные запросы с помощью
двухсловных индексов (для этого пришлось бы
просмотреть все пары слов словаря, содержащие
этот термин), поэтому в этом случае нам нужен
индекс однословных терминов.
Двухсловные индексы
Однако, с другой стороны, хранение длинных
фраз приведет к значительному увеличению
размера словаря.
Необходимость поддержки полного индекса
фраз, которые длиннее двух слов, — пугающая
перспектива, и даже использование полного
двухсловного
индекса
очень
сильно
увеличивает размер лексикона.
Координатные индексы
По указанным причинам двухсловный индекс
не стал стандартом.
Вместо него широкое распространение получил
координатный индекс (positional index).
В нем для каждого термина из лексикона
хранятся словопозиции в формате docID:
(positionl, position2,...), где position1, position2 и
т.д. представляют собой координаты лексемы в
документе.
Координатные индексы
Координатой лексемы является порядковый
номер лексемы в тексте документа.
Для обработки фразовых запросов нам попрежнему
необходимо
иметь
доступ
к
элементам инвертированного индекса для
каждого отдельного термина.
Как и прежде, мы начинаем с наиболее редко
встречающегося термина, а затем все больше
ограничиваем список кандидатов.
Координатные индексы
При
выполнении
операции
слияния
используется прежний общий подход, но вместо
простой проверки, что оба термина содержатся
в документе, теперь необходимо убедиться, что
их координаты в документе соответствуют
фразовому запросу.
Для этого необходимо подсчитать расстояние
между словами.
На слайде показан фрагмент индексного списка
с координатами.
Координатные индексы
Инвертированные индексы для слов to и be
имеют вышеуказанный вид.
Пользователь
сделал
запрос:
В
каких
документах есть фраза
to be or not to be
to и be находятся рядом, поэтому координата
be на 1 больше координаты to.
Расстояние до следующего сочетания to be
равно 4.
Координатные индексы
to, 993 427:
(1: (7,18, 33,72, 86, 231);
2: (1, 17, 74, 222, 255);
4: (8,16, 190,429,433);
5: (363, 367);
7: (13, 23,191, ...);...)
be, 178 239:
(1: (17, 25);
4: (17, 191,291,430, 434);
5: (14, 19, 101);... )
Координатные индексы
Размер координатного индекса.
Применение
координатного
индекса
существенно увеличивает объем хранимых
данных.
Однако в большинстве приложений это уже
неизбежно,
потому
что
большинство
пользователей рассчитывают, что система
обладает функциональностью поиска фразовых
запросов и запросов с учетом близости
терминов.
Координатные индексы
Существуют эмпирические правила, согласно
которым размер координатного индекса в
два-четыре раза больше, чем размер
некоординатного (документного) индекса, а
сжатый координатный индекс составляет от
трети до половины размера исходного текста
(после удаления разметки и т.д.) в несжатых
документах.
Комбинированные схемы
Стратегии
фразовых
запросов
можно
комбинировать двухсловными и координатными
индексами.
Такие схемы называются комбинированными.
Суть такой стратегии состоит в том, что для
наиболее распространенных фраз применяется
индекс фраз (двухсловный индекс), а для
остальных – только координатный индекс.
Комбинированные схемы
Например, добавление словосочетания Britney
Spears в индекс фраз может лишь примерно в
три раза ускорить обработку этого запроса,
поскольку
большинство
документов,
содержащих хотя бы одно из этих слов, будут
правильными ответами, в то время как
добавление
The
Who
может
ускорить
обработку этого запроса в тысячу раз.
Домашнее задание
Задание 6.1. Рассмотрим двухсловный индекс.
Приведите пример текста документа, который
будет возвращен при обработке запроса New
York University, хотя на самом деле его
возвращать не следовало.
Домашнее задание
Задание 6.2.
Ниже приведена часть координатного индекса в формате
term:docl:(positionl, position2,...); doc2:(positionl, position2,...) и
т.д.
angels: 2: (36,174,252,651); 4: (12,22,102,432); 7: (17);
fools: 2: (1,17,74,222); 4: (8,78,108,458); 7: (3,13,23,193);
fear: 2: (87,704,722,901); 4: (13,43,113,433); 7: (18,328,528);
in: 2: (3,37,76,444,851); 4: (10,20,110,470,500); 7: (5,15,25,195);
rush: 2: (2,66,194,321,702); 4: (9,69,149,429,569); 7: (4,14,404);
to: 2: (47,86,234,999); 4: (14,24,774,944); 7: (199,319,599,709);
tread: 2: (57,94,333); 4: (15,35,155); 7: (20,320);
where: 2: (67,124,393,1001); 4: (11,41,101,421,431); 7:
(16,36,736);
Домашнее задание
Задание 6.2.
Какие
документы
(если
они
есть)
удовлетворяют
каждому
из
следующих
фразовых запросов?
1. “fools rush in”
2. “fools rush in” and “angels fear to tread”
Домашнее задание
Задание 6.3.
Проанализируйте
следующий
фрагмент
координатного индекса, имеющего формат
word.document:(position, position, ...);document:
(position,...)
Gates: 1: (3); 2: (6); 3: (2,17); 4: (1);
IBM: 4: (3); 7: (14);
Microsoft: 1: (1); 2: (1,21); 3: (3); 5: (16,22,51);
Домашнее задание
Задание 6.3.
Оператор /к в запросе wordl /к word2 находит
появление слова wordl в окрестности к слов от
слова word2 (с обеих сторон), где к —
положительное целое число. Таким образом, при к 1 слово wordl должно быть соседом слова word2.
1- Опишите набор документов, удовлетворяющих
запрос Gates /2 Microsoft
2. Опишите множества значений /с, при которых
запрос Gates /к Microsoft возвращает разные
наборы документов.
Домашнее задание
Задание 6.4.(**) Как система информационного
поиска
может
использовать
сочетание
координатного индекса и стоп-слов? В чем
заключается потенциальная проблема и как ее
разрешить?
Download