Введение в статистические языковые модели

advertisement
Статистические языковые модели
в информационном поиске
Никита Спирин, PhD candidate
University of Illinois at Urbana-Champaign,
Department of Computer Science
Московский Физико-Технический Институт,
Факультет Управления и Прикладной Математики
nikita.spirin@phystech.edu
spirin2@illinois.edu
Skype: spirinus
Что есть информационный поиск (IR)?
• “information retrieval is a field concerned with
the structure, analysis, organization, storage,
searching, and retrieval of information”
[Salton,68]
– Information в большинстве случаев есть
текст, но может быть и изображением, видео.
– Retrieval в основном есть поиск по запросу,
но может быть и классификация, фильтрация,
резюмирование,..
Зачем поиск?
• Twitter генерирует 250 000 000 сообщений в
день.
• 6 000 000 000 фотографий в месяц загружается
на Facebook.
• Более 560 000 00 профессиональных
фотографий загружается в год на Flickr.
• Размер индекса Google (нижняя оценка на
размер Интернета) в 2008 году достиг
1 000 000 000 000 страниц.
Ключевые компоненты поисковой
системы?
Интернет
Краулер
Поисковый
Индекс
Ранжирующая
функция
План доклада
• Базовые понятия
– Обзор моделей ранжирования
– Введение в статистические языковые модели
• Базовая модель ранжирования на основе
статистических языковых моделей
• Продвинутые модели ранжирования на основе
статистических языковых моделей
• Модель ранжирования на основе вероятностного
расстояния статистических языковых моделей
• Заключение
План доклада
• Базовые понятия
– Обзор моделей ранжирования
– Введение в статистические языковые модели
• Базовая модель ранжирования на основе
статистических языковых моделей
• Продвинутые модели ранжирования на основе
статистических языковых моделей
• Модель ранжирования на основе вероятностного
расстояния статистических языковых моделей
• Заключение
Обзор моделей ранжирования
•
•
•
•
1950 – 1960: зарождение данного научного направления
– Гипотеза об автоматической индексируемости коллекций (Luhn)
– Первые эксперименты и выработка принципов оценки работы
поисковых систем (Cleverdon’s Cranfield 1 и Cranfield 2)
– Ранние эксперименты по разработке векторной модели
ранжирования (Salton’s прототип-система SMART)
1970 – 1980: бурное развитие информационного поиска
– Становление векторной модели ранжирования
– Модели ранжирования на основе вероятностного подхода (PRP)
1990: дальнейшее развитие информационного поиска (новые
приложения и теоретизирование подходов и моделей)
– Статистические языковые модели
– Разработка коллекций для объективного сравнения поисковых систем
2000++: Веб поиск, масштабируемость поисковых систем, антиспам
– Машинное обучение ранжированию
– MapReduce, Hadoop, GFS, …
Постановка задачи ранжирования
• Дано:
– Словарь для данного языка
;
– Множество запросов обучения
, где
каждое слово из запроса содержится в словаре;
– Коллекция документов
, где каждый
документ есть упорядоченное множество слов из
словаря;
– Для обучающего множества пар запрос/документ
задана оценка релевантности
• Найти:
– Для нового запроса множество релевантных
документов (возможно упорядоченное) из
коллекции
.
Вычисление релевантности:
упорядоченное множество или нет?
• Стратегия 1 (фильтрация документов)
– R(q) = { dC | f(d,q)=1 }, где f(d,q)  {0,1} есть
классификатор, индикаторная функция
– Алгоритм должен предсказать абсолютную
оценку о релевантности документа запросу.
• Стратегия 2 (ранжирование документов)
– R(q) = { dC | f(d,q)> }, где f(d,q)  есть
ранжирующая функция;  порог фильтрации
– Алгоритм должен предсказать
относительную релевантность документов
и подобрать оптимальный порог фильтрации.
Вычисление релевантности:
упорядоченное множество или нет?
1
+ + ++
0
--
+
Реальная релевантность R(q)
-
+
+
-
+
+
+
-
-
-
Классификация
f(d,q)=?
-
-
-
-
R’(q)
- - - +
- -
-
-
Ранжирование
f(d,q)=?
0.98 d1 +
0.95 d2 +
0.83 d3 0.80 d4 +
0.76 d5 0.56 d6 0.34 d7 0.21 d8 +
0.21 d9 -
R’(q)
Вычисление релевантности:
упорядоченное множество или нет?
• Стратегия 1 (фильтрация документов)
– R(q) = { dC | f(d,q)=1 }, где f(d,q)  {0,1} есть
классификатор, индикаторная функция
– Алгоритм должен предсказать абсолютную
оценку о релевантности документа запросу.
• Стратегия 2 (ранжирование документов)
– R(q) = { dC | f(d,q)> }, где f(d,q)  есть
ранжирующая функция;  порог фильтрации
– Алгоритм должен предсказать
относительную релевантность документов
и подобрать оптимальный порог фильтрации.
Модели на основе текстовой близости (1)
• Принцип:
– Релевантность документа запросу коррелирует с
текстовой близостью запроса и документа
• Векторная модель ранжирования (VSM)
– Документ и запрос представляются, как векторы в
пространстве терминов (10 000++ компонент);
– Каждому термину присвоен вес, характеризующий
его информативность, уникальность;
– Релевантность оценивается как некоторая мера
близости векторов;
Модели на основе текстовой близости –
формально (2)
• Документ есть
;
• Запрос есть
;
• Вес термина определяется на основе TFIDF, которая
учитывает
– Частоту слова в документе TF;
– Встречаемость слова в коллекции IDF;
– Длину документа;
• Близость определяется на основе нормированного
скалярного произведения (косинусная мера).
Модели на основе текстовой близости (3)
• Преимущества векторной модели ранжирования
(VSM):
– Дает наилучшие результаты по сравнению с другими
классическими моделями;
– Очень проста и понятна в реализации;
– Существует множество кейсов применения, коллекций и
benchmark’ов для сравнения и экспериментов;
• Недостатки:
– Основана на эвристиках, допускает независимость
терминов в запросе и документе;
– Сложно расширяема для добавления предметного знания;
– Требует тщательной настройки параметров экспертом;
– Не объясняет как представлять документы и запросы.
Вероятностный Принцип Ранжирования, PRP (1)
• Дано
и требуется восстановить
отображение
.
• Выпишем функцию правдоподобия
и функцию апостериорного распределения
параметров модели
Вероятностный Принцип Ранжирования, PRP (2)
• Выпишем функцию распределения
финального ответа для нового прецедента
• Определим функцию потерь
при
и
при
, а также байесовский риск
,
тогда
Модели на основе вероятностных
соображений (1)
• Принцип:
– Какова вероятность того, что данный документ
релевантен данному запросу?
• Вероятностная модель ранжирования (PRM):
– Рассматриваются три случайные величины
(запрос, документ, релевантность R  {0,1});
– Цель: упорядочить документы коллекции по
убыванию вероятности соответствия документов
запросу, P(R=1|Q,D);
– Возможны различные способы оценки
вероятности в формуле P(R=1|Q,D).
Модели на основе вероятностных
соображений (2)
• Дискриминативный подход (оценить вероятность
напрямую, построить отображение):
– Определить признаки на парах Q x D, например,
# совпавших слов, длина документа, величина IDF
самого популярного слова на странице, предсказания
базовых ранжирующих функций baseR(Q,D),…
– Используя обучающее множество (запросы, документы,
и известные оценки релевантности на парах), оценить
параметры модели ранжирования
– Для нового документа породить признаки и применить
обученную модель
Модели на основе вероятностных
соображений (3)
• Генеративный подход (факторизация
вероятности в произведение случайных
величин, оценка релевантности не напрямую)
– Вычислить O(R=1|Q,D) по правилу Байеса
– Определить порождающую модель P(Q,D|R)
P( R  1 | Q, D) P(Q, D | R  1) P( R  1)
O( R  1 | Q, D) 

P( R  0 | Q, D) P(Q, D | R  0) P( R  0)
• Возможные случаи
Не влияет на ранжирование
– Генерация документов: P(Q,D|R)=P(D|Q,R)P(Q|R)
– Генерация запросов: P(Q,D|R)=P(Q|D,R)P(D|R)
Модели на основе вероятностных
соображений – генерация документа
P ( R  1 | Q, D )
P(Q, D | R  1)

P( R  0 | Q, D) P(Q, D | R  0)
P ( D | Q, R  1) P(Q | R  1)

P ( D | Q, R  0) P(Q | R  0)
P ( D | Q, R  1)
Модель релевантных документов для Q

P( D | Q, R  0)
Модель нерелевантных документов для Q
Допустим независимость величин A1… Ak
Пусть D=d1…dk, где dk {0,1} есть значение величины Ak (тоже самое для Q=q1…qm )
P ( Ai  d i | Q, R  1)
P ( R  1 | Q, D )

P ( R  0 | Q, D) i 1 P ( Ai  d i | Q, R  0)

P ( Ai  1 | Q, R  1)
P ( Ai  0 | Q, R  1)

i 1, d i 1 P ( Ai  1 | Q, R  0) i 1, d i  0 P ( Ai  0 | Q, R  0)

P ( Ai  1 | Q, R  1) P ( Ai  0 | Q, R  0)
i 1, d i 1 P ( Ai  1 | Q, R  0) P ( Ai  0 | Q, R  1)

P ( Ai  1 | Q, R  1) P ( Ai  0 | Q, R  0)
( Пусть P ( Ai  1 | Q, R  1)  P ( Ai  1 | Q, R  0), при qi  0)
P
(
A

1
|
Q
,
R

0
)
P
(
A

0
|
Q
,
R

1
)
i 1, d i  qi 1
i
i



Модели на основе вероятностных
соображений – генерация документа
log O( R  1 | Q, D)
Rank
 
i 1, d i  qi 1
log
pi (1  qi )
qi (1  pi )
(RSJ модель)
Необходимо оценить по 2 параметра для каждого термина Ai:
pi = P(Ai=1|Q,R=1): вероятность, что Ai ассоциирован с релевантным классом
документов;
qi = P(Ai=1|Q,R=0): вероятность, что Ai ассоциирован с нерелевантным
классом документов.
Как оценить данные параметры?
# (rel. doc with Ai )  0.5
pˆ i 
# (rel.doc)  1
# (nonrel. doc with Ai )  0.5
qˆi 
# (nonrel.doc)  1
Модели на основе вероятностных
соображений – генерация запроса
P (Q, D | R  1)
P (Q, D | R  0)
P (Q | D, R  1) P ( D | R  1)

P (Q | D, R  0) P ( D | R  0)
P ( D | R  1)
 P (Q | D, R  1)
( Пусть P (Q | D, R  0)  P (Q | R  0))
P ( D | R  0)
O ( R  1 | Q, D ) 
Вероятность запроса p(q| d)
При допущении о равномерной
априорной вероятности получим
Априорная релевантность документа
O( R  1 | Q, D)  P(Q | D, R  1)
Следовательно, вопрос заключается в том как оценить
P(Q | D, R  1)
вероятность запроса по документу?
Процесс состоит из 2 ключевых стадий:
• оценить лингвистическую модель для каждого документа D
• вычислить релевантности документов запросу на основе этих моделей.
Другие модели ранжирования
• Подход на основе графических моделей
– Принцип: вывести по-байесовски, что запрос
релевантен документу
• Подход на основе генетических алгоритмов и
символьной регрессии
– Принцип: порождение моделей и отбор наиболее
перспективных
• Подход на основе оптимизации эмпирического
риска
• Эвристический подход на основе структурных
свойств функции ранжирования
План доклада
• Базовые понятия
– Обзор моделей ранжирования
– Введение в статистические языковые модели
• Базовая модель ранжирования на основе
статистических языковых моделей
• Продвинутые модели ранжирования на основе
статистических языковых моделей
• Модель ранжирования на основе вероятностного
расстояния статистических языковых моделей
• Заключение
Статистические языковые модели - SLM
(определение)
• Вероятностное распределение на множестве
словарных последовательностей:
– p(“Мама мыла раму”)  0.001;
– p(“Рама мыла маму”)  0.0000000000001;
– p(“Матрица Грамма в унитарном пространстве
эрмитова”)  0.00001.
• Может быть использована для порождения текста,
если рассматривать как случайный процесс
семплирования слов из данного вероятностного
распределения. Поэтому также можно встретить
термин генеративная модель языка.
• Зависит от коллекции, тематики, типа модели.
Статистические языковые модели
(примеры применения)
• Позволяет вероятностно описывать
естественный язык в рамках теоретически
обоснованной гибкой модели.
• С помощью SLM можно отвечать на вопросы:
– Для словосочетания “Мама мыла”, какова вероятность того, что
следующим словом будет “раму”? А “машину”? А “танк”?
(распознавание речи)
– Если слово “Евро” встретилось 1 раз и “футбол” 4 раза в статье, какова
вероятность, что данная статья про спорт по сравнению с финансами?
(информационный поиск, категоризация текста)
– Если пользователь любит футбол, какова вероятность того, что он
употребит слово “гол” в запросе?(информационный поиск на основе SLM)
Простейшая статистическая языковая
модель – Unigram Language Model (ULM)
• Текст генерируется последовательно
посредством выбора с возвращением так, что
слова в последовательности независимы.
• То есть p(w1 w2 ... wn)=p(w1)p(w2)…p(wn).
• Параметры модели: {p(wi)} таковы, что
p(w1)+…+p(wN)=1, где (N размер словаря V)
• Формально, ULM есть мультиномиальное
распределение на множестве слов.
Простейшая
статистическая
языковая
Text Generation with Unigram LM
модель – Unigram Language Model (ULM)
ULM с вектором параметров 
Документ d
Семплирование
с
возвращением
p(w| )
…
Тема 1:
Математика
вектор 0.1
базис 0.05
матрица 0.1
след 0.02
…
мяч 0.00001
Учебник по аналитической
геометрии
…
…
Тема 2:
Спорт
базис 0.0005
игра 0.25
мяч 0.1
тренировка 0.2
…
Новость по футболу
Простейшая статистическая языковая
модель – Unigram Language Model (ULM)
ULM с вектором параметров 
Документ d
Подсчет встречаемости, обучение
p(w| )
…
…
1/1000
50/1000
20/1000
10/1000
базис 0.001
игра 0.05
мяч 0.02
тренировка 0.01
базис 1
игра 50
мяч 20
тренировка 10 Всего # слов
гонка 0
= 1000
100/1000
футбол 0.1
…
…
футбол 100
…
Как оценить качество модели? Является ли данная модель хорошей?
Модель восстановленная по данному документу присваивает
наибольшую вероятность данному документу, но обобщающая
способность такой модели низкая => сглаживание (рассмотрим далее)
Оценка статистических
Evaluation языковых
of SLMs моделей
• Прямая оценка качества: Как хорошо модель предсказывает
данные, по которым она была обучена?
– Примеры: правдоподобие, perplexity, кросс энтропия,
KL-divergence (в общем и в целом все эквивалентны)
• Косвенная оценка качества: Способствует ли данная модель
повышению качества конечной задачи (перевод, поиск, ..)?
– Конкретная метрика проблемно-зависимая
– В случае IR мы смотрим на то, как данная модель повышает
качество поиска, что в свою очередь оценивается
эвристическими метриками типа (DCG, MRR, MAP, ..)
– Предпосылка данного подхода: более качественная
лингвистическая модель приводит к повышению качества
решения конечной задачи, но не факт!
Более сложные статистические языковые
модели
• N-gram модель
– Имеет вид, p(w1 w2 ... wn)=p(w1)p(w2|w1)…p(wn|w1 …wn-1);
– n-gram означает, что модель генерации зависит от
предыдущих n-1 слов;
– Например, модель на основе биграмм имеет вид
p(w1 ... wn)=p(w1)p(w2|w1) p(w3|w2) …p(wn|wn-1).
• Модели, учитывающие удаленные взаимодействия
терминов (Maximum Entropy Language Model, etc.).
• Структурные языковые модели (probabilistic contextfree grammar, PCFG).
• В случае информационного поиска используются в
большинстве случаев только Unigram Language Model.
Почему используются только языковые
модели нулевого порядка (ULM)?
• Сложность перехода к более мощным языковым
моделям:
– Требуется настраивать больше параметров => требуется
больше данных для качественной настройки (Модель,
восстановленная по 100 документам, ужасна).
– Приводят к значительным вычислительным проблемам по
времени отклика при запросе и по затратам на хранение.
• Учет структуры текста/предложений не
нужен/малоэффективен для выявления тематической
релевантности. Однако, используется активно в IE.
• Но применение более сложных моделей может и
должно привести в общем случае к повышению
качества конечных приложений, в частности поиска!
План доклада
• Базовые понятия
– Обзор моделей ранжирования
– Введение в статистические языковые модели
• Базовая модель ранжирования на основе
статистических языковых моделей
• Продвинутые модели ранжирования на основе
статистических языковых моделей
• Модель ранжирования на основе вероятностного
расстояния статистических языковых моделей
• Заключение
Базовая модель ранжирования с использованием
ULM, правдоподобие запроса (1)
Лингвистическая модель
Документ
Статья по
Байесовским
сетям
…
text ?
mining ?
inference ?
Bayes ?
…
спорт ?
…
Статья-обзор
о чемпионате
Европы 2012
…
сегодня?
матч ?
продуктивно ?
гол ?
…
Запрос
Q = “машинное обучение”
?
Какая модель наиболее
вероятно породила
данный запрос?
Базовая модель ранжирования с использованием
ULM, правдоподобие запроса (2)
LMs документов
d1
d2
d1
p(q| d1)
d2
p(q| d2)
q
p(q| dN)
…
dN
Правдоподобие запроса
dN
2 ключевых вопроса:
• Какую вероятностную модель следует использовать?
• Как эффективно вычислить di?
Различные языковые модели генерации текста
• Multi-Bernoulli: моделирует наличие/отсутствие слов
– q= (x1, …, x|V|), xi =1 если слово wi есть в документе; xi =0 если нет;
|V |
p (q  ( x1 ,..., x|V | ) | d )  p( wi  xi | d ) 
i 1
|V |

i 1, xi 1
p( wi  1| d )
|V |

i 1, xi  0
p( wi  0 | d )
– Параметры: { p(wi=1|d), p(wi=0|d)}, так что p(wi=1|d)+ p(wi=0|d) = 1.
• Мультиномиальное (ULM): моделирует частоту слов
– Q = q1,…qm , где qj есть слово из запроса
– c(wi,q) есть частота слова wi в запросе Q
– Parameters: {p(wi|d)} таковы, что p(w1|d)+… p(w|v||d) = 1.
m
|V |
j 1
i 1
p(q  q1...qm | d )  p(q j | d )   p ( wi | d )c ( wi ,q )
Большинство работ используют мультиномиальное распределение, что
показывает наилучшие результаты согласно вычислительным экспериментам.
Ключевой принцип/задача в SLM-IR
•
•
Задача поиска => Задача оценки лингвистической модели
документа p(wi|d)
В лингвистических моделях сглаживание играет ключевую
роль, что в свою очередь является ключевым фактором в
различии соответствующих ранжирующих функций.
Методы сглаживания
• Все методы сглаживания основаны на идее:
– Дисконтировать вероятность слов, существующих в
документе;
– Перераспределить “отобранную” вероятность среди слов,
несуществующих в документе.
• Лапласовское сглаживание (additive smoothing) предлагает
прибавлять единицу к частоте каждого слова и
нормализовывать.
Частота w в d
c( w, d )  1
p( w | d ) 
| d |  |V |
Лапласов фактор
Размер словаря
Длина документа d (общее число слов)
Иллюстрация идеи сглаживания LM
P(w)
Оценка по ММП
p ML ( w ) 
count of w
count of all words
Сглаженная LM
Word w
Развитие идеи: Сглаживание на основе
коллекции документов (Jelinek-Mercer)
• Правильно ли рассматривать все слова
одинаково? – Нет.
• Мы можем использовать языковую модель,
построенную на основе коллекции для
персонифицированной обработки слов.
Дисконтированная ММП оценка
if w is seen in d
 pDML ( w | d )
p( w | d )  
 d p( w | REF ) otherwise
Языковая модель коллекции
Развитие идеи: Сглаживание на основе коллекции
документов c априорным распределением (Dirichlet)
• Формально распределение Дирихле есть
, где
.
• Примечательным свойством распределения Дирихле
является его связь с мультиномиальным:
• А следовательно,
согласно Байесовскому
выводу, имеем:
Сравнение простых моделей ранжирования на основе
статистических языковых моделей
Query T yp e
Title
Long
Jelinek- M ercer
0.228
0 .2 78
D irichlet
0 .2 56
0.276
A b s. D isco unt ing
0.237
0.260
Relative performance of JM, Dir. and AD
precision
0.3
TitleQuery
0.2
LongQuery
0.1
0
JM
DIR
Method
AD
Почему сглаживание особенно важно в случае
информационного поиска?
Общая формула сглаживания
Принцип ранжирования
со сглаживанием в
общей форме
Дисконтированная оценка ММП
if w is seen in d
 pDML ( w | d )
p( w | d )  
 d p( w | REF ) otherwise
ULM коллекции
log p (q | d )   c( w, q ) log p ( w | d )

wV

wV ,c ( w , d )  0

 c(w, q) log 
wV ,c ( w , d )  0
d
p ( w | REF )

c( w, q ) log pDML ( w | d )   c( w, q ) log  d p ( w | REF ) 

c( w, q ) log
wV ,c ( w , d )  0

c( w, q ) log pDML ( w | d ) 
wV ,c ( w , d )  0
wV
 c(w, q) log 
wV ,c ( w , d )  0
pDML ( w | d )
 | q | log  d   c( w, q ) log p ( w | REF )
 d p ( w | REF )
wV
d
p ( w | REF )
Сравнение с классическими эвристиками
информационного поиска
TF вес
log p(q | d ) 

Нормализация длины документа
(длинные документы дисконтируются меньше)
c( w, q) log
wV ,c ( w, d ) 0
c ( w, q )  0
Суммирование по
словам из запроса и
документа
pDML ( w | d )
 | q | log  d   c( w, q) p( w | REF )
 d p( w | REF )
wV
IDF-дисконтирование
Не важно для
ранжирования
• Сглаживание коллекцией p(w|C) есть TFIDF + норм. длины, а
следовательно сглаживание есть реализация классических
эвристик информационного поиска.
• SLM-IR с простым сглаживанием может быть также эффективно
вычислена, как и классические модели ранжирования.
Двустадийное сглаживание (Dirichlet + Jelinek-Mercer)
Стадия 1
Сглаживание пропущенных
слов по-байесовски

Стадия 2
Моделирование шума в запросе

LM коллекции
Языковая модель пользователя
(аппроксимация по коллекции p(w|C))
План доклада
• Базовые понятия
– Обзор моделей ранжирования
– Введение в статистические языковые модели
• Базовая модель ранжирования на основе
статистических языковых моделей
• Продвинутые модели ранжирования на основе
статистических языковых моделей
• Модель ранжирования на основе вероятностного
расстояния статистических языковых моделей
• Заключение
Перечень продвинутых моделей
ранжирования на основе SLM
• Языковые модели, учитывающие интеракции
терминов и структуру запросов (n-gram, PCFG)
• Кластерное сглаживание (cosine, LDA, PLSI)
• Транслитерационная модель (семантическое
сглаживание, кросс-языковое сглаживание)
• Модель на основе полного Байесовского вывода
• Модель, моделирующая шум в запросе на основе
смеси распределений (определение информативных
и неинформативных терминов в запросе)
Перечень продвинутых моделей
ранжирования на основе SLM
• Языковые модели, учитывающие интеракции
терминов и структуру запросов (n-gram, PCFG)
• Кластерное сглаживание (cosine, LDA, PLSI)
• Транслитерационная модель (семантическое
сглаживание, кросс-языковое сглаживание)
• Модель на основе полного Байесовского вывода
• Модель, моделирующая шум в запросе на основе
смеси распределений (определение информативных
и неинформативных терминов в запросе)
Языковые модели с “длинным” горизонтом
• Учитывают последовательные интеракции терминов в
запросе:
• Учитывают структуру запроса и документа:
• Данные модели не приводят к значительному повышению
качества поиска, так как:
– Требуется настройка колоссального числа параметров;
– Эффект от моделирования последовательности слов в
запросе не значителен и учитывается косвенно в ULM.
Кластерное сглаживание (1)
• Идея:
– Кластеризовать документы и сгладить языковую
модель документа на основе языковой модели
соответствующего кластера документов.
• Согласно экспериментам данный подход не
приводит к значимому увеличению качества.
• Причина: жесткая кластеризация и неудачная
настройка параметров приводят к тому, что модель
дисконтирует ключевые слова из данного кластера.
Кластерное сглаживание - Dirichlet (2)
• Предпосылка:
– Коллекция документов состоит из k тем.
– Каждый кластер представляется как нечеткое
распределение на множестве тем.
• По результатам экспериментов данный подход явно
показывает положительный эффект от кластерного
сглаживания.
• Однако, данный подход не используется на практике для
больших коллекций из-за трудоемкости построения LDA для
больших коллекций.
Кластерное сглаживание – центрирование
на документах (3)
• Что делать если документ находится на границе
кластеров?
• Осуществляем сглаживание на основе соседей.
Транслитерационная языковая модель
ранжирования
• Мотивация:
– Все рассмотренные модели осуществляют поиск на основе
слов непосредственно указанных в запросе. Теряем ли мы
часть важных документов при этом? – Да.
• Транслитерационная модель учитывает семантические связи
между словами в запросе и документах
m
p (Q | D, R )  

i 1 w j V
pt (qi | w j ) p ( w j | D )
Транслитерационная модель
Обычная LM
• Позволяет увеличить качество поиска значительно (полнота),
но в свою очередь возникают новые вопросы, связанные с
обучением транслитерационной модели и эффективностью
исполнения запросов.
План доклада
• Базовые понятия
– Обзор моделей ранжирования
– Введение в статистические языковые модели
• Базовая модель ранжирования на основе
статистических языковых моделей
• Продвинутые модели ранжирования на основе
статистических языковых моделей
• Модель ранжирования на основе вероятностного
расстояния статистических языковых моделей
• Заключение
Модель ранжирования на основе вероятностного
расстояния статистических языковых моделей
• Мотивация:
– Модели ранжирования на основе близости документов и
вероятностных методов генерации документов легко
позволяют учитывать обратную связь по предпочтениям
пользователей.
– Модели на основе правдоподобия запроса (на основе
статистических языковых моделей) не позволяют легко
учитывать данную информацию.
• Подход:
– Аналогично векторной модели ранжирования мы
представим документ и запрос в одном пространстве
(теперь вероятностном) и определим меру близости для
оценки релевантности.
Обратная связь в классической векторной модели
ранжирования
Релевантные документы
Новый
запрос
Нерелевантные
документы
Исходный
запрос
- -
++
+++
-
+
++ +
-
q
+
+
+ + +
+ + +
-
-
-
--
-
q
+
-
-
-
-
-
-
- -- --
Обратная связь в моделях на основе вероятностного
принципа ранжирования
Генерация документов: O( R  1| Q, D) 
P( D | Q, R  1)
P( D | Q, R  0)
Правдоподобие запроса
O( R  1| Q, D)  P(Q | D, R  1)
(языковая модель):
(q1,d1,1)
(q1,d2,1)
(q1,d3,1)
P(D|Q,R=1)
(q1,d4,0)
(q1,d5,0)
P(D|Q,R=0)
(q3,d1,1)
(q4,d1,1)
(q5,d1,1)
(q6,d2,1)
(q6,d3,0)
P(Q|D,R=1)
Релевантные док.
Нерелевантные док.
Модель “релевантных”
запросов
Прямой запрос:
- P(Q|D,R=1) языковая модель
достигает лучшего качества.
Обратная связь:
- P(D|Q,R=1) улучшаема для данного
запроса и новых документов
- P(Q|D,R=1) улучшаема, но для
новых запросов и данного
документа.
Модель ранжирования на основе вероятностного
расстояния статистических языковых моделей
• Компоненты:
– Модель представления: статистическая языковая
модель;
– Функция близости: KL-расстояние.
Не важно для
ранжирования
Связь с базовой моделью на основе правдоподобия
запроса
• ММП оценка языковой модели запроса имеет вид:
• Выпишем формулу ранжирования документов на
основе KL-расстояния:
Модель учета обратной связи
Документ D
D
D( Q ||  D )
Запрос Q
Q
 Q '  (1   ) Q  F
Модель обратной
связи
F
Алгоритм разделения
смеси
Поисковая
выдача
Обратная связь
F={d1, d2 , …, dn}
План доклада
• Базовые понятия
– Обзор моделей ранжирования
– Введение в статистические языковые модели
• Базовая модель ранжирования на основе
статистических языковых моделей
• Продвинутые модели ранжирования на основе
статистических языковых моделей
• Модель ранжирования на основе вероятностного
расстояния статистических языковых моделей
• Заключение
Сравнение классических моделей ранжирования и
на основе статистических языковых моделей
• Преимущества:
– Теоретическое обоснование (понятная настройка параметров,
обоснованные вероятностные предположения, обобщает
существующие подходы).
– Расширяема для специальных задач (тематики, поиск отзывов..).
– Масса исследований в смежных областях (NLP, сигналы,..).
– Достигает превосходного качества ранжирования и сравнима,
либо доминирует классические модели ранжирования.
– Позволяет учитывать обратную связь о релевантности
документов.
• Недостатки:
– Требует задание генеративного подхода (трудно оценить).
– Вычислительно более дорогостоящая для достижения схожего
качества ранжирования.
Статистические языковые модели в
информационном поиске – status quo
• Теоретическое обоснование применения языковых
моделей в поиске.
• Эмпирически модели данного семейства показывают
превосходное качество в задаче ранжирования:
– Базовая модель ранжирования с сглаживанием по Дирихле
– Базовая модель ранжирования + предметные априорные
оценки релевантности документов (URL, PageRank,..).
– Транслитерационная модель учитывает семантические
связи между словами одного и разных языков.
– Модель с KL-расстоянием – наилучший способ учесть
обратную связь о релевантности документов.
– Продвинутые модели (смеси распределений, байесовский
вывод) демонстрируют как можно расширять модель.
• Полностью автоматическая настройка параметров.
Спасибо за внимание!
• Никита Спирин, PhD candidate
• University of Illinois at Urbana-Champaign,
Department of Computer Science
• Московский Физико-Технический Институт,
Факультет Управления и Прикладной Математики
nikita.spirin@phystech.edu
spirin2@illinois.edu
Skype: spirinus
Download