Возможности использования локального контекста в вероятностных тематических моделях Анна Потапенко Научный руководитель: д.ф-м.н. Воронцов К.В. 26 ноября 2015 Задача предсказания контекста по слову Архитектура нейронной сети word2vec Mikolov et al. – Distributed Representations of Words and Phrases and their Compositionality, 2013. Word2vec (Skip-gram model) Вероятность предсказать слово «O» по слову «I»: exp(hwI , wO0 i) p(O|I ) = PV 0 v =1 exp(hwI , wv i) Функция потерь аддитивна по элементам выборки: E =− N X n=1 log p(On |In ) → min 0 W ,W Эффективные способы подсчета softmax: I Hierarchical softmax I Negative sampling Чем полезны обученные векторы (word embeddings): I плотные векторы небольшой размерности I близость векторов соответсвует близости слов: Вероятностная тематическая модель Дано: D — корпус документов; W — множество слов (словарь); ndw — сколько раз термин w ∈ W встретился в документе d ∈ D Найти: I ϕwt = p(w |t) — распределение слов в темах t ∈ T ; I θtd = p(t|d) — распределение тем в документах d ∈ D. Вероятностная модель порождения документа: P P p(w |d) = p(w |t) p(t|d) = ϕwt θtd t∈T t∈T Задача максимизации правдоподобия: X XX ndw log ϕwt θtd → max, d∈D w ∈d t∈T Φ,Θ Похожи ли модели PLSA и word2vec? Похожи ли модели PLSA и word2vec? I Определим «псевдо-документы»: пусть документ d, порожденный словом w содержит все слова, встречающиеся в окнах ширины k = 10 каждого вхождения слова w в коллекцию. I Тогда обе модели задаются максимизацией правдоподобия: XX L= ndw log p(w |d) → max d I Но в PLSA: p(w |d) = w P p(w |t)p(t|d), t а в word2vec: p(w |d) = exp(hw ,di) PD d=1 exp(hw ,di) Модель GloVe Обозначим pij = p(wj |wi ). I word2vec максимизирует кросс-энтропию: E =− V X V X nij log pij = − i=1 j=1 I V X i=1 ni V X p̂ij log pij = j=1 V X ni H(p̂i , pi ) i=1 GloVe максимизирует L2 норму: X E= f (nij )( wi , wj0 − log nij )2 , i,j где f (nij ) понижает веса для частых слов. Subsampling в q −5 word2vec: отбросить слово с вероятностью 1 − 10ni Jeffrey Pennington, Richard Socher, and Christopher D. Manning – GloVe: Global Vectors for Word Representation, 2014. SGNS: Skip-gram Negative Sampling Будем предсказывать, встречается ли пара wj , wi в корпусе: p = σ( wi , wj0 ) = 1 D E 1 + exp − wi , wj0 Хотим предсказывать большую вероятность для положительных примеров и маленькую для отрицательных: X L= nij log σ( wi , wj0 ) + k Ep(wk ) log σ(− wi , wk0 ), i,j где p(wk ) = nk N или p 3/4 (wk ). SGNS как разложение shifted PMI-матрицы Зависимость функционала от одной пары wj , wi : nj l = nij log σ( wi , wj0 ) + k ni log σ(− wi , wj0 ) → max N Максимум достигается при: nij N − log k wi , wj0 = log ni nj Т.е. SGNS раскладывает shifted PMI-матрицу. I SVD-разложение для PMI-матрицы, SGNS, GloVe дают похожие результаты при правильном подборе параметров. Levy et al. – Neural Word Embedding as Implicit Matrix Factorization, 2014; Improving Distributional Similarity with Lessons Learned from Word Embeddings, 2015. Направления работы: I Построение тематической модели на «псевдо-документах»: I I I I Как будут отличаться темы от обычной модели? Вероятностная интерпретация матрицы W 0 . Нужна ли регуляризация для такой задачи? Нужна ли регуляризация в модели SGNS? I Включение в модель двух типов документов аналогично мультимодальной тематической модели. I Эксперименты на коротких документах: выделение этно-нагруженных тем по сообщениям Вконтакте. I Включение pPMI-информации в виде регуляризатора когерентности, эффективная реализация на E-шаге. Задача построения тематической модели – это задача матричного разложения: Проблема: матричное разложение неединственно: ΦΘ = (ΦS)(S −1 Θ) = Φ0 Θ0 Подход аддитивной регуляризации: учесть дополнительные требования к задаче в виде аддитивных слагаемых. Направления работы: I Построение тематической модели на «псевдо-документах»: I I I I Как будут отличаться темы от обычной модели? Вероятностная интерпретация матрицы W 0 . Нужна ли регуляризация для такой задачи? Нужна ли регуляризация в модели SGNS? I Включение в модель двух типов документов аналогично мультимодальной тематической модели. I Эксперименты на коротких документах: выделение этно-нагруженных тем по сообщениям Вконтакте. I Включение pPMI-информации в виде регуляризатора когерентности, эффективная реализация на E-шаге. Мультимодальная тематическая модель Мультимодальная тематическая модель для каждой темы находит распределение на словах p(w |t), Мультимодальная тематическая модель Мультимодальная тематическая модель для каждой темы находит распределение на словах p(w |t), авторах p(a|t), временных метках p(y |t), Мультимодальная тематическая модель Мультимодальная тематическая модель для каждой темы находит распределение на словах p(w |t), авторах p(a|t), временных метках p(y |t), объектах на изображениях p(o|t), Мультимодальная тематическая модель emphМультимодальная тематическая модель для каждой темы находит распределение на словах p(w |t), авторах p(a|t), временных метках p(y |t), объектах на изображениях p(o|t), ссылках p(d 0 |t), Мультимодальная тематическая модель Мультимодальная тематическая модель для каждой темы находит распределение на словах p(w |t), авторах p(a|t), временных метках p(y |t), объектах на изображениях p(o|t), ссылках p(d 0 |t), рекламных баннерах p(b|t), Мультимодальная тематическая модель Мультимодальная тематическая модель для каждой темы находит распределение на словах p(w |t), авторах p(a|t), временных метках p(y |t), объектах на изображениях p(o|t), ссылках p(d 0 |t), баннерах p(b|t), пользователях p(u|t), Мультимодальная тематическая модель Мультимодальная тематическая модель для каждой темы находит распределение на словах p(w |t), авторах p(a|t), временных метках p(y |t), объектах на изображениях p(o|t), ссылках p(d 0 |t), баннерах p(b|t), пользователях p(u|t). Мультимодальная тематическая модель X m∈M λm X X d∈D w ∈Wm ndw ln X t∈T ϕwt θtd + n X τi Ri (Φ, Θ) → max i=1 где λm > 0, τi > 0 – коэффициенты регуляризации. Φ,Θ, Направления работы: I Построение тематической модели на «псевдо-документах»: I I I I Как будут отличаться темы от обычной модели? Вероятностная интерпретация матрицы W 0 . Нужна ли регуляризация для такой задачи? Нужна ли регуляризация в модели SGNS? I Включение в модель двух типов документов аналогично мультимодальной тематической модели. I Эксперименты на коротких документах: выделение этно-нагруженных тем по сообщениям Вконтакте. I Включение PMI-информации в виде регуляризатора когерентности, эффективная реализация на E-шаге. Этно-нагруженные темы (русские): русский, князь, россия, татарин, великий, царить, царь, иван, император, империя, грозить, государь, век, московская, екатерина, москва, (русские): акция, организация, митинг, движение, активный, мероприятие, совет, русский, участник, москва, оппозиция, россия, пикет, протест, проведение, националист, поддержка, общественный, проводить, участие, (сирийцы): сирийский, асад, боевик, район, террорист, уничтожать, группировка, дамаск, оружие, алесио, оппозиция, операция, селение, сша, нусра, турция, (американцы): американский, американка, война, россия, военный, страна, вашингтон, америка, армия, конгресс, сирия, союзный, российский, обама, войска, русский, оружие, операция, (китайцы): китайский, россия, производство, китай, продукция, страна, предприятие, компания, технология, военный, регион, производить, производственный, промышленность, российский, экономический, кнр, (норвежцы): дитя, ребенок, родиться, детский, семья, воспитанный, право, возраст, отец, воспитание, норвежский, родительский, родить, мальчик, взрослый, опека, сын, (канадцы): команда, игра, игрок, канадский, сезон, хоккей, сборная, играть, болельщик, победа, кубок, счет, забирать, хоккейный, выигрывать, хоккеист, чемпионат, шайба, (немцы): армия, война, войска, советский, военный, дивизия, немец, фронт, немецкий, генерал, борт, операция, оборона, русский, бог, победа Тематическая модель для коротких текстов I Каждое слово представляется вектором из PMI-оценок. Составляется матрица из косинусных расстояний между такими векторами. I Производится симметричное неотрицательное матричное разложение (SNMF) методом ALS. I Подбирается матрица описания документов, соответсвующая найденной матрице описания слов. Xiaohui Yan et al. – Learning Topics in Short Texts by Non-negative Matrix Factorization on Term Correlation Matrix, 2015. Направления работы: I Построение тематической модели на «псевдо-документах»: I I I I Как будут отличаться темы от обычной модели? Вероятностная интерпретация матрицы W 0 . Нужна ли регуляризация для такой задачи? Нужна ли регуляризация в модели SGNS? I Включение в модель двух типов документов аналогично мультимодальной тематической модели. I Эксперименты на коротких документах: выделение этно-нагруженных тем по сообщениям Вконтакте. I Включение PMI-информации в виде регуляризатора когерентности, эффективная реализация на E-шаге. Когерентность темы: тема хорошая, если ее слова статистически часто встречаются «рядом». TCPMI = j 10 X X j=2 i=1 log nij N , ni nj где суммирование ведется по всем парам в топ-10 слов темы. Регуляризация локального контекста: p̃tdw = ptdw nd 1 X ndw i=1 X ∂Rdi ∂Rdi [wi = w ] 1 + − psdw ∂ptdw ∂psdw s∈T Эксперимент: модель PLSA на коллекции пресс-релизов Тематическая сегментация последовательного текста по p(t|d, w ) I PLSA предполагает, что тема встречается равномерно по ходу документа. Невозможно обнаружить смены тем. I Общая лексика относится к наиболее вероятным темам дкоумента. Поэтому ключевая терминология зашумляется. Улучшение сегментации регуляризацией локального контекста I Ослабление влияния Θ – тематического профиля документа (например, сглаживанием). I Использование локальных контекстов, чтобы настроить p(t|d, w ) и фильтрация слов, не вписывающихся в контекст, в фоновые темы. Сравнение LDA и модели локальных контекстов Phi Theta contrast purity 1400 1600 0.4 1000 800 600 w 10 w 100 doc 10 5 10 15 20 Iterations count contrast purity 800 0.0 600 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0 1.0 0.8 0.6 0.4 1000 0.2 30 Theta 1200 doc 100 25 Phi 1400 Coherence Coherence 0.8 0.6 1200 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0 1800 Sparsity Perplexity Perplexity 1600 1.0 Sparsity 1800 0.2 0.0 w 10 5 w 100 10 doc 10 15 20 Iterations count doc 100 25 30 Gaussian LDA: другой способ комбинирования LDA и word2vec I I Тема – многомерное нормальное распределение над векторными представлениями слов. Документ – мультиномиальное распределение над темами. Rajarshi Das, Manzil Zaheer, Chris Dyer — Gaussian LDA for Topic Models with Word Embeddings, 2015.