Отбор тем в вероятностных тематических моделях

Реклама
Цели и задачи
Метод решения
Эксперименты
Отбор тем в вероятностных тематических
моделях
Плавин Александр
Московский физико-технический институт
Факультет управления и прикладной математики
Кафедра интеллектуальных систем
Научный руководитель д.ф-м.н. К. В. Воронцов
23 июня 2015 года
Результаты
Цели и задачи
Метод решения
Эксперименты
План
1
Цели и задачи
Задача тематического моделирования
Проблема определения числа тем
2
Метод решения
3
Эксперименты
Набор данных
Результаты
4
Результаты
Результаты
Цели и задачи
Метод решения
Эксперименты
Результаты
Задача выявления тем в коллекции документов
Дано:
Коллекция текстовых документов: ndw — число вхождений
слова w ∈ W в документ d ∈ D. Каждое вхождение каждого
слова порождается некоторой неизвестной темой.
Цели и задачи
Метод решения
Эксперименты
Результаты
Задача выявления тем в коллекции документов
Найти:
T — множество тем,
распределения:
Θ ≡ {θtd } ≡ {p(t|d)} — тем в документах,
Φ ≡ {φwt } ≡ {p(w |t)} — слов в темах,
такие, что:
X
p(t|d)p(w |t).
p̂(w |d) ≈ p(w |d) =
t∈T
Решение: PLSA
Максимизация правдоподобия:
!ndw
Y
Y X
L (Φ, Θ) =
p(w |d)ndw =
θtd φwt
→ max
d∈D,w ∈d
d,w
t∈T
Φ,Θ
Цели и задачи
Метод решения
Эксперименты
Результаты
Проблема определения числа тем
Число тем — задаваемый извне параметр.
Важен для интерпретируемости:
Задано мало тем ⇒ различные темы сливаются вместе.
Задано много тем ⇒ появляются дубликаты, комбинации
уже имеющихся.
HDP — иерархические процессы Дирихле — популярный подход
к определению числа тем.
Однако,
введение дополнительных требований к модели
затруднено,
число тем определяется им неустойчиво.
Цели и задачи
Метод решения
Эксперименты
Базовый метод: ARTM
Подход ARTM (аддитивная регуляризация тематических
моделей) — максимизация регуляризованного логарфима
правдоподобия:
ln L (Φ, Θ) +
X
τi Ri (Φ, Θ) → max .
i
Φ,Θ
Здесь:
Ri (Φ, Θ) — регуляризаторы, задающие дополнительные
требования к модели,
τi — коэффициенты регуляризации, устанавливающие
баланс между этими требованиями.
Результаты
Цели и задачи
Метод решения
Эксперименты
Результаты
Обучение модели: EM-алгоритм
E-шаг — формула Байеса:
p(t|d, w ) ∝ p(w |t)p(t|d) = φwt θtd
M-шаг — принцип максимума правдоподобия:
X
∂R
, где nwt =
ndw p(t|d, w )
φwt ∝ nwt + φwt
∂φwt +
d∈D
θtd
∂R
∝ ntd + θtd
,
∂θtd +
где ntd =
X
w ∈W
ndw p(t|d, w )
Цели и задачи
Метод решения
Эксперименты
Результаты
Предлагаемый метод: регуляризатор в ARTM
Будем максимизировать расстояние (KL-дивергенцию) между
равномерным распределением pU (t) =
R(Φ, Θ) = KL (pU kp) = KL
1
|T |
и модельным p(t):
!
1 nd
X
θtd
.
|T | n
d
Формулы M-шага:
φwt ∝ nwt ,
θtd
n 1
∝ ndt 1 − τ
|T | nt +
Цели и задачи
Метод решения
Эксперименты
Результаты
Набор данных
Исходная коллекция:
1 ):
Статьи с конференции NIPS (обозначим ndw
|D| = 1740, |W | ≈ 1.3 · 104 , n ≈ 2.3 · 106 .
Синтетические данные:
1 с 50
На основе сгенерированной простой модели коллекции ndw
темами:
0
ndw
= nd · p(w |d) ≡ nd · (ΦΘ)wd .
Параметрическое семейство смешанных данных:
α = αn1 + (1 − α)n0 —
Для α ∈ [0, 1] определим ndw
dw
dw
смешанные данные.
Цели и задачи
Метод решения
Эксперименты
Результаты
Определение истинного числа тем
Получаемое число тем при различных значениях параметра α
и коэффициента регуляризации τ :
100
Параметр α
0
0.25
0.5
0.75
1
Число тем
75
50
25
0
0.00
0.25
0.50
0.75
Коэффициент регуляризации, τ
1.00
Цели и задачи
Метод решения
Эксперименты
Результаты
Устойчивость получаемых значений
400
Число тем
Число тем
75
300
200
50
25
100
0
0.25
0.5
1.0
0.50
1.5
Количество запусков
Количество запусков
40
20
0
0
5
10
Разброс
(a) HDP
0.75
1.00
τ
Параметр η
15
600
400
200
0
0
5
10
Разброс
(b) ARTM
15
Цели и задачи
Метод решения
Эксперименты
Удаление линейно зависимых тем
Данные:
0 + добавленные линейные
Синтетическая коллекция ndw
комбинации тем.
Выбран оптимальный коэффициент регуляризации τ .
Число тем
100
Всего
Исходные
Комбинации
75
50
25
0
0
100
200
Итерации ARTM
Результаты
Цели и задачи
Метод решения
Эксперименты
Результаты
Доля исходных тем
в конце
Удаление линейно зависимых тем
1.00
0.75
0.50
Тем в комбинации
1
2
5
20
0.25
0.00
0.4
0.5
0.6
0.7
0.8
Доля исходных тем в начале
Цели и задачи
Метод решения
Эксперименты
Результаты
Время работы
100
Время, сек
Время, сек
2.0
75
50
25
0
1.5
1.0
0.5
0.0
0
100
200
Число тем
(c) HDP
300
0
100
200
300
400
500
Число тем
(d) ARTM
Например, при 200 темах и 500 итерациях прирост скорости
около 100 раз: 7 часов для HDP против 4.5 минут для ARTM.
Цели и задачи
Метод решения
Эксперименты
Результаты
Результаты, выносимые на защиту
Предложен регуляризатор последовательного отбора тем
для модели ARTM.
Показано, что он определяет число тем намного
устойчивее и значительно быстрее, по сравнению со
стандартным методом HDP.
Показано, что он удаляет в первую очередь комбинации
тем и расщеплённые темы.
Показано, что он позволяет определять истинное число
тем, если оно существует.
Цели и задачи
Метод решения
Эксперименты
Результаты
Публикации
Плавин А.В. Оптимизация числа тем в вероятностных
тематических моделях с помощью регуляризатора
строкового разреживания // Конференция МФТИ, 2014.
Плавин А.В. Отбор тем в вероятностных тематических
моделях // Ломоносов-2015, МГУ.
Vorontsov K. V., Potapenko A. A., Plavin A. V. Additive
Regularization of Topic Models for Topic Selection and Sparse
Factorization // The Third International Symposium On
Learning And Data Sciences (SLDS 2015). April 20-22, 2015.
Royal Holloway, University of London, UK.
Скачать