Uploaded by 2020gigabyte2020

TopicModeling seminar (1)

advertisement
Internet Studies Lab, Department of Applied
Mathematics and Business Informatics
TOPIC MODELING IN
ORANGE
Анализ баз данных в публичном управлении
Кольцов С.Н.
Saint Petersburg, 15.10.2018
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Введение в историю возникновения Topic modeling
Тематическое моделирование — это одно из современных направлений статистического
анализа текстов (и не только), активно развивающееся с конца 90-х годов. Вероятностная
тематическая модель (probabilistic topic model) коллекции текстовых документов
предполагает, что документы и слова в коллекции можно представить в виде комбинации
распределений по темам.
В ORANGE реализованы три модели:
1. Латентно-семантический анализ (Latent Semantic Analysis)
2. LDA (классический вариант)
3. Hierarchical Dirichlet proces
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Latent Semantic Analysis
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Латентно-семантический анализ
(Latent Semantic Analysis)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Латентное размещение Дирихле (LDA)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Результат: распределение слов по темам
Каждая колонка это распределение слов. Соответственно просматривая эти колонки можно выбрать
нужны темы для анализа.
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Результат: распределение документов по темам
Каждая колонка это распределение документов. Соответственно просматривая эти колонки можно
выбрать нужны темы для анализа
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Латентное размещение Дирихле (LDA)
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Hierarchical Dirichlet process
Пусть некоторый китайский ресторан имеет неограниченное (счетное) количество столов. В
него по очереди заходят M клиентов. Первый клиент садится за первый стол. Очередной
клиент с номером m выбирает стол согласно распределению:
Здесь a - так называемый
концентрационный
параметр процесса
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Hierarchical Dirichlet process
Таким образом, если клиент садится за занятый стол, то с большей вероятностью он
занимает стол с большим количеством клиентов, с каждым клиентом уменьшается
вероятность занять новый стол.
Процесс китайского ресторана можно расширить до вложенного процесса китайского
ресторана [11]. Пусть в городе имеется бесконечное (счетное) число ресторанов. Каждый
стол в ресторане содержит ссылку на другой ресторан. Пусть имеется один корневой
ресторан, и в каждый ресторан ведет только одна ссылка. Таким образом, получается
древовидная структура ресторанов.
Клиент прибывает в город на L дней. В первый вечер посещает корневой ресторан, выбирая
стол. На следующий день он идет в ресторан, определенный выбранным в корневом
ресторане столом, снова выбирает стол. Каждый день клиент посещает один из ресторанов.
Таким образом, он посетит L ресторанов. После того, как город посетят M клиентов,
коллекция их путей по ресторанам будет представлять конечное поддерево глубины L
бесконечного дерева ресторанов.
Полученное дерево может быть использовано для моделирования иерархии тем. В модели
иерархического скрытого размещения Дирихле каждому ресторану из процесса китайского
ресторана соответствует тема.
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Hierarchical Dirichlet process
Описанная модификация расширяет модель LDA, добавляя возможность существования
неограниченного количества тем. Однако количество тем, описывающих один документ,
по-прежнему постоянно и равно L. Авторы данной модели утверждают, что модель может
угадывать оптимальное число тем.
Internet Studies Lab, Department of Applied Mathematics and Business Informatics
Hierarchical Dirichlet process
Однако, тесты показывают, что
данная модель автоматически не
угадывает число тем в размеченном
датасете.
https://linis.hse.ru/
Phone: +7 (911) 981 9165
Email: skoltsov@hse.ru
Download