Internet Studies Lab, Department of Applied Mathematics and Business Informatics TOPIC MODELING IN ORANGE Анализ баз данных в публичном управлении Кольцов С.Н. Saint Petersburg, 15.10.2018 Internet Studies Lab, Department of Applied Mathematics and Business Informatics Введение в историю возникновения Topic modeling Тематическое моделирование — это одно из современных направлений статистического анализа текстов (и не только), активно развивающееся с конца 90-х годов. Вероятностная тематическая модель (probabilistic topic model) коллекции текстовых документов предполагает, что документы и слова в коллекции можно представить в виде комбинации распределений по темам. В ORANGE реализованы три модели: 1. Латентно-семантический анализ (Latent Semantic Analysis) 2. LDA (классический вариант) 3. Hierarchical Dirichlet proces Internet Studies Lab, Department of Applied Mathematics and Business Informatics Latent Semantic Analysis Internet Studies Lab, Department of Applied Mathematics and Business Informatics Латентно-семантический анализ (Latent Semantic Analysis) Internet Studies Lab, Department of Applied Mathematics and Business Informatics Латентное размещение Дирихле (LDA) Internet Studies Lab, Department of Applied Mathematics and Business Informatics Результат: распределение слов по темам Каждая колонка это распределение слов. Соответственно просматривая эти колонки можно выбрать нужны темы для анализа. Internet Studies Lab, Department of Applied Mathematics and Business Informatics Результат: распределение документов по темам Каждая колонка это распределение документов. Соответственно просматривая эти колонки можно выбрать нужны темы для анализа Internet Studies Lab, Department of Applied Mathematics and Business Informatics Латентное размещение Дирихле (LDA) Internet Studies Lab, Department of Applied Mathematics and Business Informatics Hierarchical Dirichlet process Пусть некоторый китайский ресторан имеет неограниченное (счетное) количество столов. В него по очереди заходят M клиентов. Первый клиент садится за первый стол. Очередной клиент с номером m выбирает стол согласно распределению: Здесь a - так называемый концентрационный параметр процесса Internet Studies Lab, Department of Applied Mathematics and Business Informatics Hierarchical Dirichlet process Таким образом, если клиент садится за занятый стол, то с большей вероятностью он занимает стол с большим количеством клиентов, с каждым клиентом уменьшается вероятность занять новый стол. Процесс китайского ресторана можно расширить до вложенного процесса китайского ресторана [11]. Пусть в городе имеется бесконечное (счетное) число ресторанов. Каждый стол в ресторане содержит ссылку на другой ресторан. Пусть имеется один корневой ресторан, и в каждый ресторан ведет только одна ссылка. Таким образом, получается древовидная структура ресторанов. Клиент прибывает в город на L дней. В первый вечер посещает корневой ресторан, выбирая стол. На следующий день он идет в ресторан, определенный выбранным в корневом ресторане столом, снова выбирает стол. Каждый день клиент посещает один из ресторанов. Таким образом, он посетит L ресторанов. После того, как город посетят M клиентов, коллекция их путей по ресторанам будет представлять конечное поддерево глубины L бесконечного дерева ресторанов. Полученное дерево может быть использовано для моделирования иерархии тем. В модели иерархического скрытого размещения Дирихле каждому ресторану из процесса китайского ресторана соответствует тема. Internet Studies Lab, Department of Applied Mathematics and Business Informatics Hierarchical Dirichlet process Описанная модификация расширяет модель LDA, добавляя возможность существования неограниченного количества тем. Однако количество тем, описывающих один документ, по-прежнему постоянно и равно L. Авторы данной модели утверждают, что модель может угадывать оптимальное число тем. Internet Studies Lab, Department of Applied Mathematics and Business Informatics Hierarchical Dirichlet process Однако, тесты показывают, что данная модель автоматически не угадывает число тем в размеченном датасете. https://linis.hse.ru/ Phone: +7 (911) 981 9165 Email: [email protected]