Методичка Классификация и кластеризация текстовых

advertisement
Практическая работа 5-6
Тема. Классификация и кластеризация текстовых документов
Так сложилось, что чаще всего решаемая в Text Mining задача — это классификация,
т.е. отнесение объектов базы данных к заранее определенным категориям. Фактически
задача классификации — это вариант классической задачи распознавания, когда система
по обучающей выборке относит новый объект к той или иной категории. Особенность же
системы Text Mining состоит лишь в том, что количество таких объектов и их атрибутов
может быть очень большим; поэтому должны быть предусмотрены интеллектуальные
механизмы оптимизации процесса классификации. В существующих сегодня системах
классификация применяется, например, для решения таких задач, как группировка
документов в intranet-сетях и на Web-сайтах, размещение документов в определенные
папки, сортировка сообщений электронной почты, избирательное распространение
новостей подписчикам и пр.
Кластеризация состоит в выделении компактных подгрупп объектов с близкими
свойствами. Система должна самостоятельно найти признаки и разделить объекты по
подгруппам. Решение этой задачи, как правило, предшествует задаче классификации,
поскольку позволяет определить группы объектов. Различают два основных типа
кластеризации — иерархическую и бинарную (двоичную). Иерархическая кластеризация
заключается в построении дерева кластеров, в каждом из которых размещается
небольшая группа документов. Двоичная кластеризация обеспечивает группировку и
просмотр документальных кластеров по ссылкам подобия. В один кластер помещаются
самые близкие по своим свойствам документы. В процессе кластеризации строится базис
ссылок от документа к документу, основанный на весах и совместном употреблении
определяемых ключевых слов. Сегодня кластеризация широко применяется при реферировании больших документальных массивов или определении взаимосвязанных групп
документов, а также для упрощения процесса просмотра при поиске необходимой
информации, для нахождения уникальных документов из коллекции, для выявления
дубликатов или очень близких по содержанию документов.
Большинство известных информационно-поисковых систем и систем классификации
информации в той или иной мере основываются на использовании векторной модели
описания данных (Vector Space Model). Векторная модель является классической
алгебраической моделью. В рамках этой модели документ описывается вектором в
некотором евклидовом пространстве, в котором каждому используемому в документе
терму ставится в соответствие его весовой коэффициент (значимость), который
определяется на основе статистической информации о его вхождении в отдельном
документе или в документальном массиве. Описание запроса, который соответствует
необходимой пользователю тематике, также представляет собой вектор в том же
евклидовом пространстве термов. В результате для оценки близости запроса и документа
используется скаляр'ное произведение соответствующих векторов описания тематики и
документа.
5.4. Группировка текстовых данных
Модели представления данных обладают общим недостатком, связанным с большой
размерностью как векторного пространства (векторная модель), так и множества (булева
модель). Для обеспечения эффективной работы необходимо сгруппировать как
подмножества термов, так и тематически подобные документы. Только в этом случае
может быть обеспечена обработка информационных массивов в режиме реального
времени. В этом случае на помощь приходят два основных приема группировки —
классификация и кластеризация. Здесь классификация — это отнесение каждого
документа к определенному классу с заранее известными признаками, полученными на
этапе обучения. Число классов строго ограничено.
Тематические каталоги, построенные с участием людей (например, Yahoo! или Open
Directory), приводят к естественному вопросу: а не могут ли подобные каталоги быть
построены автоматически? Один из путей решения этой проблемы — кластеризация, т.е.
автоматическая группировка тематически близких документов.
При кластеризации гипертекстовых документов возникают некоторые осложнения,
связанные с множественностью выбора алгоритмов кластеризации. Разные алгоритмы
используют различные алгоритмы подобия при наличии большого количества признаков.
Гипертекст достаточно богат возможностями: текстовые блоки, теги разметки, URLадреса, имена доменов в URL, подстроки в URL, которые могут быть значащими словами,
и т.д. Как в этом случае определить меру подобия таким образом, чтобы достичь хорошей
кластеризации?
Как только класс определен методом кластеризации, возникает необходимость его
сопровождения, так как Сеть постоянно изменяется и растет. В этом случае на помощь
приходит классификация. Механизм классификации сначала обучается на основе
выявления признаков документов, которые соответствуют определенным темам. На этой
стадии определяются корреляции между отдельными признаками, после чего механизм
становится способен классифицировать новые документы.
Классификация и кластеризация представляют собой две противоположные крайности
в отношении человеческого участия в процессе группировки документов.
Механизм классификации обычно обучается на отобранных документах только после
того, как заканчивается стадия автоматического выявления классов (кластеров).
Кластеризация — это разбиение множества документов на кластеры, представляющие
собой подмножества, смысловые параметры которых заранее неизвестны. Количество
кластеров может быть произвольным или фиксированным. Если классификация
предполагает приписывание документам определенных, известных заранее признаков, то
кластеризация — это более сложный процесс, который предполагает не только
приписывание некоторых признаков, но и выявление самих этих признаков-классов.
Итак, основная идея современных методов кластеризации — снижение /размерности
пространства признаков, по которым происходит классификация документов. В то время
как классификация документов заключается в автоматическом определении тематики
документа по заданному множеству возможных тематик, задачей кластеризации
документов является автоматическое выявление групп семантически подобных
документов. Однако, в отличие от классификации, тематическая ориентация этих групп не
задана заранее. Иными словами, цель кластеризации некоторого множества документов
состоит в выделении подмножеств (кластеров), где все документы, попавшие в один
кластер, в определенном смысле будут близки друг другу. Иначе говоря, кластер можно
рассматривать как группу документов со схожими признаками. Цель всех методов
кластеризации заключается в том, чтобы схожесть документов, попадающих в кластер,
была максимальной, семантической.
Числовые методы кластеризации базируются на определении кластера как множества
документов, 1) значения семантической близости между любыми двумя элементами
которого не меньше определенного порога или 2) значения близости между любым
документом множества и центроидом этого множества не меньше определенного порога.
Под центроидом кластера в этом случае понимается вектор, который вычисляется как
среднее арифметическое векторов всех документов кластера. Нечисловые семантические
методы кластеризации не накладывают таких ограничений на кластеры, однако в
результате применения большинства семантических методов в полученных множествах
приведенные условия близости, как правило, выполняются.
Начальным пространством признаков обычно является пространство термов, которое
сжимается в результате анализа большого массива документов. Для проведения такого
анализа используются различные подходы — весовой, вероятностный, семантический и
т.д., определяющие правила классификации.
В области информационного поиска кластеризация применяется для решения двух
задач — группировки документов и результатов поиска.
При использовании векторно-пространственной модели представлений данных в
информационно-поисковых системах всегда актуальна задача снижения размерности, что
должно повысить скорость обработки и выполнения быстрого поиска по заданному
векторному образу запроса релевантных ему векторных представлений документов. Если
разбить все множество документов на кластеры, содержащие семантически близкие друг
другу документы, то можно реализовать следующую процедуру: сравнить образ запроса с
центроидами ("типичными представителями" — осредненными значениями векторов из
кластера), выбрать кластеры, центроиды которых наиболее близки запросу, после чего
сравнить запрос со всеми документами в выбранных кластерах.
Таким образом, процедурно все множество документов разбивается на несколько
кластеров, каждый из которых содержит множество близких друг другу документов, и
для каждого кластера находится центроид — документ, образ которого расположен
наиболее близко к геометрическому центру кластера. В этом случае поиск по запросу
разбивается на два этапа. Вначале запрос сопоставляется с центроидами всех кластеров и
определяются кластеры, образы центроидов которых наиболее близки образу запроса.
Далее поиск проводится исключительно в выбранных кластерах.
5.4.1. Кластеризация
В результате выполнения поисковой процедуры пользователю предъявляются списки
документов, как правило, упорядоченные по убыванию соответствия запросу. В
результате неизбежных неточностей при ранжировании результатов поиска, такой вид
представления не всегда оказывается удобным.
И тогда на помощь приходит кластеризация результатов поиска, которая позволяет
представить полученные результаты в обобщенном виде, что упрощает выделение
области, соответствующей информационным потребностям пользователя.
В этом случае используют два класса методов кластеризации — иерархический и
неиерархический. Наиболее популярны сегодня методы иерархической кластеризации,
которые благодаря своей простоте широко применяются в современных
информационных системах.
При иерархической кластеризации (снизу вверх либо сверху вниз) формируется дерево
кластеров. При иерархической кластеризации снизу вверх два документа, попавшие в
один кластер, будут принадлежать одному и тому же кластеру и на более высоких
уровнях иерархии. При использовании кластеризации сверху вниз документы, попавшие
в различные кластеры, будут принадлежать различным кластерам на более низких
иерархических уровнях. Иначе говоря, принятое один раз решение о принадлежности
документов одному (кластеризация снизу вверх) или разным (кластеризация сверху вниз)
кластерам в дальнейшем не пересматривается, что обеспечивает вычислительную
простоту и эффективность метода.
Методы неиерархической кластеризации обеспечивают качественную кластеризацию
за счет более сложных алгоритмов. Для этих методов, как правило, имеется некоторая
пороговая функция качества кластеризации, максимизация которой достигается за счет
распределения документов между отдельными кластерами.
5.4.2. Тематическая близость
Теоретически предполагается, что тематика документа определяется его словарным
запасом, а тематическая близость термов характеризуется тем, насколько часто эти термы
используются в документах одной и той же тематики. Отметим, что это не всегда
подразумевает обязательное использование этих термов в одних и тех же документах.
1. Алгоритм SOPHIA
Алгоритм SOPHIA обеспечивает разбиение множества документов на узкие по смыслу
кластеры. Он состоит из следующих шагов:
Шаг 1. Выявление узких контекстов.
Для каждого слова из словаря коллекции на основе анализа вероятностного распределения
контекста слова вычисляется энтропия, которая тем больше, чем более
общеупотребительным является слово. Выбирая слова с наименьшей энтропией, мы
получаем наименее общеупотребительные, "тяжелые" слова, которые и задают узкие
контексты. При выявления слов с узкими контекстами можно рассматривать всю
коллекция документов или некоторую ее часть. Также можно выбросить из рассмотрения
некоторое подмножество слов общего словаря коллекции. Найденные узкие контексты
далее рассматриваются как подтемы, представленные в коллекции документов. Обычно
для специализированных коллекций в несколько сот тысяч документов формируется 1000
и более таких подтем.
Шаг 2. Кластеризация документов.
Для построения кластеров вычисляются расстояния между всеми документами и
найденными ранее узкими контекстами, причем расстоянием является дивергенция
Jensen-Shannon между вероятностными распределениями контекстов слов и документов.
При проведении жесткой кластеризации для каждого документа определяется
единственный ближайший к нему узкий контекст. Возможно проведение мягкой
кластеризации, при которой документ направляется в несколько кластеров.
Построенная система кластеров используется для обеспечения семантического поиска по
коллекции заданных документов. При этом в ответ могут входить документы, не
содержащие в себе слов из запроса.
Тематическая близость между первым и вторым документом определяется по формуле:
N
T
 ( Pi  K i )
n 1
2
,
N
где Pi – частота встречаемости i-го слова в первом документе,
где Ki – частота встречаемости i-го слова во втором документе.
Порядок выполнения:
1. Отобрать ряд документов для анализа
2. Выполнить предварительную обработку документов
3. Определить частоты вхождения слов в документы
4. Построить матрицу тематической близости документов
5. Разделить документы на кластеры по матрице тематической близости
Download