Кластеризация • Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести. Кластеризация или классификация? • Кластеризация разбивает множество объектов на группы, которые определяются только ее результатом. • Классификация относит каждый объект к одной из заранее определенных групп. Выбор свойств, характеризующих объекты: • количественные характеристики (координаты, интервалы…); • качественные характеристики (цвет, статус, воинское звание…). Где можно использовать кластеризацию? КЛАСТЕРИЗАЦИЯ НОВОСТЕЙ. • Состав ключевых слов, определяющих конкретное событие, должен быть одинаков. Документы за какой промежуток времени мы смотрим? • Временное окно нужно большое. Многие издания могут запаздывать не на часы, а на целые дни при публикации новостей, посвященных определенному событию. Как сравнивать? • В качестве меры подобия нужно использовать не просто набор ключевых слов, а так называемый фокус события. Что такое фокус события? • ФОКУС СОБЫТИЯ - Совокупность объектов, каким-либо образом взаимодействующих в новости, и их тематического окружения (синонимов, описаний, дополнений объектов и других параметров, характеризующих рассматриваемое событие). Фокус события • Кто? В событии участвует не более двух главных объектов, остальные второстепенные. • Когда? Определяется временем публикации новости о событии. • Где? Определяется названием местности (тематическое окружение – названия) • Что произошло? Описание события - ключевые слова, определяющие характер события (тематическое окружение - существительные) • Как? Ключевые слова, дающие представление о действиях, происшедших в событии (тематическое окружение - глаголы) Фокус события • Значение и влияние. Здесь могут быть второстепенные объекты и их тематическое окружение. • Для чего он нужен? • Создание осмысленной аннотации новости наиболее информативной частью любой новости будут предложения, которые содержат вместе как извлеченные объекты, так максимальное количество ключевых слов из тематического окружения события. • Определение дублей одной и той же новости - фокус, состоящий из набора ключевых слов и входящих в несколько новостей идентичного содержания, будет совпадать, что позволит фильтровать дубли. 1. Сегментация статей - задача разделения непрерывного потока на новости, связанные одним и тем же событием. 2. Отслеживание новостной дорожки нахождение всех новостей, которые “похожи” на множество эталонных новостей. Используется для отлова всех потенциально интересных документов по теме, которые могут появиться в будущем. 3. Определение дорожки - кластеризация всех новостей, порожденных конкретным событием. 4. Определение первой новости в дорожке -для нахождения самого первого сообщения в новом событии. 5. Определение связей (Link Detection) - позволяет определить, порождены ли две новости одним и тем же событием. • Используем словари и тезаурусы ля группировки словоформ в группы синонимов