Кластеризация

advertisement
Кластеризация
• Кластеризация – это автоматическое
разбиение элементов некоторого множества
(объекты, данные) на группы (кластеры) по
принципу схожести.
Кластеризация или классификация?
• Кластеризация разбивает множество
объектов на группы, которые определяются
только ее результатом.
• Классификация относит каждый объект к
одной из заранее определенных групп.
Выбор свойств, характеризующих
объекты:
• количественные характеристики
(координаты, интервалы…);
• качественные характеристики (цвет, статус,
воинское звание…).
Где можно использовать
кластеризацию?
КЛАСТЕРИЗАЦИЯ НОВОСТЕЙ.
• Состав ключевых слов, определяющих
конкретное событие, должен быть
одинаков.
Документы за какой промежуток
времени мы смотрим?
• Временное окно нужно большое.
Многие издания могут запаздывать не
на часы, а на целые дни при
публикации новостей, посвященных
определенному событию.
Как сравнивать?
• В качестве меры подобия нужно
использовать не просто набор
ключевых слов, а так называемый
фокус события.
Что такое фокус события?
• ФОКУС СОБЫТИЯ - Совокупность
объектов, каким-либо образом
взаимодействующих в новости, и их
тематического окружения (синонимов,
описаний, дополнений объектов и
других параметров, характеризующих
рассматриваемое событие).
Фокус события
• Кто? В событии участвует не более двух главных
объектов, остальные второстепенные.
• Когда? Определяется временем публикации новости
о событии.
• Где? Определяется названием местности
(тематическое окружение – названия)
• Что произошло? Описание события - ключевые
слова, определяющие характер события
(тематическое окружение - существительные)
• Как? Ключевые слова, дающие представление о
действиях, происшедших в событии (тематическое
окружение - глаголы)
Фокус события
• Значение и влияние. Здесь могут быть
второстепенные объекты и их тематическое
окружение.
• Для чего он нужен?
• Создание осмысленной аннотации новости наиболее информативной частью любой новости
будут предложения, которые содержат вместе как
извлеченные объекты, так максимальное количество
ключевых слов из тематического окружения события.
• Определение дублей одной и той же новости - фокус,
состоящий из набора ключевых слов и входящих в
несколько новостей идентичного содержания, будет
совпадать, что позволит фильтровать дубли.
1. Сегментация статей - задача разделения
непрерывного потока на новости, связанные
одним и тем же событием.
2. Отслеживание новостной дорожки нахождение всех новостей, которые “похожи” на
множество эталонных новостей. Используется для
отлова всех потенциально интересных
документов по теме, которые могут появиться в
будущем.
3. Определение дорожки - кластеризация всех
новостей, порожденных конкретным событием.
4. Определение первой новости в дорожке -для
нахождения самого первого сообщения в новом
событии.
5. Определение связей (Link Detection) - позволяет
определить, порождены ли две новости одним и
тем же событием.
• Используем словари и тезаурусы ля
группировки словоформ в группы
синонимов
Download