Методы выделения ключевых фраз из текста

advertisement
Методы извлечения
ключевых фраз
Рязанцев Дмитрий 428
План доклада


Зачем нужны ключевые фразы
Общая схема работы





Выделение кандидатов в ключевые фразы
Расчет веса на основании атрибутов
Отбор ключевых фраз
Особенности оценки систем
Системы выделения ключевых фраз



Kea
HUMB
KP-Miner
Зачем нужны ключевые фразы ?
Возможность разделения документов по
категориям
 Быстрый поиск документов по
ключевым фразам
 Связывание разных документов между
собой

Общая схема работы
Выделение кандидатов в ключевые фразы
 Расчет веса на основании атрибутов
 Отбор ключевых фраз

Выделение кандидатов в
ключевые фразы
Выделение всех последовательностей
длиной не более чем n слов (n-грамма)
 Стемминг
 Две группы подходов к сокращению
количества кандидатов

 Без
словаря
 Со словарем
Без словаря
Выделение n-грамм только из первых m
слов документа
 Не учитываются слова, начинающиеся
и заканчивающиеся на «стоп слова»
 Можно также учитывать:

 Частоту
вхождения n-граммы в документ
 Место, где встречается n-грамма
Со словарем
 Проверка
на наличие в словаре
всех n-грамм из текста
 Примеры словарей:
– база технических у научных
обозначений
Wikipedia
GRISP
Общая схема выделения
Выделение кандидатов в ключевые фразы
 Расчет веса на основании атрибутов
 Отбор ключевых фраз

Расчет веса выделенной фразы
Необходимо определить вероятность
того, что фраза – ключевая
 Введем набор атрибутов, с помощью
которых будем учитывать оценивать
фразы

Основные атрибуты

TFxIDF
frequency) - частота употребления фразы
в документе
 IDF(inverse document frequency)
 TF(term


Расстояние от начала документа.
Длина фразы
Специфические атрибуты
Раздел, в котором встречается фраза
 Keyphraseness
 И другие…

Методы учета атрибутов

С обучением
 Обучение
классификатора и дальнейшее
его применение

Без обучения
 Применение
атрибутов
формулы от значения
Общая схема выделения
Выделение кандидатов в ключевые фразы
 Расчет веса на основании атрибутов
 Отбор ключевых фраз

Отбор ключевых фраз из
взвешенного множества
После просчета атрибутов получаем
множество фраза-число
 Как отобрать нужное количество фраз ?

 Фиксированный
порог
 Плавающий порог
Особенности оценки систем

Специфические оценки качества работы
 Точность
(precision) – отношение количества
правильно определенных фраз к общему числу
выделенных фраз.
 Полнота (recall) – отношения количества правильно
определенных фраз, к общему числу ключевых фраз.
 F – мера (F - measure) – среднее между полнотой и
точностью.

Зависимость от входных данных
 Научные статьи
 Документы общей
 Блоги и т.д.
тематики
Системы выделения ключевых
фраз. Kea


Нет ориентации на определенный тип статей
Выделение n-грамм длины не более чем 3, за
исключением:




Атрибуты



имен собственных
начинающихся со стоп слов
содержащих в себе знаки препинания
TFxIDF
Расстояния от начала документа
Байесовский классификатор
Системы выделения ключевых
фраз. Kea. Результаты
Системы выделения ключевых
фраз. HUMB


Система выделения ключевых фраз из научных и технических
статей.
Выделение n-грамм длины не более чем 5, за исключением:



начинающихся со стоп слов
содержащих в себе знаки препинания и математические символы
Атрибуты


Место первого вхождения фразы
Phraseness


Информативность (Informativeness)


Мера сплоченности слов во фразе
Используется TFxIDF
Keywordness

Как часто фраза является ключевой в документах коллекции
Системы выделения ключевых
фраз. HUMB
 Is

in GRISP*
Бинарный атрибут, показывающий есть ли данная фраза
в GRISPe
 Wikipedia keyphraseness
 Как часто фраза является ссылкой из статьи википедии
 Длина фразы (в словах)

Обучение классификаторов
 C4.5,

SVN
Постобработка
 Определение
степени связанности фраз
Системы выделения ключевых
фраз. HUMB. Результаты
Системы выделения ключевых
фраз. KP-miner


Выделения ключевых фраз из английских и арабских
документов.
Выделение n-грамм из первых m слов текста , за
исключением:




начинающихся со стоп слов
содержащих в себе знаки препинания
появляющихся менее k раз в тексте
Атрибуты



TFxIDF
B – коэффициент уравновешивания значимости длинных фраз
P – атрибут основанный на положении фразы в документе
Системы выделения ключевых
фраз. KP-miner

W = tf*idf*B*P
W

– вес фразы
Отбор:
 Фиксированный
порог
 Пересчет TF, для выбранных фраз,
являющихся подфразами других
Системы выделения ключевых
фраз. KP-miner. Результаты
Результаты тестирования на SemEval-2010
Вопросы ?
Download