Методы выделения ключевых фраз из текста

Методы извлечения ключевых фраз Рязанцев Дмитрий 428 План доклада   Зачем нужны ключевые фразы Общая схема работы      Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз Особенности оценки систем Системы выделения ключевых фраз    Kea HUMB KP-Miner Зачем нужны ключевые фразы ? Возможность разделения документов по категориям  Быстрый поиск документов по ключевым фразам  Связывание разных документов между собой  Общая схема работы Выделение кандидатов в ключевые фразы  Расчет веса на основании атрибутов  Отбор ключевых фраз  Выделение кандидатов в ключевые фразы Выделение всех последовательностей длиной не более чем n слов (n-грамма)  Стемминг  Две группы подходов к сокращению количества кандидатов   Без словаря  Со словарем Без словаря Выделение n-грамм только из первых m слов документа  Не учитываются слова, начинающиеся и заканчивающиеся на «стоп слова»  Можно также учитывать:   Частоту вхождения n-граммы в документ  Место, где встречается n-грамма Со словарем  Проверка на наличие в словаре всех n-грамм из текста  Примеры словарей: – база технических у научных обозначений Wikipedia GRISP Общая схема выделения Выделение кандидатов в ключевые фразы  Расчет веса на основании атрибутов  Отбор ключевых фраз  Расчет веса выделенной фразы Необходимо определить вероятность того, что фраза – ключевая  Введем набор атрибутов, с помощью которых будем учитывать оценивать фразы  Основные атрибуты  TFxIDF frequency) - частота употребления фразы в документе  IDF(inverse document frequency)  TF(term   Расстояние от начала документа. Длина фразы Специфические атрибуты Раздел, в котором встречается фраза  Keyphraseness  И другие…  Методы учета атрибутов  С обучением  Обучение классификатора и дальнейшее его применение  Без обучения  Применение атрибутов формулы от значения Общая схема выделения Выделение кандидатов в ключевые фразы  Расчет веса на основании атрибутов  Отбор ключевых фраз  Отбор ключевых фраз из взвешенного множества После просчета атрибутов получаем множество фраза-число  Как отобрать нужное количество фраз ?   Фиксированный порог  Плавающий порог Особенности оценки систем  Специфические оценки качества работы  Точность (precision) – отношение количества правильно определенных фраз к общему числу выделенных фраз.  Полнота (recall) – отношения количества правильно определенных фраз, к общему числу ключевых фраз.  F – мера (F - measure) – среднее между полнотой и точностью.  Зависимость от входных данных  Научные статьи  Документы общей  Блоги и т.д. тематики Системы выделения ключевых фраз. Kea   Нет ориентации на определенный тип статей Выделение n-грамм длины не более чем 3, за исключением:     Атрибуты    имен собственных начинающихся со стоп слов содержащих в себе знаки препинания TFxIDF Расстояния от начала документа Байесовский классификатор Системы выделения ключевых фраз. Kea. Результаты Системы выделения ключевых фраз. HUMB   Система выделения ключевых фраз из научных и технических статей. Выделение n-грамм длины не более чем 5, за исключением:    начинающихся со стоп слов содержащих в себе знаки препинания и математические символы Атрибуты   Место первого вхождения фразы Phraseness   Информативность (Informativeness)   Мера сплоченности слов во фразе Используется TFxIDF Keywordness  Как часто фраза является ключевой в документах коллекции Системы выделения ключевых фраз. HUMB  Is  in GRISP* Бинарный атрибут, показывающий есть ли данная фраза в GRISPe  Wikipedia keyphraseness  Как часто фраза является ссылкой из статьи википедии  Длина фразы (в словах)  Обучение классификаторов  C4.5,  SVN Постобработка  Определение степени связанности фраз Системы выделения ключевых фраз. HUMB. Результаты Системы выделения ключевых фраз. KP-miner   Выделения ключевых фраз из английских и арабских документов. Выделение n-грамм из первых m слов текста , за исключением:     начинающихся со стоп слов содержащих в себе знаки препинания появляющихся менее k раз в тексте Атрибуты    TFxIDF B – коэффициент уравновешивания значимости длинных фраз P – атрибут основанный на положении фразы в документе Системы выделения ключевых фраз. KP-miner  W = tf*idf*B*P W  – вес фразы Отбор:  Фиксированный порог  Пересчет TF, для выбранных фраз, являющихся подфразами других Системы выделения ключевых фраз. KP-miner. Результаты Результаты тестирования на SemEval-2010 Вопросы ?

Методы выделения ключевых фраз из текста

Похожие документы

Разделы

Поддержка

Методы выделения ключевых фраз из текста

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib