вероятности (commonness)

advertisement
Наполнение
неструктурированного текста
поясняющими ссылками на статьи
Wikipedia
подготовил Сергей Рябов
Постановка задачи
Сегодня мы рассмотрим, как можно
автоматически распознавать темы (topics),
упомянутые в тексте, и связывать их
ссылками с поясняющими статьями
Википедии
• Обзор связанных работ
• Алгоритм устранения неоднозначности
ссылок
• Алгоритм нахождения ключевых слов
• Работа метода на документах «реального
мира»
• Применения
R. Mihalcea и A. Csomai - Wikify
• Detection – определение слов и фраз,
которые станут ссылками
• Disambiguation – определение значения
слова или фразы, то есть подходящей
статьи, на которую нужно ссылаться
Olena Medelyan
Различия с предыдущей работой в фазе
устранения неоднозначности. Схожие
результаты достигаются значительно
проще, путем сопоставления
(a) вероятности (commonness) каждого
значения и
(b) того, как это значение соотносится с
контекстом (relatedness)
• Обзор связанных работ
• Алгоритм устранения неоднозначности
ссылок
• Алгоритм нахождения ключевых слов
• Работа метода на документах «реального
мира»
• Применения
Алгоритм устранения
неоднозначности ссылок
Всего 700 статей, 50 и более ссылок в каждой:
• 500 для обучения
• 100 для настройки
• 100 для окончательной оценки
Алгоритм устранения
неоднозначности ссылок
• Основной подход – сопоставление
commonness и relatedness значения фразы
• Commonness значения определяется тем,
насколько часто в Википедии ссылаются
именно на это значение
• Relatedness – взвешенное среднее
семантических близостей искомого
значения к каждому значению из контекста
(контекстному термину, КТ)
Wikipedia Link-based Measure
a и b – статьи, между которыми вычисляется семантическая близость,
A и B – наборы всех статей, ссылающихся на a и b, соответственно,
W – множество всех статей Википедии
Алгоритм устранения
неоднозначности ссылок
• В качестве веса КТ берется среднее от его link
probability и relatedness по отношению к
документу
• Первое позволяет отсеять КТ, не являющиеся
ссылками, и подчеркнуть те, которые
встречаются практически всегда в качестве
ссылок
• Второе помогает отсеивать КТ, слабо
связанные с темой документа
– Суть среднее семантических близостей данного КТ
ко всем остальным КТ
Устранение неоднозначности
термина tree, используя
однозначные КТ
Алгоритм устранения
неоднозначности ссылок
• Чтобы сопоставить commonness и relatedness,
вводится еще одно свойство – полезность
(goodness) контекста
• Goodness – суть сумма весов КТ
• Далее полученные свойства используются для
обучения disambiguation classifier’а, который
сможет выделять подходящие смыслы
• На стадии конфигурации определяется
минимальная допустимая вероятность смысла и
классификационный алгоритм
Алгоритм устранения
неоднозначности ссылок
Производительность
классификаторов
Производительность алгоритма
устранения неопределенности
• Обзор связанных работ
• Алгоритм устранения неоднозначности
ссылок
• Алгоритм нахождения ключевых слов
• Работа метода на документах «реального
мира»
• Применения
Алгоритм нахождения ключевых
слов
• Классификатор тренируется и конфигурируется на все
тех же 500 и 100 статьях, соответственно.
• Собираем все термины в документе
• Все термины с link probability, превышающей пороговое
значение, пропускаем через disambiguation classifier
• Полученные данные используем для обучения
wikification classifier’а
• На стадии конфигурации определяется минимальная
допустимая link probability и классификационный
алгоритм
Алгоритм нахождения ключевых
слов
Алгоритм нахождения ключевых
слов
Свойства, на основе которых работает
детектирующий классификатор:
•
•
•
•
•
Link probability
Relatedness
Disambiguation confidence
Generality
Location and spread
Алгоритм нахождения ключевых
слов
Производительность
классификаторов
Производительность алгоритма
нахождения ключевых слов
• Обзор связанных работ
• Алгоритм устранения неоднозначности
ссылок
• Алгоритм нахождения ключевых слов
• Работа метода на документах «реального
мира»
• Применения
Работа метода на документах
«реального мира»
• Для тестирования на документах «реального
мира» использовались Механические Турки
• 50 новостных статей
• Система определила 449 ссылок
• Тест состоял из 2 частей:
– Оценка найденных ссылок
– Определение пропущенных ссылок
• Итог:
(recall, precision, f-measure) = (73%, 76%, 75%)
• Обзор связанных работ
• Алгоритм устранения неоднозначности
ссылок
• Алгоритм нахождения ключевых слов
• Работа метода на документах «реального
мира»
• Применения
Применения
• Добавление поясняющих ссылок к
документам
– Наполнение блогов, новостных и
образовательных статей ссылками
– Помощь при создании новых статей Википедии
• Улучшение представления документов
– Кластеризация документов
– Topic indexing
– Information retrieval
Применения
Спасибо за внимание
Вопросы?
Download