МГУ им. М.В.Ломоносова Научно-исследовательский вычислительный центр АНО Центр информационных исследований Н.В.Лукашевич, Д.С Чуйко Автоматическое разрешение лексической многозначности на основе тезаурусных знаний Лексическая многозначность и информационный поиск • Онтологии, тезаурусы: знания о предметной области • Применение онтологий в автоматической обработке текстов для информационнопоисковых приложений – – – – Собственно поиск, Рубрикация текстов, Вопросно-ответные системы, Кластеризация текстов и др. • Одна из серьезных проблем: лексическая многозначность Задачи разрешения лексической многозначности • Senseval, Semeval: – задача «все слова текста» – задача «набор слов» (40 слов) • Наш проект – Задача «все слова текста» (тезаурус РуТез) – Задача «тематическая лексика» • разрешение многозначности в некоторой предметной области • число многозначных единиц – несколько сотен или тысяч • Общественно-политический тезаурус Структура тезаурусов • • • • • • • • • Лингвистические онтологии Иерархическая сеть понятий Тезаурус РуТез: 50 тысяч понятий, 140 тысяч слов и словосочетаний Общественно-политический тезаурус: – подтезаурус тезауруса РуТез - тематическая и терминологическая лексика широкой области жизни современного общества - 89 тысяч слов и выражений Аналогия: тезаурус WordNet и предметные области внутри тезауруса Многозначность в тезаурусах • М-многозначность – одно и то же слово (словосочетание) соответствует двум понятиям: пилот – ЛЕТЧИК, АВТОГОНЩИК – Нужно выбрать значение • А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка): – Львов – ЛЬВОВ (ГОРОД) – Нужно подтвердить/отвергнуть употребление значения Число многозначных единиц: Тезаурусе РуТез - 15 тысяч (11 тысяч М-многозначность ) Общественно-политический тезаурус - 6.5 тысяч (2.2 тысячи М-многозначность) Пример текста и покрытие тезаурусами • В понедельник на сцене Большого театра сверкали "Бриллианты американского балета". Концерт был посвящен 70-летию установления дипломатических отношений между Россией и США. В зале сидели все мыслимые и немыслимые дипломаты с обеих сторон. В этот вечер спектакль разыгрывался по обе стороны рампы, точнее, оркестровой ямы. И второй, надо сказать, был ничуть не менее захватывающим. Пока на сцене звезды американского балета показывали чудеса хореографической техники, в противоположной стороне партера, в царской ложе, светила другая, куда более загадочная звезда. Использование структуры тезауруса для разрешения многозначности • Каждому значению слова соответствует некоторая окрестность соответствующего понятия в тезаурусе, которая подтверждает это значение – Тезаурус – сеть, по отношениям можно пройти от одного любого понятия к другому – Транзитивные иерархические отношения: родовидовые, часть-целое – Иерархическое дерево: путь отношений между понятиями на основе свойств транзитивности и наследования может быть преобразован к одному отношению • Вхождение многозначного слова: – Локальный контекст – окрестность некоторой длины – Глобальный контекст – некоторый образ понятий документа Рассмотрение разных факторов • Разрешены только определенные виды путей: – с одним направлением по иерархии вниз или по иерархии вверх, – с одной сменой направления –перегиб, • Чем длиннее путь между понятиями, тем слабее подтверждение • Наличие перегиба на пути ослабляет подтверждение • Перегиб на высоком уровне иерархии хуже, чем на низких уровнях • Разные типы перегибов могут по-разному влиять на подтверждение: ср. виды и части Оценка значимости факторов • Параметры и веса: – Длина окрестности в тексте – Высота шагов иерархии – высота дерева – Длина пути – Порог отсечения – Цена перегиба в зависимости от типа перегиба – Цена многозначности, если подтверждает многозначный элемент • Формула: • подтверждение (c1,c2) = максимальный_балл – - длина_пути – - цена_многозначности – - цена_перегиба Локальный и глобальный этапы • Предполагалось: основной источник разрешения многозначности – локальный контекст • Первые эксперименты: результаты хуже,чем существующий простой метод • Необходимость: отражения глобального контекста • Моделирование глобального контекста: – – – – – Те же параметры и формула Подтверждение только на однозначных вхождениях Использование коротких иерархий – длина 2 Цена глобального уровня Баллы глобального и локального уровня складываются Точность разрешения многозначности для задачи «Тематическая лексика» • Эталонная коллекция • Выпуск газет за 1 день: – «Ведомости», «Комсомольская правда», «Независимая газета», «Известия», новостные сообщения из коллекции Яндекс.Новости • Типы соответствия ручной разметки и автоматических результатов 1) Значение было выбрано правильно; 2) Значение не было выбрано, и это было правильно; 3) Значение было выбрано неправильно; 4) Значение не было выбрано, и это было неправильно; 5) Система выбрала один из правильных вариантов Результаты тестирования на тематической лексике Коллекция Точность «Известия» 75.23 (72.00) «Ведомости» 77.89 (73.41) «Независимая газета» 68.14 (66.50) «Комсомольская правда» 66.74 (63.04) Новостные сообщения 75.05 (68.00) Средняя точность по коллекциям 72.91 (68.00) Самый большой рост на более коротких новостных сообщениях – 7 пунктов (более 10%) Особенности лучшего набора параметров • Разные пороги для типов многозначности А (одно с пометкой) и М (выбор из нескольких значений) • Подтверждение от многозначного термина в локальном контексте значимо так же как и от однозначного термина • На локальном уровне наилучшими оказались очень небольшие деревья высотой 2 (тестирование начиналось с деревьев высотой 7) • Перегиб между двумя видами действительно хуже – его прохождение оценивается большим количеством баллов • Динамическая окрестность: 3+3 Эксперимент с запросами в области права • Длинные запросы : – компенсация подоходного налога при приобретении недвижимости (источник РОМИП) • 40 запросов • Старый алгоритм: точность - 48.31 • Новый алгоритм: точность - 82.02 • Особенности лучшего набора параметров: – Длинные деревья –7 – Минимальные пороги – Минимальные цены перегибов Результаты тестирования для задачи «Все слова текста» • Коллекция: по 2 статьи из газет «Известия», «Комсомольская правда», «Независимая газета», «Ведомости». • Число многозначных слов: 1120 • Точность разрешения многозначности: 57.14%, с учетом слов, попавших в однозначные словосочетания - 63.4%. • Для сравнения • Лучший алгоритм на тезаурусе WordNet имеет точность 50.89% на данных Senseval-3 • Лучший результат Senseval-3 – 65.2%: • - используется семантически размеченный корпус • - информация о наиболее частотном значении • - в счет включено 10% однозначных слов Заключение • Разработан новый алгоритм разрешения лексической многозначности на основе тезаурусных знаний, не использующий информацию размеченных текстовых корпусов • Для задачи «все слова текста» результаты алгоритма сопоставимы с результатами лучших систем, достигаемых комбинированными методами с использованием семантически размеченных корпусов и информации о наиболее частотном значении – но недостаточные для приложений? • Для задачи «тематическая лексика» достигнуты значительно более высокие результаты • Возможно применение смешанных методов: пословные индексы и концептуальный (семантический) индекс на тезаурусе (онтологии) предметной области