О методе интерактивного разрешения неоднозначности в системах машинного перевода А. Бердичевский (ОТиПЛ МГУ) [email protected] Семинар «Некоторые применения математических методов в языкознании» под руководством В. А. Успенского 9 октября 2004 г. 1 ЭТАП-3 : результат примерно двадцатилетней работы Лаборатории компьютерной лингвистики Института проблем передачи информации РАН Ю. Д. Апресян И. М. Богуславский Л. Л. Иомдин А. В. Лазурский Л. Г. Митюшин Н. В. Перцов В. З. Санников. Л. Л. Цинман и др. 2 Четыре части доклада: «Информационная»: а) о проблеме неоднозначности в системах МП. б) об ЭТАПе. в) о других системах МП. «Отчетная»: о проделанной работе по разрешению лексической неоднозначности. «Прикладная»: новые предложения по разрешению синтаксической неоднозначности «Теоретическая»: некоторые выводы и наблюдения, сделанные в процессе работы. 3 Постановка проблемы Неоднозначность – неотъемлемое свойство человеческого языка (и мышления) Обычно не представляет проблемы для носителей языка: адресанту неведома, адресатом разрешается за счет прагматических данных. В большинстве случаев высказывание даже не подвергается сознательному анализу, т.к. человек сразу выделяет верный вариант. 4 Постановка проблемы Слабость машины: • Отсутствие возможности обратиться к прагматике. • «Беспристрастность»: обнаружение всех допустимых вариантов перевода. • Отсутствие холистического восприятия. • А кроме того… 5 Постановка проблемы В проблемных случаях адресат использует метаязыковую операцию: обращается к адресанту с вопросом. — Мы, управление дома, — с ненавистью заговорил Швондер, — пришли к вам после общего собрания жильцов нашего дома, на котором стоял вопрос об уплотнении квартир дома... — Кто на ком стоял? — Крикнул Филипп Филиппович, — потрудитесь излагать ваши мысли яснее. М. А. Булгаков, «Собачье сердце». 6 Постановка проблемы Система МП вопросов не задает. Идея МИРН – научить ее это делать. Задача: разработать язык формулирования запросов, понятный машине и доступный пользователю. Дан ряд ограничений характеристик «пользователя». Прикладная и теоретическая проблема. 7 Кратко об ЭТАПе: ЭлектроТехнический Автоматический Перевод Теоретическая база: МСТ И. А. Мельчука, также теория интегрального описания языка и принципы системной лексикографии Ю. Д. Апресяна. Существенные для доклада характеристики: •Поуровневое представления языковых данных •Использование деревьев зависимостей и ПСО. •Использование лексических функций •Отсутствие работы со сверхфразовыми единствами 8 АРН в ЭТАПе: краткий обзор Разрешение по ближайшему линейному контексту: He laughs too loudly The laughs of the audience became too loud 9 АРН в ЭТАПе: краткий обзор Разрешение с помощью механизмов фильтрации: •Древесные условия формирования бинарных поддеревьев. •Механизм установления окончательных синтаксических связей. •Фильтр древесности •Фильтр повторимости-неповторимости ПСО •Фильтр проективности 10 АРН в ЭТАПе: краткий обзор Разрешение с помощью правил предпочтения: система приоритетов. Разрешение перебором альтернатив: окончательная проверка уцелевших гипотез. Все механизмы работают в цикле. Достоинство интерфейса: пользователю несколько вариантов перевода. предлагается 11 АРН в ЭТАПе: краткий обзор Разрешение с использованием нетривиальных правил перевода. НПП обеспечивают компенсацию расхождения входного и выходного языков. Например, лексические функции: The heavers loaded the ship Грузчики загрузили корабль. The soldier loaded the gun Солдат зарядил ружье. Gun: в статье КС есть запись _PREPAR:LOAD2(/AIM2 ) Ружье: в статье КС есть запись _PREPAR:ЗАРЯЖАТЬ 12 АРН в ЭТАПе: краткий обзор Разрешение с использованием синтаксически размеченного корпуса (И. С. Чардин). Совмещение эвристической и статистической стратегии. Все вышеописанные алгоритмы недостаточно мощны, особенно если речь идет о выборе лучшей структуры из нескольких возможных. 13 Пределы возможностей Джон предупреждал о трудностях пути John has warned of a difficulty of the way John has warned of a hardship of the way John has warned about a difficulty of the way John has warned about a hardship of the way John has warned of a difficulty the ways John has warned of a hardship the ways John has warned about a difficulty the ways John has warned about a hardship the ways 14 Пределы возможностей The wolf ran from behind a pine: Волк выполнил из зада сосну. 15 Пределы возможностей Выпей коньяка! Drink cognac! The bitterns of cognac! 16 Пределы возможностей Он вправе определять время начала и окончания рабочего дня •He has a right to define the time of the beginning and a completion of a working day •He has a right to define the time of the beginning and the completions of a working day •He has a right to define the time of the beginning and a working completion of a day •He has a right to define the time of the beginning and a completion of a worker of a day •He has a right to define the time of the beginning and the worker's completion of day •He has a right to define the time of the beginning and a completion of the worker of a day •He has a right to define the time of the beginning and the completions of a worker of a day 17 Способы решения: *Сохранять неоднозначность при переводе *Knowledge-Based Machine Translation *Example-Based Machine Translation *Накопители переводов *Статистические методы *Редактирование: *Пред- : controlled languages *Пост- : обычный Rule-Based Machine Translation *Интер-: Dialogue-Based Machine Translation 18 Лексическая неоднозначность Составление двуязычных словарей омонимов: комментарий+пример. Огромная подготовительная работа. Желательность (и отсутствие) специальной лексикографической теории. 19 Fair-haired Fan1 Adjective; of usual speech style Светловолосый Adjective; of high speech style Белокурый Noun; machine using an electric motor in order to move air, as for cooling Electric fan Вентилятор Noun; collapsible device made of a light material such as silk or paper Ladies often used fans in XIX century Веер Fan2 Verb; direct a current of To fan oneself air upon, usually in order to cool Обмахивать Fan3 Noun; fancier, enthusiast Football fan Фанат Durability Noun; capability to withstand wear and tear Steel is known for its high durability Износоустойчивость Noun; longevity The durability symbol Долговечность are the Pyramids of Egypt Noun; zealousness Work with eagerness Рвение Noun; ambition Lifelong eagerness Стремление Eagerness 20 *Чем тоньше семантическое различие, тем длиннее комментарий *Далеко не всегда возможно подобрать для каждого слова контексты, исключающие возможность употребления его омонима/полисеманта Л А Й О Н З Чем длиннее языковой знак, тем менее он омонимичен. Контекст определяет лексическую единицу вероятностно, а не абсолютно. 21 Выучившему английский в гарантировано трудоустройство. детском саду To the one that has taught English in a kindergarten recruiting is guaranteed. To the one that has learned English in a kindergarten recruiting is guaranteed. To a garden that has taught English in the childish recruiting is guaranteed. To a garden that has learned English in the childish recruiting is guaranteed. Дескрипторы: тонкий метод vs. универсальная дубина. 22 Морфологическая неоднозначность Что следует разрешать сначала: морфологическую или синтаксическую неоднозначность? Вопросы «в лоб»: уточнить форму слова, используя школьную терминологию. Следует выделить их в отдельный блок, подключаемый пользователем по желанию. Для русского возможностей будет больше, чем для английского: больше поверхностно выраженных грамматических категорий. Это упрощает МП. Возможно ли измерить степень омонимичности языка? 23 Синтаксическая неоднозначность Fat soup admirer Откормите любителя супа Любитель жирного супа Жирный любитель супа Любитель супа жира 24 Преобразования, уменьшающие неоднозначность •The given sentence is ambiguous. What should be understood? • (Fat soup) admirer • Fat (soup admirer) ИЛИ •The given sentence is ambiguous. What does the word fat refer to? • Fat soup • Fat admirer 25 Не researches hums and whistles. Он исследует жужжание и свист. Он исследует жужжание и свистит. Можно разрешить лексически. С другой стороны, если можно использовать синтаксические алгоритмы, это эффективней: меньше словарей. 26 27 28 • The given sentence is ambiguous. What should be understood? researches whistles He whistles • The given sentence is ambiguous. What should be understood? He researches whistles He whistles • The given sentence is ambiguous. What should be understood? researches and whistles Hums and whistles • The given sentence is ambiguous. What should be understood? He researches (hums and whistles) He (researches hums) and whistles 29 Гренобльская группа Нervé Blanchon, Laurel Fais, Christian Boitet et al. В сотрудничестве с японскими лабораториями. DBMT как отдельная парадигма. Метод работы: составление корпуса примеров -> выделение частотных типов неоднозначности -> эксперименты с пользователями -> реализация «лингвера» -> реализация программного механизма 30 31 32 33 Дальнейшие перспективы: *Разработка синтаксических алгоритмов *Настройка интерактивного блока: *Пользовательская настройка *Обоймы вопросов *Сбор статистических данных *Самообучение 34 Выводы: Для того, чтобы верно задать вопрос, нужно знать большую часть ответа. При хорошем автоматическом анализаторе интерактивный блок может сослужить очень хорошую службу, помогая выбрать лучшую альтернативу. 35