ЛЕКЦИЯ №8 МАШИННЫЙ ПЕРЕВОД

advertisement
ЛЕКЦИЯ №8 МАШИННЫЙ ПЕРЕВОД
Машинный перевод (МП) текстов с одних ЕЯ на другие — одна из
наиболее ранних задач невычислительных приложений ЭВМ и ИИ.
Отметим два аспекта, определяющих актуальность задач МП и
не снижающееся внимание к ним со стороны ученых и разработчиков
ИАС:
 все возрастающая потребность в переводах в науке, литературе,
дипломатии, экономике и других областях деятельности,
обусловливаемая
повышением
открытости
границ,
интернационализацией науки и экономики, взаимопроникновением
культур и т.д.;
 для МП гораздо яснее критерии оценивания результатов, чем в
задачах понимания текстов, организации диалога и др.
Создание систем МП требует совместной работы специалистов
разного профиля: в первую очередь, лингвистов, математиков и
программистов.
Системы МП различают по трем аспектам:
 рабочим языкам;
 типам текста;
 ограничениям по ПрО.
По количеству поддерживаемых рабочих языков различают
двуязычные и многоязычные системы МП.
Язык исходного текста называется входным, а
(формируемого текста) — выходным.
язык перевода
На рис. 1, а условно представлены две системы МП,
обеспечивающие перевод с языка 1 на язык 2 и с языка 2 на язык 1. На рис.
1, б условно изображены два класса систем МП. Системы первого класса
переводят текст с языка 1 на языки 2.1, 2.2, ..., 2.k, а системы второго
класса переводят текст с языков 2.1, 2.2, ..., 2.к на язык 1.
Рис. 1. Системы МП: а — двуязычные; б — многоязычные
1
В современных многоязычных системах МП поддерживаемые языки
могут быть и входными, и выходными. Направление перевода определяет
роли языков (входной, выходной).
По типу текста выделяются системы для перевода письменного
текста и устного диалога.
Системы первого типа классифицируются по назначению для
перевода:
 деловой прозы (научно-технических статей, заголовков и
аннотаций, описаний изобретений, технической документации и
др.);
 художественной литературы.
Системы для перевода устного диалога обычно ориентированы на
узкую тематику:
 резервирование мест в гостинице;
 определение маршрута проезда по городу и т.д.
Они интегрируются с системами анализа и синтеза устной речи.
Ограничения систем МП по ПрО обусловлены поддержкой в них
лексики, соответствующей той или иной области знаний (медицины,
информатики, математики и т.д.).
Системы
МП
бывают
автоматическими
и
автоматизированными.
На рис. 2 изображены три схемы автоматизированных систем
МП. Их достоинствами являются простота реализации и повышение
производительности перевода в 3—5 раз по сравнению с переводом
вручную человеком. Недостаток таких систем связан с необходимостью
участия в переводе специалиста в ПрО, к которой относится текст,
владеющего входным и выходным языками.
Рис. 2. Автоматизированные системы МП:
а — с постредактированием; б — с предредактированием; в — с пред- и постредактированием; 1 —
входной текст; 2 — система МП; 3 — перевод, сформированный системой МП; 4 — человек
(редактор), обрабатывающий с помощью текстового редактора перевод, сформированный системой
МП; 5 — выходной текст; 6 — человек (редактор), выполняющий предварительную обработку
входного текста с помощью текстового редактора; 7 — входной текст после предварительного
редактирования человеком.
2
Как обычно, перед описанием схемы автоматического решения
интеллектуальной задачи полезно рассмотреть процесс ее решения
человеком. Выполняя перевод, человек уясняет смысл очередного
фрагмента текста (фразы, абзаца) и выражает его на выходном языке,
стараясь обеспечить структурную и смысловую близость к оригиналу (без
этого результатом будет не перевод, а пересказ). При переводе человек
использует как лингвистические знания о входном и выходном языках,
так и экстралингвистические знания (знания о ПрО, общих
закономерностях среды перевода, законах коммуникации). В
соответствии с возможностями компьютерной реализации данных
функций человека и разрабатывались поколения систем МП.
Выделяют три поколения таких систем:
1) П-системы - системы прямого перевода (direct systems);
2) Т-системы (от слова transfer - преобразование);
3) И-системы (от слова interlingua - язык-посредник).
Цикл работы П-системы состоит из трех этапов:
 На первом этапе выполняется морфологический анализ входной
фразы. С помощью базы правил для входного языка и двух словарей
(словаря основ слов и словаря оборотов) она переводится в ее
морфологическое представление. При этом каждой основе и каждому
обороту ставятся в соответствие свои наборы признаков. Таким
образом, морфологическим представлением фразы является множество
пар (признак, значение).
 На втором этапе выполняется перевод морфологического
представления входной фразы в морфологическое представление
выходной фразы. Для этого используется база правил соответствия
морфологических признаков входного и выходного языков.
 На третьем этапе выполняется морфологический синтез:
устанавливаются нужный порядок и форма слов согласно правилам
грамматики выходного языка. Итоговый результат по качеству
получается немного лучше подстрочного перевода.
В Т-системах помимо процедур морфологической обработки
реализуются методы синтаксического анализа и синтеза.
Работа Т-системы включает пять этапов:
 На первом этапе осуществляется морфологический анализ входной
фразы (аналогично П-системам).
 На втором этапе по его результатам выполняется синтаксический
анализ, в ходе которого строится представление входной фразы в виде
синтаксического дерева (дерева синтаксического разбора).

Фраза — законченный оборот речи, предложение.
3
Различают два типа деревьев синтаксического разбора:
 деревья синтаксических составляющих;
 деревья синтаксических зависимостей.
В первом случае грамматика ЕЯ описывается в виде моделей Н.
Хомского. Дерево составляющих представляет вложенные группы
словоформ. Самая крупная словоформа соответствует фразе, самые мелкие
—
синтаксически
неделимым
текстовым
единицам
(словам,
словосочетаниям).
Во втором случае узлы дерева представляют синтаксические
единицы текста, а дуги — отношения подчинения между ними. Это
позволяет использовать при анализе фильтровый метод.
 На третьем этапе выполняется переход от входного к выходному
языку. Для этого синтаксическое дерево входной фразы преобразуется
в синтаксическое дерево выходной фразы.
Выделяются три уровня преобразования:
 поверхностно-синтаксический;
 глубинно-синтаксический;
 синтактико-семантический.
В соответствии с их поддержкой различают и Т-системы.
 На четвертом этапе проводится синтаксический синтез.
Грамматические правила в Т-системах имеют декларативную
(дескриптивную) форму.
 На пятом этапе, как и в П-системах, осуществляется
морфологический синтез.
В И-системах наряду с морфологией и синтаксисом используются
экстралингвистические знания, т.е. знания о семантике и прагматике
ПрО. Поэтому после этапов морфологического и синтаксического
анализа входной фразы функционирование И-системы включает этап
семантического анализа. Его результатом служат семантические
представления входной и выходной фраз, эквивалентные с точностью до
лексики.
Отношения между этапами функционирования трех поколений
систем МП иллюстрирует рис. 3.
Таким образом, системы МП представляют собой сложные
программные комплексы с разными видами обеспечений.
К лингвистическому обеспечению систем МП относятся:
 словари слов и словосочетаний с соответствующими признаками;
 морфологические таблицы суффиксов и окончаний;
 базы грамматических правил и др.
4
Рис. 3. Отношения между этапами функционирования трех поколений
систем МП
Математическое обеспечение систем МП включает:
 модели для представления лингвистической информации;
 алгоритмы их преобразования;
 правила логического вывода для уточнения обрабатываемого
текста на основе экстралингвистических знаний.
К программному обеспечению систем МП относятся:
 программы выполнения перевода;
 ведения словарей;
 формирования базы правил и т.д.
Информационное обеспечение (ИО) систем МП представляет база
экстралингвистических знаний о ПрО.
К числу наиболее распространенных в России систем МП и
компьютерных словарей относятся:
 Stylus - система МП, включающая множество словарей по разным ПрО;
 Universal Translator - многоязычная система МП;
 Socrat - система, позволяющая сканировать документы, переводить их
содержимое и проверять орфографию;
 Polyglossum - многоязычная система МП с широким набором
предметных словарей;
 Promt - многоязычная система МП, содержащая множество словарей по
разным ПрО;
 WebTranSite - система для перевода web-страниц;
 Lingvo - компьютерный англо-русский и русско-английский словарь.
5
Основные характеристики компьютерного словаря Lingvo
(разработчик — компания ABBYY Software House):
 перевод слова, набранного в панели ввода словаря или перенесенного
на пиктограмму работающей системы с помощью операции «drag and
drop»;
 перевод слова из буфера промежуточного хранения по горячей
клавише;
 одновременная работа с большим количеством предметных словарей;
 гипертекстовое представление словарных статей;
 наличие тезауруса;
 наличие звуковой базы, представляющей произношение основных
английских слов;
 полнотекстовый поиск слов и словосочетаний в статьях всех словарей;
 пословный перевод фразы;
 вставка перевода в редактируемый текст с помощью операции «drag and
drop»;
 представление транскрипции, грамматических характеристик и
парадигмы слова (списка всех его форм);
 предоставление подсказки по правильному написанию слова;
 создание и ведение собственных словарей.
6
Download