Корпусная лингвистика и проблемы перевода

advertisement
Корпусная лингвистика и
проблемы перевода
Л. Н. Беляева (С.-Петербург)
Belyaev@mail.wplus.net
Belyaev@mail.spbnit.ru
PARALLEL CORPORA
PARALLEL TEXT CORPORA
(parallel text) corpora
parallel (text corpora)
• Корпус параллельных текстов
• Параллельный корпус текстов
Véronis, J. From the rosetta stone to the information
society: A survey of parallel text processing. In: J.
Véronis (Ed.), Parallel Text Processing, pp.1-25,
Kluwer, 2000
Параллельный корпус текстов совокупность
документов,
переведенных на два или более
языков,
выровненных по предложениям и
размеченных,
написанных на одну тему и на одном
языке авторами с разными родными
языками
Использование параллельных текстов в
двуязычной и многоязычной лексикографии, а
также в теории и практике перевода
Решение практических задач
• обогащение набора переводов, вводимых в
словарь, за счет выбора устойчивых
словосочетаний, используемых в исходных
текстах;
• уточнение употребительности и значений
конкретных слов и словосочетаний в текстах
определенной предметной области для
введения в словари частотных слов и/или
частотных конструкций;
• верификация значений лексических единиц,
уже зафиксированных в двуязычных словарях,
особенно в том, что касается идиом и
терминологических выражений;
• выделение устойчивых словосочетаний и
идиом, которые целесообразно вводить в
автоматические словари и глоссарии;
На основе полнотекстовых баз параллельных
выровненных текстов возможно выделение
устойчивых пар слов типа “исходное слово –
перевод”
Использование параллельных текстов в
двуязычной и многоязычной лексикографии, а
также в теории и практике перевода
Решение исследовательских задач
• установление интерференции родных языков
авторов на лексические и грамматические
особенности текстов
• выявление особенностей перевода на базе
исследований исходных и переводных текстов
• определение адекватности перевода текстов
Создание параллельных корпусов текстов
требует их выравнивания
Выравнивание текстов по предложениям
представляет собой сложную задачу, часто с
множественными решениями, возникающими
в результате:
• неоднозначности решения задачи сегментации
текста на предложения;
• несовпадения деления входного и выходного
текстов на предложения, такое несовпадение
возникает при ручном переводе текстов.
Выравнивание текстов осуществляется на
основе предположения о существовании только
шести возможных соответствий между
переводными моделями
Соответствие/несоответствие формальное:
• одно предложение переводится одним
предложением;
• два предложения переводятся одним
предложением;
• одно предложение переводится двумя
предложениями;
Соответствие/несоответствие неформальное:
• два
предложения
переводятся
двумя
предложениями, но внутренние границы не
совпадают;
• предложение исходного текста не переводится;
• предложение в тексте перевода не имеет
эквивалента в оригинале и вводится
переводчиком.
При автоматизации процедуры выравнивания
на основе совпадения параграфов текста
выделяются пары, соответствующие этим
моделям.
Создание многоязычных учебных
конкордансов на основе корпусов
параллельных текстов
• Многоязычный параллельный конкорданс
(центр разработки в Бирмингеме) создается
как международный проект, в котором
участвуют 6 университетов из 6 стран
Европы.
King P. Trialling a Multilingual Parallel
Concordancer // Second Intern. Conf. on Current
Trends in Studies of Translation and Interpreting.
Abstracts. Hungary, 1996. Pp.49–50.
Группа COBUILD (Collins Birmingham
University International Language Database)
параллельный конкорданс для
• датского,
• английского,
• французского,
• немецкого,
• греческого и
• итальянского языков
на базе корпуса текстов, включающего как
произведения художественной литературы, так
и технические тексты
Отношение оригинал – перевод в
параллельном корпусе текстов
• Оригиналу
соответствует
аутентичный
перевод
(перевод
официального документа, имеющий
одинаковую силу с оригиналом)
Корпус текстов, который сразу создавался
как параллельный
Корпус Hansard – отчеты о дебатах в канадской
Палате общин за три года, которые включают
21,6
миллиона
английских
словоупотреблений и
24,1
миллиона
французских
словоупотреблений
Langlois L. Bilingual Concordances: A New Tool
for Bilingual Lexicographers. // Expanding MT
Horizons. Proc. of the Sec.Conf. of the Assoc. for
MT in the Americas. Montreal, Quebec, Canada,
1996. Pp. 34–42.
2.87 миллионов параллельных предложений
Отношение оригинал – перевод в
параллельном корпусе текстов
• Оригиналу
соответствует
аутентичный
перевод, возможность использования для
создания нормативных словарей
• Оригиналу соответствует авторский перевод
– перевод художественных текстов возможность лексикографического описания
перевода реалий, ксенонимов, просторечных
элементов
– перевод научной и научно-технической
литературы - возможность использования
для создания специализированных словарей
Отношение оригинал – перевод в
параллельном корпусе текстов
• Оригиналу соответствует аутентичный
перевод
• Оригиналу соответствует авторский перевод
• Оригиналу соответствует машинный
перевод - возможность использования для
модификаци автоматических словарей и
глоссариев
Отношение оригинал – перевод в
параллельном корпусе текстов
• Оригиналу
соответствует
аутентичный
перевод
• Оригиналу соответствует авторский перевод
• Оригиналу
соответствует
машинный
перевод
• Оригиналу соответствует не перевод, а
сопоставимый по содержанию текст на
другом языке - возможность использования
для
уточнения
перевода
новых
терминологических словосочетаний и создания
словарей новых термино
Для решения вопроса о возможности
использования корпуса текстов в
конкретных целях уточнение отношения
оригинал
–
перевод
определяет
лексикографический
потенциал
параллельного корпуса текстов.
Download