ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА

advertisement
ПАРАЛЛЕЛЬНЫЙ КОРПУС
ТЕКСТОВ В ЗАДАЧАХ
ЛЕКСИКОГРАФИЧЕСКОГО
АНАЛИЗА
PARALLEL CORPORA IN
LEXICOGRAPHY
Л. Н. Беляева (С.Петербург)
lauranbel@gmail.com
Применение информационных технологий
в переводной лексикографии – создание и
использование современной словарной базы
Традиционные
словари,
представленные в электронной форме
– словари на электронных носителях
Электронные словари, создаваемые и
используемые в электронной форме
Автоматизированные
словари
(терминологические базы и банки
данных,
автоматизированные
лексикографические системы),
Автоматические словари (словари
систем переработки информации)
Современный подход к
созданию
переводных словарей предполагает
формирование
и
использование
представительных
корпусов
реальных текстов, которые могут
рассматриваться как база данных для
решения не только исследовательских
задач, но и практических задач
лексикографии.
Для решения задач переводной
лексикографии необходим
корпус
текстов
совокупность
исходных и переводных документов,
параллельный: состоящий из текстов
и их переводов, выровненных по
предложениям
и/или
лексическим
единицам и специально размеченных,
псевдопараллельный
(сопоставимый,
comparable):
состоящий из текстов написанных на
одну тему, но на двух разных языках
Процедура создания корпуса текстов для
лексикографического анализа
Определение типа корпуса:
• Параллельный корпус текстов
• Сопоставимый корпус текстов
Установление принципов отбора текстов
Оценка качества переводов экспертами:
• Последовательность использования
номинаций
• Соблюдение норм языка перевода
• Сохранение логической структуры текста
Процедура работы лексикографа с
одноязычным корпусом
статистическая обработка текстов и
построение конкорданса,
выделение терминов из текстов,
Для английского языка выбор простых
именных групп с опорой на формальные
границы:
theoretical and experimental
investigations of support-pendulum
seismic isolation (SPSI) system,
designed for protection of large NPP
equipment against seismic, shock and
vibration loads.
Процедура работы лексикографа с
одноязычным корпусом
выделение терминов из текстов,
Для русского языка необходим
дополнительный анализ общенаучных ЛЕ,
анализ изменения косвенных падежей
построение соответствующих различным
конструктивным параметрам семейства
силовых характеристик упругопластических
демпферов 
построение семейства силовых
характеристик, соответствующих
различным конструктивным параметрам
упругопластических демпферов
построение упругопластических демпферов,
соответствующих различным
конструктивным параметрам семейства
силовых характеристик
Процедура работы лексикографа с
одноязычным корпусом
статистическая обработка текстов и
построение конкорданса,
выделение терминов из текстов,
получение статистических данных о
встречаемости терминов в
обрабатываемых текстах,
просмотр конкорданса,
просмотр выделенных лексических единиц
по заданным параметрам контекстного
окна,
автоматическое пополнение словаря,
построение онтологии.
Работа с параллельным корпусом текстов
Выравнивание текстов с учетом
необходимости установления
единиц перевода
• Выравнивание текстов по
предложениям и выделение
коллокаций
• Оценка терминологичности
коллокаций и отдельных слов
(termhood)
• Выравнивание по коллокациям
Выравнивание
текстов
по
предложениям
представляет
собой
сложную задачу, часто с множественными
решениями, возникающими в результате:
неоднозначности
решения
задачи
сегментации текста на предложения;
несовпадения
деления
входного
и
выходного текстов на предложения,
возникающего при ручном переводе
текстов.
Работа с сопоставимым корпусом текстов
• Установление коллокаций на
каждом из языков (unithood)
• Оценка терминологичности
коллокаций и отдельных слов
(termhood)
• Выравнивание по коллокациям и
отдельным словам
Выявление и анализ лексических
единиц для включения в словарь
получение статистических данных о
встречаемости лексических единиц в
одноязычных корпусах текстов,
сравнение их с данными национальных
языков в целом,
принятие решения о терминологичности
выделенных единиц в одноязычных
корпусах,
установление условной эквивалентности
терминологических лексических единиц из
корпусов текстов на разных языках;
формирование массивов переводных
эквивалентов
European Project:
Terminology Extraction,
Translation Tools and
Comparable Corpora
Благодарю за внимание
Download