Поэтический подкорпус Национального корпуса русского языка

advertisement
Поливариантные
параллельные тексты в
рамках Национального
корпуса русского языка
Национальный корпус русского языка
http://ruscorpora.ru/
Дмитрий Сичинава (mitrius@gmail.com)
Параллельные корпуса в НКРЯ
Англо-русский, русско-английский
Немецко-русский, русско-немецкий
Украинско-русский, русско-украинский
Белорусско-русский, русско-белорусский
Польско-русский, русско-польский
Итальянско-русский, русско-итальянский
Французско-русский-русско-французский
Испанско-русский, русско-испанский
ГОТОВЯТСЯ
 Русско-болгарский, русско-армянский, латышский
(оба направления)








Многоязычные корпуса
 Частный случай (1): язык оригинала (A) не
фиксирован
 Частный случай (2): N>1 (переводы на 2 и
больше языков)
 Частный случай (3): несколько переводов
на один язык
«Массовые параллельные
тексты»
* Наиболее распостранённый тип
параллельных корпусов
* Переводы одного и того же текста на 20+
языков (Библия, Ленин, «Сторожевая
башня», законы...)
* Проблемы специфики жанра
* Cysouw, Waelchli 2007 (спецвыпуск журнала
STUF)
Корпус слушаний
Европарламента
http://www.statmt.org/europarl/
 21 официальный язык ЕС
 Все подкорпуса выровнены по английскому
 XML, размечены говорящие, файл
соответствует дню слушаний
 Свободный для скачивания
Корпус европейского права
 The JRC-Acquis Multilingual Parallel Corpus
 http://langtech.jrc.it/JRC-Acquis.html
 Действующее право ЕС. 22 языка
 Общий объём – 1 млрд слов
 Автоматическое выравнивание (венгерская
программа HunAlign; программа Vanilla).
Для скачивания доступны 2 версии
выравнивания
PARASOL: Параллельный корпус славянских и
других языков
 http://parasol.unibe.ch/
 Р. фон Вальденфельс (Регенсбург – Бонн)
PARASOL: Параллельный корпус славянских и
других языков
 Поиск онлайн после регистрации
 25 млн словоупотреблений, 32 языка
 Разметка с участием национальных
корпусов разных языков
 Только художественная литература
(максимум переводов – «Мастер и
Маргарита», «Имя розы», «Гарри Поттер и
философский камень», «Солярис»,
«Парфюмер»)
InterCorp – параллельные
корпуса ЧНК
 http://www.korpus.cz/intercorp/
 Поиск онлайн после регистрации
 92 млн словоупотреблений
 23 языка
 Чешский язык – базовый (для каждого
текста есть чешское соответствие)
 Художественные тексты и корпуса
политических комментариев (Presseurop)
 Тексты из других параллельных корпусов.
Морфология TreeTagger
Норвежские параллельные
корпуса
 http://www.hf.uio.no/ilos/tjenester/kunnskap/s
prak/omc/index.html
 Университеты Бергена и Осло
 Шесть языков – норвежский, английский,
французский, немецкий, нидерландский,
португальский
 + небольшие корпуса финского и
шведского
 Русско-норвежский корпус RuN отдельно (с
особой разметкой и поиском)
 Поиск онлайн после регистрации
ASPAC – Амстердамский
параллельный корпус
 Авторский проект Адриана Барентсена,
доступен по рассылке
 Более 100 текстов на 25 языках, только
художественные
 Есть альтернативные переводы на один и
тот же язык (4 польские и 6 русских
«Алис»)
 Выравнивание вручную по абзацам
Многоязычный корпус НКРЯ
 Свободный доступ (но тексты нельзя
скачать)
 9 текстов, в основе из ASPAC, с
собственными пополнениями
 Специальная программа, дополнительно
делящая абзацы при выравнивании
исходников ASPAC на предложения
Многоязычный корпус НКРЯ
 «Алхимик» Коэльо (9 языков), «Алиса в
стране чудес» ЛК (21 язык + доп. 2 русских
и 1 польский перевод), «Алиса в
Зазеркалье» ЛК (6 языков), «Код да
Винчи» Д. Брауна (12 языков), «Собака
Баскервилей» А. Конан Дойла (5 языков),
«Винни-Пух» А. А. Милна (18 языков + доп.
1 русский и 1 украинский текст), «Мастер и
Маргарита» Булгакова (15 языков + доп. 1
английский текст), «Пиноккио» К. Коллоди
(10 языков), «Маленький принц» А. де
Сент-Экзюпери (21 язык)
Многоязычный корпус НКРЯ:
языки
 Славянские (12): русский, украинский,
белорусский, польский, чешский,
словацкий, верхнелужицкий, словенский,
хорватский, сербский, македонский,
болгарский
 Неславянские (13): английский, немецкий,
нидерландский, шведский, латинский,
французский, итальянский, испанский,
португальский, румынский, греческий,
литовский, латышский
Многоязычный корпус НКРЯ:
разметка
Имеется морфологическая разметка:
русский, английский, немецкий,
французский, испанский, португальский,
украинский, белорусский, польский,
чешский, болгарский
 Остальные языки – без морфологической
разметки, поиск только по точному слову
Многоязычный корпус НКРЯ:
формат XML
<p>

<para>

<se lang="en">"What a curious feeling!" said Alice. "I must be shutting up like a telescope!" </se>

<se lang="de">"Was für ein komisches Gefühl!" sagte Alice. "Ich gehe gewiß zu wie ein Teleskop." </se>

<se lang="nl">'Wat een gek gevoel,' zei Alice. 'Het is alsof ik als een telescoop in elkaar schuif.'</se>

<se lang="sv">- En sådan underlig känsla! sade Alice. Jag håller bestämt på att skjutas ihop som en
kikare.</se>

<se lang="la">'Eia! Sensu quam insolito afficior!' inquit Alicia. 'Videor comprimi velut telescopium!' </se>

<se lang="fr">"Quelle sensation bizarre! dit Alice. Je dois être en train de rentrer en moi-même, comme une
longue-vue!"</se>

<se lang="it">- Che curiosa impressione! - disse Alice, - mi sembra di contrarmi come un cannocchiale!
</se>

<se lang="es">- ¡Qué sensación más extraña! - dijo Alicia - . Me debo estar encogiendo como un
telescopio.</se>

<se lang="pt">"Que sensação estranha", disse Alice. "Eu devo estar encolhendo como um
telescópio!"</se>

<se lang="ro">"Ce straniu mă simt!" zise Alice. "De parcă aş fi pe cale să mă strâng ca o lunetă!"</se>

<se lang="gr">- Τι περίεργο συναίσθημα! είπε η Αλίκη, νομίζω πως άρχισα να διπλώνομαι σαν
τηλεσκόπιο.</se>

</p>
Многоязычный корпус НКРЯ:
формат XML

<se lang="ru">- Какое странное ощущение! - воскликнула Алиса. - Я, верно, складываюсь, как
подзорная труба.</se>

<se lang="ru_2">- Вот странное чувство! - воскликнула Аня. - Должно быть, я захлопываюсь, как
телескоп.</se>

<se lang="ru_3">- Ой, что же это со мной делается! - сказала Алиса.- Я, наверное, и правда
складываюсь, как подзорная труба!</se>

<se lang="uk">- Ой, що це зі мною діється! - скрикнула Аліса. - Мабуть, я складаюся, як підзорна
труба.</se>

<se lang="be">- Што за дзіўнае адчуваньне! - сказала Алеся. - Здаецца, я складаюся, нібы
тэлескоп!</se>

<se lang="pl">- Cóż za dziwne uczucie - rzekła Alicja - składam się zupełnie jak teleskop.</se>

<se lang="pl_2">- Jakie dziwne uczucie! - powiedziała Alicja. - Na pewno wsuwam się w siebie jak
luneta!</se>

<se lang="cs">"To je mi divně," řekla Alenka. "Nejspíš se už sklápím jako dalekohled."</se>

<se lang="sk">"Akosi mi je čudne!" povedala Alica. "Asi sa už sklápam ako ten ďalekohľad!"</se>

<se lang="sl">"Kakšen čuden občutek!" je rekla Alica; "najbrž se zlagam ko teleskop!"</se>

<se lang="hr">"Zaista, nešto mi se događa", reče Alica. "Kao da se uvlačim u sebe poput dalekozora."</se>

<se lang="sr">"Како се чудно осећам!" - рече Алиса. "Изгледа ми да се увлачим као дурбин."</se>

<se lang="mk">"Колку чудно се чувствувам!" си рече Алиса. "Изгледа дека се смалувам како што се
смалува дурбинот."</se>

<se lang="bg">Какво странно чувство! - си каза Алиса. - Сякаш се свивам като далекоглед."</se>
Пример поисковой выдачи НКРЯ
Пример грамматического
запроса
Поливариантный корпус
Со второй половины 2012 года команда
НКРЯ совместно с исследователями
Института проблем информатики РАН и
французскими лингвистами (университет
Paris-13, Институт восточных языков
INALCO) разрабатывает поливариантный
параллельный русско-французский корпус.
Одновременно на его материале строится
база данных поливариантных соответствий
(полиэквиваленций)
глагольных
аспектуальных и временных форм в
русском и французском языках.
Прецеденты
* По нескольку вариантов перевода ряда
текстов на один и тот же язык (например,
«Алиса в стране чудес» — шесть
переводов на русский и четыре на
польский)
находится
в
ASPAC
и
Регенсбургском корпусе
* Поливариантный русско-немецкий корпус
на материале выполненных в разное
время переводов романов Достоевского,
созданный в Австрийской академии наук в
Вене
Выбор переводов
* Для поливариантного корпуса выбираются
тексты, существующие не менее, чем в
двух переводах на французский язык,
причём эти переводы должны быть
созданы, как правило, не ранее середины
XX века.
* Более ранние французские переводы
русской
литературы,
особенно
выполненные в XIX веке, устарели в
языковом отношении, а главное, содержат
много ошибок и сокращений исходного
текста.
Выравнивание
Используется усовершенствованная версия
программы «Евклид» (оболочка для
HunAlign): тексты выравниваюся попарно и
затем «склеиваются» в единый XML в
соответствием с разделением
предложений в оригинале
Три перевода «Носа»
<para id="2">
<se lang="ru" variant_id="0">Марта 25 числа случилось
в Петербурге необыкновенно странное
происшествие.</se>
<se lang="fr" variant_id="1">Le 25 mars, un événement
tout à fait étrange s'est produit à Pétersbourg.</se>
<se lang="fr" variant_id="2">Ce jour-là, 25 mars dernier,
Pétersbourg fut le théâtre d’une aventure des plus
étranges.</se>
<se lang="fr" variant_id="3">Le 25 mars il est arrivé à
Pétersbourg un événement extrêmement bizarre.</se>
</para>
(Продолжение)
<se lang="ru" variant_id="0">Приподнявшись немного на
кровати, он увидел, что супруга его, довольно почтенная
дама, очень любившая пить кофей, вынимала из печи
только что испеченные хлебы.</se>
<se lang="fr" variant_id="1">Se soulevant à demi sur son lit, il vit
que son épouse, une dame assez respectable et qui appréciait
beaucoup le café, retirait des pains du four.</se>
<se lang="fr" variant_id="2">S’étant mis sur son séant, il vit que
son épouse — personne plutôt respectable et qui prisait fort le
café — défournait des pains tout frais cuits.</se>
<se lang="fr" variant_id="3">S’étant quelque peu soulevé sur
son lit, il vit que son épouse, dame assez digne dotée d’un fort
penchant pour le café, tirait du four des pains qui venaient d’être
cuits.</se>
Разметка несоответствий в
переводе
1) Добавление / замена / пропуск
2) На уровне слова / синтагмы / предложения
3) Упрощение / усложнение / комментарий
Примеры (не)соответствий
Упрощение: «Он позволял это себе потому, что
чувствовал в себе силу всегда, когда ему
понадобится, опять выделить одно служебное
и откинуть человеческое» => «Il le faisait
seulement parce qu'il se sentait de force à
retablir à n'importe quel moment les barrières
fatidiques»
Комментарий: «Дверцу – тонкую цинковую
пластинку — отвел в сторону, слез, пугливо
поглядел на окна, потрогал простыню». => «Il
ôta la mince plaque de zinc qui la fermait, posa
celle-ci sur l'étagère, descendit de sa chaise, et
alla à la fenetre vérifier d'un air inquiet que le
Другие проблемы выравнивания
* Культурноспецифическая лексика,
фразеологизмы и т. п. – специально
отмечаются
* Совпадение языков оригинала и перевода
(французский текст в оригинале)
База данных грамматических
соответствий
* Происходит разметка и полуавтоматический поиск
глагольных форм (TAM – tense-aspect-mood)
* «модели перевода» – множество переводов
{Fn...Fn+m} для русской формы R (например, НСВ
переводится как present, imparfait или в известных
ограничительных контекстах passé simple);
«стимулы перевода» – множество «стимулов»
{Rn...Rn+m}, «реакцией» на которые является
французская форма F (например, passé antérieur
может появиться для русских слов «немедленно»
или «внезапно»).
База данных грамматических
соответствий
База данных вручную редактируется
(уточняется состав конструкции,
грамматическая разметка)
Строится кортеж (набор значений
переводов) для вхождений каждой
грамматической конструкции в текст
Производится статистический анализ
наиболее вероятных переводов формы (в
тех или иных контекстах)
Анализируются конкретные переводческие
стратегии
Download