corpus - Institut Francais de Russie

advertisement
29 septembre 2015
Assises universitaires
Corpus et bases de données français et
parallèles dans l’enseignement et la traduction
Nadejda Buntman
Université Lomoniossov de Moscou
nabunt@hotmail.com
1.
2.
3.
4.
Definition de corpus
Divers corpus français accessibles online
Corpus national de la langue russe et son sous-corpus
parallèle
Les bases de données sur corpus ( Temps verbaux et Unités
spécifiques ), le travail interactif
Corpus
• Un corpus est un ensemble de documents,
(textes, images, vidéos, etc.), regroupés
dans une optique précise
• Depuis 2001, la revue universitaire
CORPUS est dédiée à l'objet.
• http://corpus.revues.org/
Corpus en langue française
http://wortschatz.uni-leipzig.de/ws_fra/
http://www.cnrtl.fr/
http://atilf.atilf.fr/tlf.htm
http://clapi.ishlyon.cnrs.fr/V3_Corpus_criteres.php?int
erface_langue=FR
http://www.crisco.unicaen.fr/
Paramètres du corpus
• Plusieurs caractéristiques sont à prendre en
compte pour la création d'un corpus bien
formé :
• la taille ;
• le langage du corpus ;
• le temps couvert par les textes du corpus ;
• le registre.
Национальный корпус
русского языка
• http://www.ruscorpora.ru/search-main.html
Поливариантный параллельный русскофранцузский корпус
Проект Российского фонда фундаментальных
исследований – РФФИ (2012-2013)
«Контрастивные корпусные исследования русских
и французских глагольных категорий в
поливариантных параллельных текстах»
Русско-французский параллельный корпус
(всего 1 734 719 словоупотреблений) был дополнен
текстами с двумя и более вариантами переводов (около
700 000 словоупотреблений):
Надкорпусная база данных глагольных категорий
Создана пополняемая надкорпусная база данных
моноэквиваленций (одна глагольная конструкция
русского языка, которой соответствуют один ее перевод
на французский язык)
Пример моноэквиваленции:
Проект частного фонда «Династия» (2013-2014)
«Принципы создания лингвистических баз данных
на основе поливариантных параллельных
корпусов»
Создан сайт с базой данных глагольных форм
русского языка и их переводов
на французский язык
в открытом доступе по адресу:
http://a179.ipi.ac.ru/corpora_dynasty/main.aspx:
5244 глагольных конструкции русского языка
и 1-2 перевода каждой конструкции
Частотности соответствий видов русских и
французских глагольных форм, вычисленные по
данным сайта
Вид
Вид глагольной Количество
глагольной
формы
примеров в
формы
(французской) базе данных
(русской)
Настоящее
présent
311
Настоящее
imparfait
53
Настоящее
infinitif
15
Настоящее passé composé
8
conditionnel
Настоящее
7
présent
Настоящее
futur simple
5
Настоящее subjonctif présent
4
Настоящее
Substantif
4
Настоящее
participe passé
2
Настоящее
gérondif
2
subjonctif
Настоящее
1
imparfait
75,30
12,83
3,63
1,94
% от общего числа
пар форм и их
переводов в базе
данных
5,93
1,01
0,29
0,15
1,69
0,13
1,21
0,97
0,97
0,48
0,48
0,10
0,08
0,08
0,04
0,04
0,24
0,02
% в пределах
«Настоящего
времени»
Поиск полиэквиваленций на сайте глагольных
форм русского языка и их переводов
Построена 1921 полиэквиваленция (одна глагольная
конструкция русского языка, которой соответствуют два
разных ее перевода)
Надкорпусная база данных специфических черт
семантической системы русского языка
Проект РФФИ (2013-2015) «Контрастивное
корпусное исследование специфических черт
семантической системы русского языка»
(в зеркале французского языка)
варианты перевода слова баба по базе
данных: femme, paysanne,
femme de menage, bonne femme,
servante, féminin,
vieille femme, la vieille, sorcière
2.2 Надкорпусная база данных специфических черт
семантической системы русского языка
как-нибудь
варианты перевода по базе данных:
d'une manière ou d'une autre,
s'arranger,
façon de +INF,
en quelque sorte,
un moyen de + INF, pouvoir + INF,
coûte que coûte, comme tu pourras,
même, peut-être, possible adj
2.3 Надкорпусная база данных специфических черт
семантической системы русского языка
мужик
варианты перевода по базе данных:
paysan,moujik,homme,garçon,
le domestique,laquais,
homme à tout faire
http://a179.ipi.ac.ru/lingvospec/select.aspx
Bibliographie
http://pratiques.revues.org/1581
Michel Bert, Sylvie Bruxelles, Carole Etienne, Emilie Jouin-Chardon, Justine Lascar, Lorenza
Mondada, Sandra Teston et Véronique Traverso
Grands corpus et linguistique outillée pour l’étude du français en interaction
(plateforme CLAPI et corpus CIEL) p. 17-34
http://praxematique.revues.org/1136
Linguistique de corpus et didactique du F.L.E. Une exploitation du corpus IntUne
Corpus Linguistics and French as a Foreign Language : Using the IntUne Corpus
Delphine Giuliani et Radia Hannachi
Rastier, François(2005).
Enjeux épistémologiques de la linguistique de corpus. In: Williams, G. (ed.). La linguistique
de corpus. Rennes: Presses universitaires de Rennes, 2005, pp.31–47
Download