29 septembre 2015 Assises universitaires Corpus et bases de données français et parallèles dans l’enseignement et la traduction Nadejda Buntman Université Lomoniossov de Moscou [email protected] 1. 2. 3. 4. Definition de corpus Divers corpus français accessibles online Corpus national de la langue russe et son sous-corpus parallèle Les bases de données sur corpus ( Temps verbaux et Unités spécifiques ), le travail interactif Corpus • Un corpus est un ensemble de documents, (textes, images, vidéos, etc.), regroupés dans une optique précise • Depuis 2001, la revue universitaire CORPUS est dédiée à l'objet. • http://corpus.revues.org/ Corpus en langue française http://wortschatz.uni-leipzig.de/ws_fra/ http://www.cnrtl.fr/ http://atilf.atilf.fr/tlf.htm http://clapi.ishlyon.cnrs.fr/V3_Corpus_criteres.php?int erface_langue=FR http://www.crisco.unicaen.fr/ Paramètres du corpus • Plusieurs caractéristiques sont à prendre en compte pour la création d'un corpus bien formé : • la taille ; • le langage du corpus ; • le temps couvert par les textes du corpus ; • le registre. Национальный корпус русского языка • http://www.ruscorpora.ru/search-main.html Поливариантный параллельный русскофранцузский корпус Проект Российского фонда фундаментальных исследований – РФФИ (2012-2013) «Контрастивные корпусные исследования русских и французских глагольных категорий в поливариантных параллельных текстах» Русско-французский параллельный корпус (всего 1 734 719 словоупотреблений) был дополнен текстами с двумя и более вариантами переводов (около 700 000 словоупотреблений): Надкорпусная база данных глагольных категорий Создана пополняемая надкорпусная база данных моноэквиваленций (одна глагольная конструкция русского языка, которой соответствуют один ее перевод на французский язык) Пример моноэквиваленции: Проект частного фонда «Династия» (2013-2014) «Принципы создания лингвистических баз данных на основе поливариантных параллельных корпусов» Создан сайт с базой данных глагольных форм русского языка и их переводов на французский язык в открытом доступе по адресу: http://a179.ipi.ac.ru/corpora_dynasty/main.aspx: 5244 глагольных конструкции русского языка и 1-2 перевода каждой конструкции Частотности соответствий видов русских и французских глагольных форм, вычисленные по данным сайта Вид Вид глагольной Количество глагольной формы примеров в формы (французской) базе данных (русской) Настоящее présent 311 Настоящее imparfait 53 Настоящее infinitif 15 Настоящее passé composé 8 conditionnel Настоящее 7 présent Настоящее futur simple 5 Настоящее subjonctif présent 4 Настоящее Substantif 4 Настоящее participe passé 2 Настоящее gérondif 2 subjonctif Настоящее 1 imparfait 75,30 12,83 3,63 1,94 % от общего числа пар форм и их переводов в базе данных 5,93 1,01 0,29 0,15 1,69 0,13 1,21 0,97 0,97 0,48 0,48 0,10 0,08 0,08 0,04 0,04 0,24 0,02 % в пределах «Настоящего времени» Поиск полиэквиваленций на сайте глагольных форм русского языка и их переводов Построена 1921 полиэквиваленция (одна глагольная конструкция русского языка, которой соответствуют два разных ее перевода) Надкорпусная база данных специфических черт семантической системы русского языка Проект РФФИ (2013-2015) «Контрастивное корпусное исследование специфических черт семантической системы русского языка» (в зеркале французского языка) варианты перевода слова баба по базе данных: femme, paysanne, femme de menage, bonne femme, servante, féminin, vieille femme, la vieille, sorcière 2.2 Надкорпусная база данных специфических черт семантической системы русского языка как-нибудь варианты перевода по базе данных: d'une manière ou d'une autre, s'arranger, façon de +INF, en quelque sorte, un moyen de + INF, pouvoir + INF, coûte que coûte, comme tu pourras, même, peut-être, possible adj 2.3 Надкорпусная база данных специфических черт семантической системы русского языка мужик варианты перевода по базе данных: paysan,moujik,homme,garçon, le domestique,laquais, homme à tout faire http://a179.ipi.ac.ru/lingvospec/select.aspx Bibliographie http://pratiques.revues.org/1581 Michel Bert, Sylvie Bruxelles, Carole Etienne, Emilie Jouin-Chardon, Justine Lascar, Lorenza Mondada, Sandra Teston et Véronique Traverso Grands corpus et linguistique outillée pour l’étude du français en interaction (plateforme CLAPI et corpus CIEL) p. 17-34 http://praxematique.revues.org/1136 Linguistique de corpus et didactique du F.L.E. Une exploitation du corpus IntUne Corpus Linguistics and French as a Foreign Language : Using the IntUne Corpus Delphine Giuliani et Radia Hannachi Rastier, François(2005). Enjeux épistémologiques de la linguistique de corpus. In: Williams, G. (ed.). La linguistique de corpus. Rennes: Presses universitaires de Rennes, 2005, pp.31–47