КОРПУС И ПРОБЛЕМЫ ГРАФИКИ И ОРФОГРАФИИ: «БИБЛИОТЕКИ ЛЕКСИКОГРАФА»

реклама
КОРПУС И ПРОБЛЕМЫ ГРАФИКИ И ОРФОГРАФИИ:
НАБЛЮДЕНИЯ ИЗ ОПЫТА РАБОТЫ ПО СОЗДАНИЮ
«БИБЛИОТЕКИ ЛЕКСИКОГРАФА»
CORPUS AND PROBLEMS OF GRAPHICS AND
ORTHOGRAPHY: OBSERVATIONS FROM THE
EXPERIENCE OF COMPILING OF THE
«LEXICOGRAPHER LIBRARY»
А.А. Бурыкин, В.П. Захаров, А.Ц. Масевич
(Институт лингвистических исследований РАН)
A.A. Burykin, V.P. Zakharov, A.C. Masevich
(Institute for Linguistics Studies of the Russian
Academy of Sciences)
Библиотека лексикографа


Доклад является результатом работы над проектом
«Библиотека лексикографа» – собранием русских
текстов для лексикологических исследований и
лексикографической практики, который создан и
реализуется в Словарном отделе Института
лингвистических исследований РАН с 2008 г.
В настоящее время «Библиотека лексикографа»
включает более 42 тыс. текстов разных жанров и
различной тематики. Суммарный объем ресурса –
около 1,7 млрд. словоформ
(Ср.: основной корпус НКРЯ, 86 тыс. текстов и 230 млн с/у)
ИПС Archivarius3000




язык булевой логики (И, ИЛИ, НЕ);
позволяет просматривать все
словоупотребления запрашиваемого слова
во всех текстах;
нет ограничения на количество
просматриваемых цитат;
доступ к каждому конкретному тексту с
возможностью скопировать из текста цитату
любого объема
Структура библиотеки
Хронология (каждый век – 3 периода)
Жанры:
















Художественная литература
Мемуары, дневники
Переписка
Документы, официальные материалы
Газетно-журнальная периодика
История
Науки о земле и человеке
Путешествия, география, страноведение
Бытовые практики
Точные и естественные науки
Производство, техника, строительство
Связь, информационные технологии
Транспорт
Военное дело, Военное искусство
Морское дело
Воздухоплавание и авиация и др.
Примеры использования





Слово слоеватый – были выданы ответы у Ломоносова и у Г. Шторма
(1950-е годы) в ином значении – не слоистый, а слоеный.
Слово снохач – в немногочисленных примерах обнаружилось
неизвестное значение «муж, пришедший в дом к жене»
Слово лубок – при трудностях разведения художественного и
медицинского значений достигнут результат: слово лубок как название
картинок фиксируется в 18 веке.
Слово ходя – прозвище китайцев: при сложностях с отождествлением
данной формы с глаголом «ходить» было найдено 12 примеров, в
картотеке 1 цитата.
Слово вогул (старое название манси) в картотеке нет, найдено более
120 употреблений.
Примеры





Слово пыжьян – название рыбы – в картотеке отсутствует: в нашей
библиотеке более 20 употреблений.
Слова козетка и рекамье как названия предметов мебели –
обнаруживаются в современных романах.
Выборочный просмотр материалов словаря «Редкие слова в
произведениях авторов 19 века» Р.П. Рогожниковой и Т.С. Карской
(1998) для многих слов существенно увеличивает число примеров и
сдвигает границы фиксации иногда в 18 век, часто на несколько
десятилетий в более раннее время.
Глагол матевировать (обругать матом) не является новацией ни
1970-х годов (анекдоты о Чапаеве), ни 1930-х годов (встречается у
Артема Веселого), его изобрел Н.С. Лесков (Заячий ремиз).
Выражение «муж на час» введено в оборот В.В. Розановым.
Орфография
Проблема «буквы Ё»
 Знаки дореволюционной гражданской
кириллицы
 Буква i
 Конечный ъ
 Слитно раздельно

Орфография
Филологические «шедевры» - например,
тексты произведений В.И. Даля, где
сохраняются ять, ъ, i, и т.п.,
но при этом оказывается расставленным
Ё, отсутствующее в оригинальных
текстах.
Проблемы со стороны морфологии
Каждый очередной текст в старой русской
орфографии побуждает к размышлениям:
заменить отмененные в 1918 г. буквы и
привести текст к современной орфографии или
дождаться появления более совершенных
программ, которые будут нивелировать
различия между дореформенным и
послереформенным написанием слов.
Google books NGram Viewer




Google books N Gramm Viewer представляет собой информационную
систему, наполнение которой образует несколько корпусов
размеченных текстов книг на 8 языках. Все корпуса имеют две версии 2009 и 2012 года.
На 2012 г. суммарный объем - приблизительно 8 миллионов книг
(текстов), что составляет около 6% всех когда-либо опубликованных
печатных книг.
Книги получены из 40 университетских библиотек различных стран.
Кроме того, некоторые издательства предоставили экземпляры своей
продукции, как в печатном, так и в электронном виде.
При введении печатного документа каждый текст подвергается
сканированию с последующим оптическим распознаванием. Файл
каждой книги снабжается метаданными, во введенных текстах
осуществляется метатекстовая и частично грамматическая разметка.
Русский корпус Google books







591310 документов (книг), 67 137 666 353 словоупотреблений
Со второго десятилетия XVIII века по 2008 г.
Результат поиска зависит от использования заглавной или
строчной буквы
Осуществляется поиск по слову в той грамматической форме, в
которой оно введено в поисковое окно
Отбор материала и построение графиков осуществляется
только по году издания книги.
Возможны операции над графиками - сложение, вычитание,
умножение и деление.
Возможен поиск одновременно в нескольких корпусах разных
языков
GOOLE books:
дореволюционная орфография



Тексты представлены как в современной, так и в старой
системе письма. Однако при поиске текстов в старой системе
письма имеются проблемы
Тексты Google books получены посредством оцифровки и
распознавания оригинальных печатных изданий. Поэтому в
текстах книг, изданных до 1919 года (в определенных случаях
более поздних изданиях), мы сталкиваемся со старой системой
письма.
Некоторые знаки старой системы русского письма, такие как і
(код Unicode-0456), ѣ (код Unicode-0463), ѳ (код Unicode-0473)
поисковой системой Ngram viewer не распознаются, и поиск по
словам, содержащим эти знаки невозможен. Так поиск
триграммы Ѳедоръ Михайловичъ Достоевскій, в системе не
дает результатов.
Поиск в БД Google Books
c учетом старой орфографии
Выборочный просмотр ссылок
Выборочный просмотр ссылок
(1 том «Journal d’un officier de marine»)
Дореволюционная орфография в НКРЯ
Дореволюционная орфография в НКРЯ
Бог
2012
2011
2010
2009
2008
20007
2006
2005
19
95
125
167
135
212
19
95
Богъ
2000
1996
1987-2000
1978
1921
1846-1857
1846
1755
1
1
1
4
1
45
4
8
Орфографические варианты слов


Изучение орфографических вариантов слов по корпусам
текстов и по «Библиотеке лексикографа», безусловно,
сопряжено с рядом сложностей. Во-первых, далеко не все
тексты этого периода существуют в электронном виде в
авторской орфографии: априори чаще всего в них представлена
орфография последнего издания, хотя есть возможность
вводить в корпус отдельные тексты, преобразованные из
форматов PDF и Djvu.
Чтобы обнаруживать те или иные написания в корпусе, надо
иметь их список, который пока в научном обороте отсутствует.
Тем не менее, корпусы и здесь составляют альтернативу
классической словарной картотеке, поскольку мы не
располагаем данными, сохранялись ли в картотеках и в каком
объеме авторские написания слов.
Совмещение «орфографий»
Разработка русских шрифтов вполне могла бы
базироваться не на современном русском алфавите, а
на дореволюционном, то есть во всех компьютерах мог
бы использоваться комплект знаков, соответствующий
современной русской графике, но те же шрифты
позволяли бы читать и редактировать тексты в
дореволюционной орфографии
Заключение
Так
или
иначе,
исследование
графикоорфографических вариантов слов при помощи
корпусов текстов или «Библиотеки лексикографа»
намного – на несколько порядков – увеличивает объем
доступного материала, хотя и оставляет желать много
лучшего в отношении исходных данных.
Исторические словари русской орфографии как жанр в
отечественной лексикографической традиции пока
отсутствуют.
Thank you for your attention!
Скачать