Слайд 1 - Корпусная лингвистика

advertisement
Аннотирование корпуса
 приписывание интерпретирующей
лингвистической информации
языковым единицам корпуса (словам,
предложениям, текстам и т.п.)
Аннотирование: виды
• «Чистый» корпус
Сели пить чай с малиновым вареньем. Мать стала
рассказывать дочери, какие она видела сегодня в магазине
джемперы — красные, с голубой полоской. А на груди —
белый рисунок. Тамара слушала и маленькими глотками
пила чай из цветастой чашки. [Василий Шукшин. Ленька
(1960–1971)]
Аннотирование: виды
• «Чистый» корпус
• Лексическая аннотация (лемматизация)
Сели пить чай с малиновым вареньем.
? САДИТЬСЯ/СЕСТЬ
? СЕЛИТЬ
? СЕЛЬ
Аннотирование: виды
• «Чистый» корпус
• Лексическая аннотация
• POS-аннотация (часть речи)
Сели пить чай с малиновым вареньем.
ПИТЬ = V
Аннотирование: виды
• «Чистый» корпус
• Лексическая аннотация
• POS-аннотация
• Морфологическая аннотация
(грамматические признаки)
Сели пить чай с малиновым вареньем.
ЧАЙ = S, m, inan = sg, acc
Аннотирование: виды
•
•
•
•
«Чистый» корпус
Лексическая аннотация
POS-аннотация
Морфологическая аннотация
• Синтаксическая аннотация
Аннотирование: виды
•
•
•
•
•
«Чистый» корпус
Лексическая аннотация
POS-аннотация
Морфологическая аннотация
Синтаксическая аннотация
• Семантическая аннотация
Аннотирование: виды
•
•
•
•
•
•
«Чистый» корпус
Лексическая аннотация
POS-аннотация
Морфологическая аннотация
Синтаксическая аннотация
Семантическая аннотация
• Прагматическая аннотация
(виды речевых актов, маркеры начала
реплики и т. д.)
Аннотирование: виды
•
•
•
•
Синтаксическая аннотация
Семантическая аннотация
Прагматическая аннотация
Дискурсивная аннотация
• Стилистическая аннотация
(диалектизмы, сниженное употребление,
прямая речь и т. д.)
Аннотирование: виды
•
•
•
•
•
Синтаксическая аннотация
Семантическая аннотация
Прагматическая аннотация
Дискурсивная аннотация
Стилистическая аннотация
• Фонетическая аннотация
Аннотирование: виды
•
•
•
•
•
•
Синтаксическая аннотация
Семантическая аннотация
Прагматическая аннотация
Дискурсивная аннотация
Стилистическая аннотация
Фонетическая аннотация
• Просодическая аннотация
(ударение, интонации, паузы)
Национальный корпус
русского языка
http://www.ruscorpora.ru
Виды разметки:
•
•
•
•
Метатекстовая
Морфологическая
Акцентуационная
Семантическая
Морфологическая разметка
• Корпус со снятой омонимией
На протяже́нии веко́в фабрикова́ли и подде́лывали
не
тоPR
докуме́нты, но и
́ лько истори
́ ческие
на =протяжение
= S,n,inan
век
= S,m,inan
= sg,loc = pl,gen
географи́ческие ка́рты. [Крапленые карты географии
// «Знание — сила», №8, 2003]
• Корпус с неснятой омонимией
Мышей надо ловить капканом. В травмпункт
обращаются
люди,
которых
покусали
домашние
мышь;мышь
надо;надо
= S,f,anim
ловить
= PRAEDIC
==
gen,pl,norm;S,f,anim
V,ipf = =inf,norm
norm;PR
= =norm
acc,pl,norm
собаки или кошки. Но иногда страдают они и от
грызунов, пробравшихся в дома. 19 декабря в
медицинское учреждение пришел 55-летний житель
Саранска. [«Московский комсомолец» в Саранске,
2004.12.23]
Морфологическая разметка
морфологический разбор
•
•
•
•
лексема
словоклассифицирующие характеристики
словоизменительные характеристики
информация о нестандартности
Мышей надо ловить капканом. В травмпункт
обращаются люди,
которых
покусали домашние
ловить =
V,ipf = inf,norm
собаки или кошки. Но иногда страдают они и от
грызунов, пробравшихся в дома. 19 декабря в
медицинское учреждение пришел 55-летний житель
Саранска. [«Московский комсомолец» в Саранске,
2004.12.23]
Технология разметки
ТЕКСТ
МЕТА-РАЗМЕТКА
Корпус сМОРФОЛОГИЧЕСКАЯ
неснятой
омонимией:
РАЗМЕТКА
Корпус
со снятой омонимией:
Программа «Mystem»
(И.В.Сегалович
и др.)
Программа
«Диалинг» (А.В.Сокирко
и др.)
Автоматические фильтры (А.Е.Поляков,
Д.В.Сичинава)
Ручное снятие омонимии
Элементы текста
• русские словоформы – буквы кириллицы, дефис (-),
апостроф (’): человек, что-то, д’Артаньян
• арабские или римские цифры:
17, XIX, 17-й, 100-рублевый
• иноязычные фрагменты текста:
How do you do

Гуд ивнинг, Здоровеньки булы
e-mail’ы
• знаки препинания: !,?,; и др.
• прочие символы: %, >, $ и др.
• команды мета-разметки и структурной разметки
текста:
<meta name="author" content="Гроссман Василий">
<p>, </p>
Морфологический стандарт
корпуса
Теоретическая и методологическая основа
морфологической разметки
Обеспечивает единообразие результатов
работы программ и разметчиков
•
•
•
•
Инвентарь морфологических признаков
Состав парадигмы лексемы
Исходная форма лексемы
Грамматическая норма и аномальность
Основные принципы
• Понятность для пользователя;
соответствие грамматической традиции
• Любая (русская) словоформа в корпусе
должна получить разбор
• Единообразие трактовки языковых явлений
• Удобство поиска
• «Не важно, как названо грамматическое
явление, важно, чтобы оно могло быть
сформулировано в виде запроса к корпусу»
• «Не решай за исследователя»
Спорные вопросы
русской грамматики
Основной ориентир –
«Грамматический словарь русского языка»
А. А. Зализняка (М., 1977; 4-е изд., М., 2003).
Трактовка аналитических форм
• I этап
пословный принцип разметки
• II этап (в разработке)
разметка на уровне
неоднословных устойчивых оборотов (в
течение) и аналитических форм (буду петь),
ср. ХАНКО
Два «слоя» разметки:
I буду петь = БЫТЬ: fut + ПЕТЬ: ipf, inf
II буду петь = ПЕТЬ: ipf, fut 2
Трактовка аналитических форм
• будущее время несовершенного вида (будет оценивать)
• условное наклонение (оценили бы)
• прошедшее время совершенного вида пассивного
залога (был оценен)
• аналитические формы императива (давайте оценим)
• аналитические формы сравнительной степени
прилагательных и наречий (менее странно)
• разрывные формы отрицательных и неопределенных
местоимений (ни у кого, кое с кем)
• взаимные местоимения (друг с другом)
• составные числительные (триста двадцать пять)
Части речи
















существительное
прилагательное
числительное
числительное-прилагательное
глагол
наречие
предикатив
вводное слово
местоимение-существительное
местоимение-прилагательное
местоимение-предикатив
местоименное наречие
предлог
союз
частица
междометие
Падежная система
•
•
•
•
•
•
Звательный (Господи, ребят)
Второй родительный (чашка чаю)
Второй предложный (в лесу)
Второй винительный (по два человека)
Счетная форма (два часа́)
Несогласуемые формы без падежного
показателя (в одна тысяча девятьсот сорок
пятом году)
• ? Второй дательный (по многу, по стольку)
Вид и залог глагола
Вид – переходная категория
(словоклассифицирующая/словоизменительная)
Залог – две разновидности
•
•
активный VS пассивный – у действительных и
страдательных причастий, словоизм.
активный VS медиальный – для невозвратных и
возвратных глаголов, словоклассиф.
Неразличение собственно пассивных (Графа
заполняется преподавателем) и декаузативных
(окно медленно открылось) употреблений
Вид и залог глагола
Видовые корреляты и формы
противоположного залога входят в
состав «расширенной парадигмы»
глагола
oткрылось =
открыться;открывать@;
открыть@;открываться@
Pluralia tantum
Число – переходная категория
(словоклассифицирующая/словоизменительная)
•
•
часы
час
часы = S,m,inan,pl = nom
час = S,m,inan = sg,nom
•
сапоги
сапог = S,m,inan = sg,nom
Потенциальные pluralia tantum
сидел без боеприпасов:
боеприпасы; боеприпас@ = S,m,pl,inan=gen
захватил с собой боеприпас:
боеприпас; боеприпасы@ = S,m,inan=sg,acc
Корпуса со снятой и неснятой
омонимией
Корпус с неснятой омонимией:
словарная VS несловарная форма
Корпус со снятой омонимией:
• звательный падеж
• второй винительный
• общий род (коллега, душка)
• вторая сравнительная степень (побольше)
• переходность
• инициал (А.С.Пушкин)
• сокращение (г-н, тов.)
• несклоняемое слово (Винус Уильямс)
• аномальные (воскресе, тя, пыталися) и искаженные
(да-айте) формы
Корпус со снятой омонимией:
акцентуационная разметка
Автоматическая программа акцентуации
(Д.В.Панкратов)
-- расстановка ударений и буквы «ё»
Основной ориентир –
«Грамматический словарь русского языка»
А. А. Зализняка (М., 1977; 4-е изд., М., 2003).
Учет оборотов (за́ душу берёт)
Корпус со снятой омонимией:
множественные разборы
Падеж
• лучшего распространителя чёрного пиара,
чем самодовольного и напыщенного
декана психологи́ческого факульте́та, про́сто
не найти́. [vmalcolm. Запись LiveJournal
(2004)]
Корпус со снятой омонимией:
множественные разборы
Местоимение-существительное VS
местоимение-прилагательное
• Пира́ньи напада́ют на всё живо́е, что им
встре́тится на пути́: будь то ры́ба и́ли
оказа́вшееся в воде́ живо́тное. [Пираньи //
«Мурзилка», №8, 1999]
Корпус со снятой омонимией:
множественные разборы
Личное VS притяжательное местоимение
• Средняя заработная плата по месту
постоянной работы выплачивается
командированным работникам только за
время нахождения их в пути. [П. Д.
Смирнова. Сдельная или средняя зарплата в
командировке? // «Учет, налоги, право»,
2004.08.03]
Корпус со снятой омонимией:
множественные разборы
Одушевленность
• для Аиды тре́буется бо́лее кру́пное
драмати́ческое сопра́но. [Ирина Архипова.
Музыка жизни (1996)]
Корпус со снятой омонимией:
множественные разборы
Причастие VS прилагательное
• За проше́дший 2002–2003 уче́бный год
участи́лись слу́чаи вхо́да посторо́нних лиц в
ко́мнаты 203, 204 и по́льзования те́хникой—
ксероксом, принтером, сканером и
интернетом, в связи́ с чем она́ ча́сто
лома́ется. [Надежда Семенюк. Служебная
записка о хранении оргтехники на кафедре
(2003)]
Выводы
• Язык гораздо богаче существующих
грамматических описаний
• Грамматическая вариативность
• Традиционное грамматическое описание:
ненормативные употребления
употребления «за ромбом»
• Корпусная лингвистика: обязана
учитывать любые варианты
и давать им интерпретацию
Download