Лингвистические исследования. Использование корпусов Лекция 10.

advertisement
Лекция 10.
Лингвистические
исследования.
Использование корпусов
В.П. Захаров
Санкт-Петербургский
государственный университет
Пользователи корпусов
Пользователей корпусов, как правило, интересует не содержание
конкретных текстов, а их метатекстовая информация и примеры
(контексты) употребления тех или иных языковых элементов и
конструкций.
Лингвисты-теоретики: корпусы как экспериментальная база для
проверки гипотез и доказательства теорий.
 Прикладные лингвисты различного профиля.
 Лексикографы.
 Преподаватели: корпусы как база при обучении языкам.
 Компьютерные лингвисты: выявление статистических и других
закономерностей для создания и отладки компьютерных моделей
языка.
 Другие специалисты по языку (литературоведы, редакторы,
специалисты по рекламе).
 Специалисты по общественным наукам (историки, социологи и др.).

Лекция 10
Корпусная лингвистика
2
Корпусы дают
 реальные
контексты;
 реальные статистические данные (на
больших объемах текстов);
 сочетаемость (коллокации);
 категоризацию языкового материала;
 проекции языка на различные подъязыки.
Лекция 10
Корпусная лингвистика
3
Корпусы как средство изучения языка и
развития лингвистической теории













Фонетика и фонология (корпуса устной речи);
морфология;
словообразование;
словоизменение;
лексикология;
фразеология;
парадигматика в широком смысле;
синтагматика (коллокации, словосочетания);
синтаксис;
синтаксис связного текста;
семантика;
стилистика;
прагматика.
Лекция 10
Корпусная лингвистика
4
Прикладные задачи












Лекция 10
Лексикография;
подготовка учебной литературы;
преподавание языков;
самостоятельное изучение языков;
справки по правописанию;
языковая политика;
сохранение языкового наследия;
машинный перевод;
информационный поиск;
распознавание речи;
распознавание текста;
тестирование и отладка систем автоматизированной
обработки текста (NLP).
Корпусная лингвистика
5
Примеры решения лингвистических
задач на базе корпусов (1)
Морфология и словоизменение
С помощью размеченного корпуса можно выяснить, в какой функции чаще
всего выступают слова, относящиеся к разным частям речи: наречиепредикатив (жарко), наречие-предлог (вокруг), существительное-предлог (в
связи) и т.д.
Можно выяснить, с какими падежами чаще всего используется тот или иной
предлог..
Можно сравнить частотность лексических или грамматических вариантов
(галоша – калоша, сахара – сахару).
Можно выявить нетипичные грамматические явления, конструкции (напр.,
предлог+существительное в именительном падеже: отдать в солдаты).
Корпуса позволяют получить данные о конкретных формах слова и о целых
грамматических категориях.
И т д.
Словообразование
В корпусах, где можно использовать оператор "усечение" легко подобрать
примеры и собрать статистические данные о словах с заданными приставками,
суффиксами, корнями. Напр., какова продуктивность (с одними и теми же
корнями) суффиксов -истский и -истический, -истский и -альный? Каково
значение суффикса -тель, кроме значения 'деятель'?
Лекция 10
Корпусная лингвистика
6
Примеры решения лингвистических
задач на базе корпусов (2)
Лексикология
Лексикология – раздел языкознания, изучающий лексику языка и слово как
единицу лексики. Изучает значения слов, многозначность, омонимию,
синонимию, антонимию и другие отношения между значениями слов, а также
изменения в словарном составе языка, отражение в языке социальных,
территориальных, профессиональных характеристик. Для всего этого корпуса
дают разнообразный материал (контексты, частоты, экстралингвистические
характеристики).
Синтаксис
С помощью корпусов можно исследовать различные синтаксические явления
и конструкции. Так можно изучать валентности глаголов, типы предложного
управления, прямой и обратный порядок слов, синтаксические функции
различных грамматических категорий (напр., функции инфинитива в
предложении, функции союзов в начале и в середине предложения). Корпуса
позволяют получить данные об использовании и функциях различных знаков
препинания. И т.д.
Семантика
Различные типы семантической разметки. Разметка в НКРЯ. Пражский
синтаксический корпус с тектограмматический разметкой. PropBank.
Лексические семантические ресурсы. WordNet. FrameNet.
Лекция 10
Корпусная лингвистика
7
Меры вычисления устойчивости
(collocation)
Существуют различные меры учета силы
синтагматических связей в тексте (mutual information, tscore, log-likelihood и др.). Но их достоверность требует
больших объемов текстовых данные. Поэтому только
появление корпусов дало возможность делать на их
основе теоретические заключения.
Лекция 10
Корпусная лингвистика
8
Меры вычисления устойчивости: MI score
Лекция 10
Корпусная лингвистика
9
Меры вычисления устойчивости: T score
Лекция 10
Корпусная лингвистика
10
Меры вычисления устойчивости: LL score
Лекция 10
Корпусная лингвистика
11
Примеры решения лингвистических
задач на базе корпусов
С помощью размеченного корпуса можно выяснить, в какой
функции чаще всего выступают слова, относящиеся к разным частям
речи: наречие-предикатив (жарко), наречие-предлог (вокруг),
существительное-предлог (в связи) и т.д.
Можно выяснить, с какими падежами чаще всего используется тот
или иной предлог..
Можно сравнить частотность лексических или грамматических
вариантов (галоша – калоша, сахара – сахару).
Можно выявить нетипичные грамматические явления, конструкции
(напр., предлог+существительное в именительном падеже: отдать в
солдаты).
Корпуса позволяют получить данные о конкретных формах слова
и о целых грамматических категориях.
И т д.
Лекция 10
Корпусная лингвистика
12
НКРЯ: Поиск существительных мужского
рода неодушевленных с суффиксом -тель
Лекция 10
Корпусная лингвистика
13
НКРЯ: Поиск существительных мужского
рода одушевленных с суффиксом -тель
Лекция 10
Корпусная лингвистика
14
АОТ: Поиск существительных мужского
рода одушевленных с суффиксом -тель
Лекция 10
Корпусная лингвистика
15
АОТ: Поиск существительных мужского
рода неодушевленных с суффиксом -тель
Лекция 10
Корпусная лингвистика
16
НКРЯ: поиск наречия «бегом»
Лекция 10
Корпусная лингвистика
17
НКРЯ: поиск существительного «бег»
Лекция 10
Корпусная лингвистика
18
НКРЯ: «браузер» vs. «броузер» (1)
Лекция 10
Корпусная лингвистика
19
НКРЯ: «браузер» vs. «броузер» (2)
Лекция 10
Корпусная лингвистика
20
НКРЯ: «галоши» vs. «калоши» (1)
Лекция 10
Корпусная лингвистика
21
НКРЯ: «галоши» vs. «калоши» (2)
Лекция 10
Корпусная лингвистика
22
АОТ: «галоши» vs. «калоши» (1)
Лекция 10
Корпусная лингвистика
23
АОТ: «галоши» vs. «калоши» (2)
Лекция 10
Корпусная лингвистика
24
Корпусные данные, полученные на
разных подъязыках
галоши
НКРЯ
АОТ
калоши
4
0
1170
1447
НКРЯ: художественные тексты - 41,5%;
АОТ (библиотека Мошкова): художественные
тексты – по оценкам, не менее 85%
Лекция 10
Корпусная лингвистика
25
НКРЯ: «кремль» vs. «Кремль»
Лекция 10
Корпусная лингвистика
(1)
26
НКРЯ: «кремль» vs. «Кремль»
Лекция 10
Корпусная лингвистика
(2)
27
АОТ: «кремль» vs. «Кремль» (1)
Лекция 10
Корпусная лингвистика
28
АОТ: «кремль» vs. «Кремль» (2)
Лекция 10
Корпусная лингвистика
29
НКРЯ: «офсайд» vs. «оффсайд»
Лекция 10
Корпусная лингвистика
(1)
30
НКРЯ: «офсайд» vs. «оффсайд»
Лекция 10
Корпусная лингвистика
(2)
31
АОТ: «офсайд» vs. «оффсайд»
Лекция 10
Корпусная лингвистика
(1)
32
АОТ: «офсайд» vs. «оффсайд»
Лекция 10
Корпусная лингвистика
(2)
33
Яндекс: «офсайд» vs. «оффсайд» (1)
Лекция 10
Корпусная лингвистика
34
Яндекс: «офсайд» vs. «оффсайд» (2)
Лекция 10
Корпусная лингвистика
35
Как пользоваться корпусом
Лекция 10
Корпусная лингвистика
36
Download