Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет Пользователи корпусов Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры (контексты) употребления тех или иных языковых элементов и конструкций. Лингвисты-теоретики: корпусы как экспериментальная база для проверки гипотез и доказательства теорий. Прикладные лингвисты различного профиля. Лексикографы. Преподаватели: корпусы как база при обучении языкам. Компьютерные лингвисты: выявление статистических и других закономерностей для создания и отладки компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы, специалисты по рекламе). Специалисты по общественным наукам (историки, социологи и др.). Лекция 10 Корпусная лингвистика 2 Корпусы дают реальные контексты; реальные статистические данные (на больших объемах текстов); сочетаемость (коллокации); категоризацию языкового материала; проекции языка на различные подъязыки. Лекция 10 Корпусная лингвистика 3 Корпусы как средство изучения языка и развития лингвистической теории Фонетика и фонология (корпуса устной речи); морфология; словообразование; словоизменение; лексикология; фразеология; парадигматика в широком смысле; синтагматика (коллокации, словосочетания); синтаксис; синтаксис связного текста; семантика; стилистика; прагматика. Лекция 10 Корпусная лингвистика 4 Прикладные задачи Лекция 10 Лексикография; подготовка учебной литературы; преподавание языков; самостоятельное изучение языков; справки по правописанию; языковая политика; сохранение языкового наследия; машинный перевод; информационный поиск; распознавание речи; распознавание текста; тестирование и отладка систем автоматизированной обработки текста (NLP). Корпусная лингвистика 5 Примеры решения лингвистических задач на базе корпусов (1) Морфология и словоизменение С помощью размеченного корпуса можно выяснить, в какой функции чаще всего выступают слова, относящиеся к разным частям речи: наречиепредикатив (жарко), наречие-предлог (вокруг), существительное-предлог (в связи) и т.д. Можно выяснить, с какими падежами чаще всего используется тот или иной предлог.. Можно сравнить частотность лексических или грамматических вариантов (галоша – калоша, сахара – сахару). Можно выявить нетипичные грамматические явления, конструкции (напр., предлог+существительное в именительном падеже: отдать в солдаты). Корпуса позволяют получить данные о конкретных формах слова и о целых грамматических категориях. И т д. Словообразование В корпусах, где можно использовать оператор "усечение" легко подобрать примеры и собрать статистические данные о словах с заданными приставками, суффиксами, корнями. Напр., какова продуктивность (с одними и теми же корнями) суффиксов -истский и -истический, -истский и -альный? Каково значение суффикса -тель, кроме значения 'деятель'? Лекция 10 Корпусная лингвистика 6 Примеры решения лингвистических задач на базе корпусов (2) Лексикология Лексикология – раздел языкознания, изучающий лексику языка и слово как единицу лексики. Изучает значения слов, многозначность, омонимию, синонимию, антонимию и другие отношения между значениями слов, а также изменения в словарном составе языка, отражение в языке социальных, территориальных, профессиональных характеристик. Для всего этого корпуса дают разнообразный материал (контексты, частоты, экстралингвистические характеристики). Синтаксис С помощью корпусов можно исследовать различные синтаксические явления и конструкции. Так можно изучать валентности глаголов, типы предложного управления, прямой и обратный порядок слов, синтаксические функции различных грамматических категорий (напр., функции инфинитива в предложении, функции союзов в начале и в середине предложения). Корпуса позволяют получить данные об использовании и функциях различных знаков препинания. И т.д. Семантика Различные типы семантической разметки. Разметка в НКРЯ. Пражский синтаксический корпус с тектограмматический разметкой. PropBank. Лексические семантические ресурсы. WordNet. FrameNet. Лекция 10 Корпусная лингвистика 7 Меры вычисления устойчивости (collocation) Существуют различные меры учета силы синтагматических связей в тексте (mutual information, tscore, log-likelihood и др.). Но их достоверность требует больших объемов текстовых данные. Поэтому только появление корпусов дало возможность делать на их основе теоретические заключения. Лекция 10 Корпусная лингвистика 8 Меры вычисления устойчивости: MI score Лекция 10 Корпусная лингвистика 9 Меры вычисления устойчивости: T score Лекция 10 Корпусная лингвистика 10 Меры вычисления устойчивости: LL score Лекция 10 Корпусная лингвистика 11 Примеры решения лингвистических задач на базе корпусов С помощью размеченного корпуса можно выяснить, в какой функции чаще всего выступают слова, относящиеся к разным частям речи: наречие-предикатив (жарко), наречие-предлог (вокруг), существительное-предлог (в связи) и т.д. Можно выяснить, с какими падежами чаще всего используется тот или иной предлог.. Можно сравнить частотность лексических или грамматических вариантов (галоша – калоша, сахара – сахару). Можно выявить нетипичные грамматические явления, конструкции (напр., предлог+существительное в именительном падеже: отдать в солдаты). Корпуса позволяют получить данные о конкретных формах слова и о целых грамматических категориях. И т д. Лекция 10 Корпусная лингвистика 12 НКРЯ: Поиск существительных мужского рода неодушевленных с суффиксом -тель Лекция 10 Корпусная лингвистика 13 НКРЯ: Поиск существительных мужского рода одушевленных с суффиксом -тель Лекция 10 Корпусная лингвистика 14 АОТ: Поиск существительных мужского рода одушевленных с суффиксом -тель Лекция 10 Корпусная лингвистика 15 АОТ: Поиск существительных мужского рода неодушевленных с суффиксом -тель Лекция 10 Корпусная лингвистика 16 НКРЯ: поиск наречия «бегом» Лекция 10 Корпусная лингвистика 17 НКРЯ: поиск существительного «бег» Лекция 10 Корпусная лингвистика 18 НКРЯ: «браузер» vs. «броузер» (1) Лекция 10 Корпусная лингвистика 19 НКРЯ: «браузер» vs. «броузер» (2) Лекция 10 Корпусная лингвистика 20 НКРЯ: «галоши» vs. «калоши» (1) Лекция 10 Корпусная лингвистика 21 НКРЯ: «галоши» vs. «калоши» (2) Лекция 10 Корпусная лингвистика 22 АОТ: «галоши» vs. «калоши» (1) Лекция 10 Корпусная лингвистика 23 АОТ: «галоши» vs. «калоши» (2) Лекция 10 Корпусная лингвистика 24 Корпусные данные, полученные на разных подъязыках галоши НКРЯ АОТ калоши 4 0 1170 1447 НКРЯ: художественные тексты - 41,5%; АОТ (библиотека Мошкова): художественные тексты – по оценкам, не менее 85% Лекция 10 Корпусная лингвистика 25 НКРЯ: «кремль» vs. «Кремль» Лекция 10 Корпусная лингвистика (1) 26 НКРЯ: «кремль» vs. «Кремль» Лекция 10 Корпусная лингвистика (2) 27 АОТ: «кремль» vs. «Кремль» (1) Лекция 10 Корпусная лингвистика 28 АОТ: «кремль» vs. «Кремль» (2) Лекция 10 Корпусная лингвистика 29 НКРЯ: «офсайд» vs. «оффсайд» Лекция 10 Корпусная лингвистика (1) 30 НКРЯ: «офсайд» vs. «оффсайд» Лекция 10 Корпусная лингвистика (2) 31 АОТ: «офсайд» vs. «оффсайд» Лекция 10 Корпусная лингвистика (1) 32 АОТ: «офсайд» vs. «оффсайд» Лекция 10 Корпусная лингвистика (2) 33 Яндекс: «офсайд» vs. «оффсайд» (1) Лекция 10 Корпусная лингвистика 34 Яндекс: «офсайд» vs. «оффсайд» (2) Лекция 10 Корпусная лингвистика 35 Как пользоваться корпусом Лекция 10 Корпусная лингвистика 36