Введение в корпусную лингвистику Лекция 1. В.П. Захаров

advertisement
Лекция 1.
Введение в корпусную
лингвистику
В.П. Захаров
Санкт-Петербургский
государственный университет
Понятие корпуса
 Лингвистический, или языковой,
корпус текстов – большой,
представленный в электронном виде,
унифицированный, структурированный,
размеченный, филологически
компетентный массив языковых данных,
предназначенный для решения конкретных
лингвистических задач.
Лекция 1
Корпусная лингвистика
2
Проанализируем








Лекция 1
Большой
Электронный
Унифицированный
Структурированный
Размеченный
Филологически компетентный
Массив языковых данных
Предназначенный для …
Корпусная лингвистика
3
Словарные картотеки
Лекция 1
Корпусная лингвистика
4
Электронные библиотеки
и их разнообразие
► Корпус латинских текстов “Персей”.
► Корпус текстов Ф. М. Достоевского.
► Электронная энциклопедия "Брокгауз и Ефрон".
► Фундаментальная электронная библиотека.
► Российская виртуальная библиотека.
► Библиотека М. Мошкова.
► Электронная библиотека Химического фак-та
МГУ.
► ……………………………………………………….
► и т.д.
Лекция 1
Корпусная лингвистика
5
Корпус vs. электронная библиотека
Тексты в корпусах рассматриваются прежде всего как образцы текстов.
Тексты в электронных библиотеках, исходя из их назначения,
правильнее всего называть произведениями со всеми характерными
для них атрибутами.
Лингвистический корпус текстов:
Электронная библиотека:
образцы текстов
полные тексты
лингвистическая разметка
библиографические и историкокультурные элементы данных (если
имеются)
лингвостатистика
отсутствие статистики
репрезентативность языкового
материала"условная"
полнота текстов электронной библиотеки
отбор языкового материала на основе
отбор текстов, определяемый выбором
критериев репрезентативности,
составителей библиотеки
лингвистической и историко-культурной
значимости
Лекция 1
Корпусная лингвистика
6
Лингвистические корпусы
Brown Corpus.
Ланкастерский корпус английского языка (LancasterOslo-Bergen Corpus, LOB).
 British National Corpus.
 International Corpus of English.
 Bank of English.
 Cobuild Corpus.
 Мангеймский корпус немецкого языка.
 Чешский национальный корпус.
 Уппсальский корпус русского языка.
 Национальный корпус русского языка.
 Корпусы китайского, турецкого, эстонского, албанского
и многих других языков


Лекция 1
Корпусная лингвистика
7
Корпусная лингвистика
 Корпусная лингвистика – раздел
компьютерной лингвистики,
занимающийся разработкой общих
принципов построения и использования
лингвистических корпусов (корпусов
текстов) с использованием компьютерных
технологий.
Лекция 1
Корпусная лингвистика
8
Корпус
Собственно корпус
(массив данных)
+
корпусный менеджер
(специализированная поисковая система)
Лекция 1
Корпусная лингвистика
9
Конкорданс
 Конкорданс – список всех употреблений
данного слова в контексте (возможно, со
ссылками на источник).
Чешский национальный корпус: Поиск словоупотреблений
слова holubí (голубиный).
Лекция 1
Корпусная лингвистика
10
Предпосылки создания и
использования корпусов
Назначение языкового корпуса – показать
функционирование лингвистических единиц в их
естественной контекстной среде.
На основе корпуса можно получить данные:
 о частоте словоформ, лексем, грамматических
категорий,
 об изменениях частот
 об изменениях контекстов в различные периоды
времени
 о поведении языковых единиц разных авторов
 о совместной встречаемости лексических единиц
 об особенностях их сочетаемости, управления
 и т.д.
Лекция 1
Корпусная лингвистика
11
Репрезентативность
 Размеры и процентные соотношения:
 Жанры
 Стили
 Периоды
 Авторы
 Хронологические границы
……………………….
Лекция 1
Корпусная лингвистика
12
Разметка
Англ.: tagging, annotation.
 Разметка – приписывание текстам и их
компонентам специальных меток.
Виды разметки:
 экстралингвистическая (метаразметка)
сведения об авторе и сведения о тексте: автор,
название, год и место издания, жанр, тематика;
 структурная
(глава, абзац, предложение, словоформа)
 собственно лингвистическая
Лекция 1
Корпусная лингвистика
13
Лингвистическая разметка
1.
морфологическая разметка
part-of-speech tagging (POS-tagging)
2.
3.
4.
5.
синтаксическая разметка
семантическая разметка
анафорическая разметка
просодическая разметка
и т.д.
Лекция 1
Корпусная лингвистика
14
Типы корпусов
Корпусы, относящиеся ко всему языку;
 корпусы, относящиеся к какому-либо подъязыку
(жанр, стиль, язык определенной возрастной
или социальной группы, язык писателя или
ученого и т.п.).

Существует большое число разных других типов
корпусов.
Можно выделить различные основания для
классификации корпусов.
Лекция 1
Корпусная лингвистика
15
Классификация корпусов
Признак
Типы корпусов
Тип данных
•Письменные
Язык текстов
•Русский
«Параллельность»
•Одноязычные
•Двуязычные
•Многоязычные
«Литературность»,специфичность
•Литературные
•Диалектные
•Разговорные
•Терминологические
•Смешанные
Жанр
•Литературные
•Фольклорные
•Драматургические
•Публицистические
Лекция 1
•Речевые
•Смешанные
•Английский
Корпусная лингвистика
и т.д.
16
Классификация корпусов (прод.)
Признак
Типы корпусов
Доступность
•Свободно доступные
•Коммерческие
•Закрытые
Назначение
•Исследовательские
Динамичность
•Динамические
•Статические
Разметка
•Размеченные
•Неразмеченные
Характер разметки
•Морфологические
•Иллюстративные
•Синтаксические
•Семантические
•Просодические и
Объем текстов
Лекция 1
(мониторные)
т.д.
•Полнотекстовые
•«Фрагментнотекстовые»
Корпусная лингвистика
17
Классификация корпусов (прод.)
Признак
Типы корпусов
Хронологический аспект
•Синхронические
«Общность»
•Общие
Структура
•Центральные
Лекция 1
•Диахронические
•Одного
писателя
и архивные
•Ядерные и периферийные
Корпусная лингвистика
18
Пользователи








Прикладные лингвисты;
лексикографы;
лингвисты-теоретики;
преподаватели;
компьютерные лингвисты;
другие специалисты по языку (литературоведы,
редакторы);
специалисты по общественным наукам (историки,
социологи);
корпусы как инструмент для разработки и настройки
различных автоматизированных систем (машинный
перевод, распознавание речи, информационный поиск).
Лекция 1
Корпусная лингвистика
19
Download