ТИПОЛОГИЯ СПЕЦИАЛЬНЫХ КОРПУСОВ ТЕКСТОВ

advertisement
ТИПОЛОГИЯ СПЕЦИАЛЬНЫХ
КОРПУСОВ ТЕКСТОВ
Классифицирующие признаки
• Типообразующие
(параметрические)
–
–
–
–
тип и жанр данных
язык
характер разметки
Синхроничность
/диахроничность
– величина
• Корпусообразующие
– базовый признак при
образовании корпуса
публицистических текстов
-«жанр»
– Параметрические:
письменный, устный
размер
динамичность
(синхроничный,
диахроничный)
характер разметки
(морфологическая,
синтаксическая,
семантическая,
просодическая и др.)
• Представляется уместным принять в
качестве «корпусообразующего»
признака цель, для которой этот корпус
был создан. Тогда типологию корпусов
следует выводить из двух главных
целей: создания национальных и
специальных корпусов.
• Национальный корпус – это, по
определению, большой корпус, который
стремится к объединению в своей структуре
текстов самых разных жанров и типов
(современные технологии помогают
встраивать в национальные корпуса аудио и
видео материалы). Чем больше размер
такого корпуса, чем глубже и точнее
разметка, чем эффективнее программное
обеспечение такого корпуса, тем лучше.
• Специальный корпус (special corpus)
– это сбалансированный корпус, как
правило, небольшой по размеру,
предназначенный для использования
только в целях, соответствующих
замыслу составителя.
Типы специальных корпусов
• корпус текстов для построения частотного словаря
автора
• корпус устной детской речи (Kuehnast 2008:253-260)
для изучения нулевой анафоры в речи детей раннего
возраста
• параллельные корпуса для определения степени
адекватности перевода, совершенствования систем
машинного перевода и гармонизации терминологии
• параллельные корпуса для сопоставительных
исследований грамматик сходных и контактирующих
языков (Регенсбургский параллельный корпус)
• учебные корпуса (Learner corpora), которые
составляются из речевых (устных и письменных)
произведений студентов на изучаемом иностранном
языке. Такие корпуса давно и успешно используются
для исследования путей оптимизации преподавания
• Для построения любого корпуса, а
специального в особенности,
необходимо определить два его
важнейших системных свойства –
доминанту и таксон (Рыков 2006:347349).
Доминанта корпуса
• Доминанта, по определению Г.П.
Мельникова, – это «характерное
функциональное свойство системы, для
реализации которой адаптируются все
остальные ее элементы, их взаимосвязи и
свойства». По отношению к корпусу текстов
доминанта представляет собою основную
идею, замысел корпуса, то, ради чего весь
корпус задумывался.
Доминанта корпуса
• По отношению к представительному корпусу текстов
доминанта декларирует наличие в составе своих
текстов всего (или большинства) разнообразия
речевой деятельности общества. Такой корпус имеет
своей целью представление языка во всем его
многообразии, поэтому исследовательская
деятельность в этом случае направлена на
совершенствование корпуса как
сложноорганизованной системы. Особую
актуальность получают вопросы отбора, кодирования
и формата текстов для корпуса, совершенствования
разного рода разметок, облегчающих поиск в
корпусе, моделирования связей и отношений между
текстами-объектами корпуса.
Доминанта корпуса
• Пользователь национального корпуса должен
получить возможность удобного доступа к данным
корпуса в соответствии с его интересами и
запросами. Область интересов и запросов
потенциального пользователя можно смоделировать
только в самом общем виде, с другой стороны, у
пользователя есть реальная возможность получить
из корпуса только ту информацию о языке, которую
предусмотрели составители корпуса. Поэтому
предполагаемая объективность данных большого
корпуса неизбежно ограничится субъективным
фактором возможностей его разработчиков.
Доминанта корпуса
• Разработчик специального корпуса,
напротив, ограничивая себя частной
эвристической задачей, выбирает
параметры корпуса, которые, с его
точки зрения, наиболее приближают ее
решение. Поэтому полученные
результаты вполне объективны по
отношению к исследуемому аспекту
языка или речевой деятельности в
данном отобранном материале.
Доминанта корпуса
• В специальном исследовательском корпусе
доминантой будет та лингвистическая
задача, которую ставит перед собой
исследователь (контрастивный анализ,
гармонизация терминологии, составление
частотного отраслевого словаря,
исследование индивидуального авторского
языка и т.п.) или удовлетворение
потребностей потенциального пользователя,
преподавателя или обучающегося. Этой
системной доминанте должны быть
подчинены состав (свойства текстов и
жанров), структура и другие параметры
корпуса.
Таксон
• Построение корпуса текстов должно
характеризоваться единой процедурой
отбора текстов. В частности, следует
учитывать классификационные
признаки текстов, в связи с чем
предлагается использовать известные в
теории классификации понятия таксон
и мерон.
Таксон
• Таксон – группа объектов с общими
свойствами в составе некоторой системы,
классификации. Совокупность свойств
объектов, составляющих таксон, называется
мероном. Так, в составе представительного
корпуса текстов в качестве таксона могут
выступать жанры, например, публицистика, а
в пределах этого жанра таксонами могут быть
репортажи и передовые статьи. Меронами в
этом случае полагаются внешние свойства
текстов – время публикации, канал,
массовость публикации.
Таксон
• Понятия таксона и мерона релевантны и для
специального корпуса текстов. Например,
учебные корпуса (Learner Corpora) включают,
как правило, тексты двух таксонов –
письменные и устные, внутри которых
предполагается деление по жанрам (монолог,
диалог, эссе, письмо и пр.). Меронами текстов
в рамках разных жанров в этом случае будут
уровень владения языком, размер текста,
тема, родной язык обучающегося.
Таксон
• Таким образом, понятия «таксон» и
«мерон» предполагают известную долю
относительности по сравнению с
понятиями «жанр», «канал», «авторство
текста» и другими.
Псевдопараллельный корпус
• Многоязычный специальный корпус
может быть псевдопараллельным,
если тексты в его составе соотносимы
по жанру и предметной области. В
таком корпусе удобно проводить
сопоставительный анализ формальных
и функциональных языковых объектов.
Программное обеспечение
корпуса
• Автоматический поиск в корпусе обеспечивается
морфологической разметкой (part-of-speech
tagging) – основным типом разметки, включающим
признак части речи и присущих ей грамматических
категорий (например, род, падеж и число для
существительного). Наиболее известные корпуса
предназначены для многократного использования
разными пользователями, поэтому они снабжены
«встроенным» оригинальным программным
обеспечением для решения поисковых и
аналитических задач (XAIRA, «Этап», «STARLING»).
Текстовые инструменты
• Морфологическую и синтаксическую разметку
в исследовательском корпусе можно
осуществить и с помощью доступных
текстовых инструментов, автономных
программ типа AntConc
[http://www.antconc3.2.0w.beta3exe]
или Web Corpus Builder
[http://www.er.uqam.ca/nobel/r21270/cgibin/tools/corpus_builder/]
и парсеров
[http://visl.sdu.dk/visl/en/parsing/automatic/parse
.ph ]
Учебный корпус (корпус
учащегося)
• Наиболее известными и представительными
корпусами этого направления являются
– International Corpus of Learner English (ICLE),
созданный в начале 90х в Бельгии С. Гранже и
содержащий эссе носителей 14 национальных
языков
– Гонконгский корпус письменных текстов студентов,
изучающих английский язык – Academic English
(2002)
– Мичиганский корпус Michigan Corpus of Academic
Spoken English (MICASE)
– корпус ELFA (English as Lingua Franca in Academic
Settings) в Тампере, создаваемый группой под
руководством Анны Мауранен.
Критерии построения корпуса
обучаемых
• Language
– Medium
(устная/письменная
коммуникация)
– Genre
– Topic
– Technicality
(частоты пассивов,
сложности ИГ и т.п)
– Task setting
• Learner
–
–
–
–
–
Age
Sex
Mother tongue
Region
Other foreign
languages
– Level
– Learning context
– Practical experience
Download