ТИПОЛОГИЯ СПЕЦИАЛЬНЫХ КОРПУСОВ ТЕКСТОВ Классифицирующие признаки • Типообразующие (параметрические) – – – – тип и жанр данных язык характер разметки Синхроничность /диахроничность – величина • Корпусообразующие – базовый признак при образовании корпуса публицистических текстов -«жанр» – Параметрические: письменный, устный размер динамичность (синхроничный, диахроничный) характер разметки (морфологическая, синтаксическая, семантическая, просодическая и др.) • Представляется уместным принять в качестве «корпусообразующего» признака цель, для которой этот корпус был создан. Тогда типологию корпусов следует выводить из двух главных целей: создания национальных и специальных корпусов. • Национальный корпус – это, по определению, большой корпус, который стремится к объединению в своей структуре текстов самых разных жанров и типов (современные технологии помогают встраивать в национальные корпуса аудио и видео материалы). Чем больше размер такого корпуса, чем глубже и точнее разметка, чем эффективнее программное обеспечение такого корпуса, тем лучше. • Специальный корпус (special corpus) – это сбалансированный корпус, как правило, небольшой по размеру, предназначенный для использования только в целях, соответствующих замыслу составителя. Типы специальных корпусов • корпус текстов для построения частотного словаря автора • корпус устной детской речи (Kuehnast 2008:253-260) для изучения нулевой анафоры в речи детей раннего возраста • параллельные корпуса для определения степени адекватности перевода, совершенствования систем машинного перевода и гармонизации терминологии • параллельные корпуса для сопоставительных исследований грамматик сходных и контактирующих языков (Регенсбургский параллельный корпус) • учебные корпуса (Learner corpora), которые составляются из речевых (устных и письменных) произведений студентов на изучаемом иностранном языке. Такие корпуса давно и успешно используются для исследования путей оптимизации преподавания • Для построения любого корпуса, а специального в особенности, необходимо определить два его важнейших системных свойства – доминанту и таксон (Рыков 2006:347349). Доминанта корпуса • Доминанта, по определению Г.П. Мельникова, – это «характерное функциональное свойство системы, для реализации которой адаптируются все остальные ее элементы, их взаимосвязи и свойства». По отношению к корпусу текстов доминанта представляет собою основную идею, замысел корпуса, то, ради чего весь корпус задумывался. Доминанта корпуса • По отношению к представительному корпусу текстов доминанта декларирует наличие в составе своих текстов всего (или большинства) разнообразия речевой деятельности общества. Такой корпус имеет своей целью представление языка во всем его многообразии, поэтому исследовательская деятельность в этом случае направлена на совершенствование корпуса как сложноорганизованной системы. Особую актуальность получают вопросы отбора, кодирования и формата текстов для корпуса, совершенствования разного рода разметок, облегчающих поиск в корпусе, моделирования связей и отношений между текстами-объектами корпуса. Доминанта корпуса • Пользователь национального корпуса должен получить возможность удобного доступа к данным корпуса в соответствии с его интересами и запросами. Область интересов и запросов потенциального пользователя можно смоделировать только в самом общем виде, с другой стороны, у пользователя есть реальная возможность получить из корпуса только ту информацию о языке, которую предусмотрели составители корпуса. Поэтому предполагаемая объективность данных большого корпуса неизбежно ограничится субъективным фактором возможностей его разработчиков. Доминанта корпуса • Разработчик специального корпуса, напротив, ограничивая себя частной эвристической задачей, выбирает параметры корпуса, которые, с его точки зрения, наиболее приближают ее решение. Поэтому полученные результаты вполне объективны по отношению к исследуемому аспекту языка или речевой деятельности в данном отобранном материале. Доминанта корпуса • В специальном исследовательском корпусе доминантой будет та лингвистическая задача, которую ставит перед собой исследователь (контрастивный анализ, гармонизация терминологии, составление частотного отраслевого словаря, исследование индивидуального авторского языка и т.п.) или удовлетворение потребностей потенциального пользователя, преподавателя или обучающегося. Этой системной доминанте должны быть подчинены состав (свойства текстов и жанров), структура и другие параметры корпуса. Таксон • Построение корпуса текстов должно характеризоваться единой процедурой отбора текстов. В частности, следует учитывать классификационные признаки текстов, в связи с чем предлагается использовать известные в теории классификации понятия таксон и мерон. Таксон • Таксон – группа объектов с общими свойствами в составе некоторой системы, классификации. Совокупность свойств объектов, составляющих таксон, называется мероном. Так, в составе представительного корпуса текстов в качестве таксона могут выступать жанры, например, публицистика, а в пределах этого жанра таксонами могут быть репортажи и передовые статьи. Меронами в этом случае полагаются внешние свойства текстов – время публикации, канал, массовость публикации. Таксон • Понятия таксона и мерона релевантны и для специального корпуса текстов. Например, учебные корпуса (Learner Corpora) включают, как правило, тексты двух таксонов – письменные и устные, внутри которых предполагается деление по жанрам (монолог, диалог, эссе, письмо и пр.). Меронами текстов в рамках разных жанров в этом случае будут уровень владения языком, размер текста, тема, родной язык обучающегося. Таксон • Таким образом, понятия «таксон» и «мерон» предполагают известную долю относительности по сравнению с понятиями «жанр», «канал», «авторство текста» и другими. Псевдопараллельный корпус • Многоязычный специальный корпус может быть псевдопараллельным, если тексты в его составе соотносимы по жанру и предметной области. В таком корпусе удобно проводить сопоставительный анализ формальных и функциональных языковых объектов. Программное обеспечение корпуса • Автоматический поиск в корпусе обеспечивается морфологической разметкой (part-of-speech tagging) – основным типом разметки, включающим признак части речи и присущих ей грамматических категорий (например, род, падеж и число для существительного). Наиболее известные корпуса предназначены для многократного использования разными пользователями, поэтому они снабжены «встроенным» оригинальным программным обеспечением для решения поисковых и аналитических задач (XAIRA, «Этап», «STARLING»). Текстовые инструменты • Морфологическую и синтаксическую разметку в исследовательском корпусе можно осуществить и с помощью доступных текстовых инструментов, автономных программ типа AntConc [http://www.antconc3.2.0w.beta3exe] или Web Corpus Builder [http://www.er.uqam.ca/nobel/r21270/cgibin/tools/corpus_builder/] и парсеров [http://visl.sdu.dk/visl/en/parsing/automatic/parse .ph ] Учебный корпус (корпус учащегося) • Наиболее известными и представительными корпусами этого направления являются – International Corpus of Learner English (ICLE), созданный в начале 90х в Бельгии С. Гранже и содержащий эссе носителей 14 национальных языков – Гонконгский корпус письменных текстов студентов, изучающих английский язык – Academic English (2002) – Мичиганский корпус Michigan Corpus of Academic Spoken English (MICASE) – корпус ELFA (English as Lingua Franca in Academic Settings) в Тампере, создаваемый группой под руководством Анны Мауранен. Критерии построения корпуса обучаемых • Language – Medium (устная/письменная коммуникация) – Genre – Topic – Technicality (частоты пассивов, сложности ИГ и т.п) – Task setting • Learner – – – – – Age Sex Mother tongue Region Other foreign languages – Level – Learning context – Practical experience