Михаил Копотев Хельсинки 13.10.2005 Проблемы языкового аннотирования Хельсинкского аннотированного корпуса текстов ХАНКО "A corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machinereadable text, sampled in order to be maximally representative of the language variety under consideration" (McEnery & Wilson 1996: 24). • • Неаннотированный корпус (= чистый текст) Аннотированный корпус (содержащий лингвистическую, текстовую, жанровую и т.д. разметку) • There can be no claim that the annotation scheme represents ‘God’s truth’. Rather, the annotated corpus is made available to a research community on a caveat emptor principle. It is offered as a matter of convenience only, on the assumption that many users will find it useful to use a corpus with annotations already built in, rather than to devise and apply their own annotation schemes from scratch. (Leech 1993) • Корпусная лингвистика1 = корпусные исследования "исследования языка с помощью корпусных методов". • Корпусная лингвистика2 = "создание корпусов". ХЕЛЬСИНКСКИЙ АННОТИРОВАННЫЙ КОРПУС ХАНКО http://www.slav.helsinki.fi/hanco Основные принципы создания корпуса • Направленность на широкий круг пользователей • Направленность на максимальный охват грамматической информации, а не на объем материала. • Направленность на многоуровневую грамматическую информацию • Направленность на устоявшиеся представления о языке • Возможность более чем одной интерпретации языковых фактов • Учет многокомпонентных единиц Типы лингвистической информации • Морфологическая информация • Синтаксическая информация • (Функционально-семантическая информация) МОРФОЛОГИЧЕСКАЯ РАЗМЕТКА В ХАНКО • ТЕКСТОФОРМА = единица автоматического анализа, часто понимаемая как набор знаков от пробела до пробела. (1) Я буду читать эту книгу завтра. • ЛЕММА = «начальная форма», совокупность текстоформ, сведенных в одну единицу в результате автоматического анализа. (2) Ключ упал в ручей, на дне которого бил ключ. НЕОДНОЗНАЧНОСТЬ VS ОМОНИМИЯ (3) ... рядовой беженский быт поначалу кажется в общем сносным. (4) Завтракали и обедали мы в общем ресторане нашей части гостиницы. (5) …мы должны будем идти на непозволительные политические уступки. • Снимаемая неоднозначность • Контекстуальная неоднозначность (6) ...предприниматель будет обращаться в одно ведомство, которое само проведет консультации со всеми заинтересованными инстанциями…. • Теоретическая неоднозначность (7) Тысяча, в течение, во-первых СИНТАКСИЧЕСКИЕ ПРИЗНАКИ В ХАНКО • Традиционная теория членов предложения (А. А. Шахматов, В. В. Виноградов, Н. С. Валгина и др.). • Грамматика структурных схем (Н. Ю. Шведова, В. А. Белошапкова и др.). • Грамматика зависимостей (И. А. Мельчук, И. М. Богуславский, Л. Л. Иомдин и др.) Традиционная теория членов предложения • Плюсы: – общеизвестность; – возможность косвенным образом искать материал для исследований, опирающихся и на другие синтаксические подходы. • Минусы: – описание синтаксических узлов и игнорирование синтаксических связей; – непоследовательность в описании и неустранимые противоречия; – сложность автоматической обработки. Грамматика структурных схем Плюсы: • образовательный стандарт для большинства вузов России; • «академическая» поддержка. Минусы: • отсутствие конечного списка структурных схем; • невнимание к единицам, не входящим в «структурную схему»; • Сложность автоматического анализа Грамматика зависимостей Плюсы: • описание синтаксических отношений; • большая детализация в классификации синтаксических связей; • возможность автоматического анализа. Минусы: • меньшая известность; • меньшее внимание к характеристике узлов (=синтаксических позиций). ЛИТЕРАТУРА • • • • • • • Fillmore, Ch. 1992: 'Corpus linguistics or computer-aided armchair linguistics', Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82, Stockholm, 4– 8 August, 1991 Berlin 35-60. Leech, G. 1993: ‘Corpus annotation schemes’ Literary and Linguistic Computing, 8/4, 275—81. McEnery & Wilson 1996: McEnery, T. and Wilson, A. Corpus Linguistics. Edinburgh: University Press. Seitz, E. 1998: Digital Corpora and Databases: New Horizons in Slavic Linguistics. At www.fltr.ucl.ac.be/FLTR/GERM/ETAN/przemek/ftp/corpora.html. Sinclair 1991: Corpus, Concordance, Collocation. Oxford: Oxford University Press. Копотев, М., Мустайоки, А. 2004: «Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети интернет». Научнотехническая информация. Сер. 2: Информационные системы и процессы. № 6: Корпусная лингвистика в России, 33-37. А. Мустайоки et al. 2005: Принципы синтаксической разметки Хельсинкского аннотированного корпуса русских текстов ХАНКО // Прикладная лингвистика в поиске новых путей. СПб., [в печати].