МОДЕЛЬ ДАННЫХ ДЛЯ КАТАЛОГА РУССКИХ ЛЕКСИЧЕСКИХ КОНСТРУКЦИЙ (НА МАТЕРИАЛЕ НКРЯ) Митрофанова О.А., Грачкова М.А., Паничева П.В., Шиморина П.В. СПбГУ, Санкт-Петербург, Россия Ляшевская О.Н. НИУ ВШЭ, ИРЯ РАН, Москва, Россия История проекта Цель проекта – разработать основанную на статистических методах технологию автоматического распознавания типичных конструкций, связанных с той или иной лексической единицей. Особенности будущего ресурса: • автоматическая обработка данных; • для последующего ручного отбора; • на базе корпуса, с использованием корпусной аннотации; • более содержательная кластеризация данных, чем списки n-грамм или коллокаций. Сотрудничество Национального корпуса русского языка (НКРЯ, http://ruscorpora.ru) и кафедры математической лингвистики СПбГУ Лингвистические данные: существительные – обозначения речевых действий (дискуссия, комплимент, обращение, обсуждение, ответ и т.д.), названия эмоций (апатия, благодарность, грусть, гнев, любовь и т.д.), названия инструментов (бритва, веник, весло, карандаш, коса и т.д.). Предшествующие исследования Автоматическое разрешение лексико-семантической неоднозначности целевых слов Используемые методы и процедуры: • • Построение векторной модели контекстных выборок Автоматическая классификация контекстов с использованием машинного обучения и распознавания образов • Применение машины опорных векторов для оценки репрезентативности контекстных выборок, для проверки гипотезы о разрешении неоднозначности с обучением на контекстах однозначных представителей ЛСГ Доказана эффективность разрешения лексико-семантической неоднозначности целевых слов с опорой на лексикосемантическую разметку НКРЯ. См., например: [Митрофанова и коллеги, 2012] Многоярусная разметка контекстов НКРЯ Я всегда робею, отвечая на этот вопрос. <se> <w><ana lex="я" sem="r:pers " gr="SPRO sg 1p nom"/>Я</w> <w><ana lex="всегда" sem="r:spec t:time " gr="ADVPRO"/>всегда</w> <w><ana lex="робеть" gr="V ipf intr act sg praes 1p indic"/>робею</w> , <w><ana lex="отвечать" sem="t:speech " gr="V ipf intr act ger praes"/>отвечая</w> <w><ana lex="на" gr="PR"/>на</w> <w><ana lex="этот" sem="r:dem " gr="APRO m sg acc inan"/>этот</w> <w><ana lex="вопрос" SEMF="t:speech r:abstr " gr="S m inan sg acc"/>вопрос</w>. </se> Подробнее о разметке см. http://www.ruscorpora.ru/corpora-sem.html Традиционная лексикография и описание конструкций Модели управления и другие сочетаемостные шаблоны русских предметных и абстрактных имен, в отличие от глаголов, описаны в традиционной лексикографии недостаточно. Толковые словари (МАС, БАС, Бабенко и др.) содержат «традиционные» указания о сочетаемости, не охватывают всех синтаксических особенностей, не отражают новых тенденций, синтаксическая информация указывается далеко не у всех имен ТКС, НОСС, Активный словарь и др.: небольшой охват имен Словари компьютерных систем: недостаточно доступны исследователям информация в машиночитаемом виде первые шаги в сторону пользователей: электронные ресурсы WordSketches, FrameBank и др. Ресурсы, ориентированные на исследование конструкций • контекстное профилирование с помощью n-грамм • PropBank (http://verbs.colorado.edu/~mpalmer/projects/ace.html), • NomBank (http://nlp.cs.nyu.edu/meyers/NomBank.html), • FrameNet (https://framenet.icsi.berkeley.edu/fndrupal/), • DeepDict (http://gramtrans.com/deepdict/), • Sketch Engine (http://www.sketchengine.co.uk/), • StringNet (http://nav3.stringnet.org/) • FrameBank (http://framebank.ru) См., например, обзоры в [Ляшевская и коллеги, 2012; Ляшевская и коллеги, 2013] Трактовка конструкций Наше понимание конструкций согласуется с идеями Грамматики конструкций [Fillmore 1988a,b, Goldberg 1995, 2006 и т.д.]: Конструкция – сложный языковой знак, характеризующийся единством формы и значения Конструкции – это наблюдаемые в речи последовательности единиц, из которых одно (или несколько) – константа, а другие – переменные. Примеры конструкций – коллокация, коллострукция, морфосинтаксическая схема, модель управления, комбинация с лексической функцией, синтаксическая группа с фиксированными лексическими слотами, или конструкция «малого синтаксиса», и др. Гипотеза о генерализации (Dąbrowska 2004, Tomasello 2003): при усвоении языка происходит обобщение сходных регулярных цепочек слов до единиц более абстрактного уровня (=конструкций), основа обобщения – единицы морфологического, лексического, синтаксического и любого другого уровня. Наш взгляд на конструкции • позволяет, в отличие от метода n-грамм, относиться избирательно к сочетаемостным возможностям целевых слов, • отражает идею взаимосвязи и взаимопроникновения различных уровней языка (от фонетического/графического до лексического), • допускает рассмотрение языковых выражений не в их проекции на один из множества уровней (как представлялось бы с точки зрения модульного подхода), а как многоярусные структуры. Конструкция – это комбинация целевого слова и слотов, заполняемых регулярными контекстными соседями, среди которых могут быть lex – леммы, gr – грамматические, sem – лексико-семантические и т. п. признаки. Конструкция – это абстрактный шаблон, предполагающий лексикализацию, т.е. различные реализации в виде комбинаций лемм/словоформ Пример: V|дать, найти, предложить… ОТВЕТ + PR|на + speech r:abstr|вопрос, r:qual|простой, неоднозначный… + ОТВЕТ, ОТВЕТ + t:hum r:concr|академикам, мудрецам, отцу... Конструкции должны фиксировать регулярную сочетаемость целевого слова в определенном его лексическом значении. Тем самым, структуру многозначности целевого слова можно описать как семейства конструкций. Пример: КОМАНДА (речевое действие) t:poss|давать, дать + КОМАНДА по + КОМАНДА + t:hum r:concr| уборщица, трактирщик, староста… КОМАНДА (организация) t:hier r:qual|главный + t:hum r:concr|тренер + КОМАНДА + t:hum r:propn t:persn|Вадим, Валерий, Владимир, Олег + t:hum r:propn t:famn|Никонов, Газзаев, Цимерман, Романцев Значение конструкции характеризуется большей или меньшей устойчивостью, варьирующей от регулярной свободной сочетаемости до высокой идиоматичности. Лексикализованные конструкции могут удовлетворять принципу композиционности, если в них реализуется типовая свободная сочетаемость. Некомпозиционные сочетания (фраземы), в которых лексически фиксированы все элементы (ср. любовь с первого взгляда), также входят в фонд лексических конструкций, наряду с более свободными шаблонами, где ограничения на элементы задаются признаками типа «глагол», «инфинитив», «предлог на + предложный падеж». Пример: комплимент княжне –>… –> обмен комплиментами –>… –> поток комплиментов Инструмент автоматического выделения и кластеризации конструкций Разработан специализированный модуль CxI на языке Perl, где используются некоторые стандартные средства для обработки контекстных выборок с многоярусной лингвистической разметкой и для эффективной выдачи данных (в частности, XML::LibXML, YAML, Log::Log4perl). Важнейший компонент модуля – пакет Algorithm::Combinatorics, с помощью которого производится выявление частотных комбинаций тегов в контекстах для целевых слов. Пользовательский интерфейс программы автоматического выделения и кластеризации конструкций На входе программы – файл с выборкой контекстов с целевым словом. Пользователь определяет параметры обработки данных: • типы тегов, учитываемых при выделении конструкций (lex, sem, gr), • ширина контекстного окна (от -5 до + 5), • число конструкций в выдаче (от 1 до 50). Файл с результатами – наиболее частотные сочетания целевого слова и различных тегов контекстного окружения (lex, sem, gr). Пример: gr+lex+sem gr+sem+gr gr+sem+sem lex+sem+gr gr+gr+sem gr+gr+gr PR|в + АЗАРТ + der:v r:abstr der:s|игра PR|в + t:psych r:abstr + S f inan pl gen|игра PR|в + t:psych r:abstr + der:v r:abstr der:s|игра в + t:psych r:abstr + S f inan pl gen|игра PR|в + S m inan sg loc + der:v r:abstr der:s|игра PR|в + S m inan sg loc + S f inan pl gen|игра Параметры конструкций Ширина конструкции (двойки, тройки, четверки…) определяется контекстным окном Глубина конструкции – число признаков, одновременно характеризующих элементы конструкции Конструкции с двухслойной структурой, т.е. компоненты конструкции могут одновременно характеризоваться не более чем двумя признаками: lex+gr (теги лемм и морфологические теги ), или lex+sem (теги лемм и лексико-семантические теги). Примеры: ОТВЕТ + PR|на + t:speech r:abstr|приветствие, вопрос, высказывание, рапорт, реплика V pf tran inf act|найти, дать + A m sg acc inan plen|простой, однозначный + ОТВЕТ + PR|на +S m inan sg acc|вопрос Конструкции с компонентами, в состав которых входят теги sem – лексико-семантические теги, поскольку чаще всего с ними ассоциируются группы лемм, выражающих общее значение и характеризующихся близкими дистрибутивными свойствами. Примеры: r:rel|риторический, мировой, процедурный, спорный, шекспировский, практический, методический + ВОПРОС ОБСУЖДЕНИЕ + t:ment r:abstr|проект, концепция + r:abstr|благоустройство, реформирование, реформа ОТВЕТ + FW + t:speech r:abstr|запрос, призыв, вопрос, приветствие, просьба, высказывание, похвала, рапорт, реплика Развертка простейшей структуры в сложную многокомпонентную конструкцию Пример: найти, дать + простой, однозначный + ОТВЕТ + на + вопрос t:poss|дать, получить, давать + ОТВЕТ r:qual|простой, неточный, точный, вероятный, логичный, нужный, вразумительный, ясный, приличный + ОТВЕТ r:rel|готовый, однозначный, стандартный, истинный, числовой, заданный, релевантный, эмоциональный, содержательный, необязывающий…+ ОТВЕТ t:move t:poss|найти + r:qual|простой, точный, приличный + ОТВЕТ + FW + t:speech r:abstr|вопрос t:poss|давать, дать + r:rel|конкретный, однозначный, окончательный + ОТВЕТ + FW + вопрос ОТВЕТ + PR|на + t:speech r:abstr|приветствие, вопрос, высказывание, рапорт, реплика V pf tran inf act|найти, дать + A m sg acc inan plen|простой, однозначный + ОТВЕТ + PR|на ++S m inan sg acc|вопрос Визуализация данных о конструкциях Для получения графических представлений, отражающих структуру и наполнение конструкций, был задействован модуль pattern.graph (http://www.clips.ua.ac.be/pages/pattern-graph) • разработан на языке Python • предназначен для визуализации различных типов связей в тексте Процедура визуализации На входе – строка (конструкция) На выходе – граф, иллюстрирующий конструкцию Визуализация производится в два этапа: 1) производится парсинг строки конструкции и выявление ее главных и второстепенных элементов с сохранением порядка следования; 2) из них создается граф, отражающий данные структурные соответствия между элементами. Отражение структуры конструкции в графах Красный цвет – узел, содержащий целевое слово Зеленый цвет – выделены ребра графа, связывающие между собой элементы разметки конструкции (лексикосемантические и морфологические теги) Синий цвет – ребра графа, связывающие теги лемм с лексико-семантическими и морфологическими тегами Графическое представление конструкции ОТВЕТ + PR|на + t:speech r:abstr| приветствие, опрос, высказывание, рапорт, реплика Графическое представление конструкции ЛЮБОВЬ + PR|с + ANUM m sg gen|первый + S f inan sg gen|взгляд Заключение • Инструмент автоматического выделения конструкций приспособлен для обработки контекстных выборок из НКРЯ, его применение позволило получить списки конструкций для целевых существительных. • Полученные конструкции различаются по числу компонентов (это пары, тройки, четверки, пятерки, состоящие из тегов контекстного окружения) и по наполнению (это двухслойные структуры, в состав которых входят либо морфологические теги и теги лемм, либо лексико-семантические теги и теги лемм). • Задача визуализации данных о выделенных конструкциях успешно решается с помощью модуля pattern.graph, позволяющего наглядно представлять организацию конструкций, иерархию и различные типы их компонентов. Перспективы развития исследования: • отражение в конструкции трех слоев разметки (леммы, грамматические теги, лексико-семантические теги) одновременно; • учет статуса факультативных элементов конструкции – в нынешней версии такой функционал не предусмотрен; • переход к динамической организации модуля визуализации – особенно в тех случаях, когда конструкции содержат много элементов и много лексических вариантов реализации; • визуальное представление нескольких конструкций в контексте, когда конструкции с разными лексическими центрами «наслаиваются» друг на друга; • сопоставление выделенных наборов лексических конструкций с наборами, который мог бы выделить лексикограф на тех же данных. Библиография Fillmore Ch.J., Kay P., O’Connor M.C. (1988a) Regularity and idiomaticity in grammatical constructions: The case of “let alone”. Language, 64-3. Fillmore Ch.J. (1988b) The Mechanisms of Construction Grammar. Proceedings of the Berkeley Linguistic Society. Vol. 14. Goldberg A.E. (1995) Constructions. A Construction Grammar Approach to Argument Structure. Chicago, IL/London: University of Chicago Press. Goldberg A.E. (2006) Constructions at Work: the Nature of Generalization in Language. Oxford: Oxford University Press. Dąbrowska E. (2004) Language, Mind and Brain: Some Psychological and Neurological Constraints on Theories of Grammar. Edinburgh University Press, Edinburgh and Georgetown University Press, Georgetown. de Smedt T., Daelemans W. (2012) Pattern for Python. Journal of Machine Learning Research, 13. Tomasello M. (2003) Constructing a Language: A Usage-Based Approach to Child Language Acquisition. Cambridge, MA: Harvard University Press. Ляшевская О.Н., Митрофанова О.А., Грачкова М.А., Шиморина А.С., Шурыгина А.С., Романов С.В. (2012) К построению инвентаря русских именных конструкций // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.). Вып. 11 (18).- М.: Изд-во РГГУ. Ляшевская О.Н., Митрофанова О.А., Паничева П.В. (2013) Визуализация данных для каталога русских лексических конструкций (на материале НКРЯ ) // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая — 2 июня 2013 г.). Вып. 12 (19). — М.: Изд-во РГГУ. Митрофанова О.А., Ляшевская О.Н., Грачкова М.А., Шиморина А.С., Шурыгина А.С., Романов С.В. (2012) Эксперименты по автоматическому разрешению лексико-семантической неоднозначности и выделению конструкций (на материале Национального корпуса русского языка) // Структурная и прикладная лингвистика. Вып. 9. СПб., 2012. ВОПРОСЫ??? СПАСИБО ЗА ВНИМАНИЕ!