Описание семантических отношений в системе СКАЗКА-2 Рафаева А.В. e-mail: [email protected] Московский государственный университет им. М.В. Ломоносова Исследование фольклора – это прежде всего работа с большими объемами текстов, их сравнение и сопоставление. Для частичной автоматизации этой работы автором разрабатывается система СКАЗКА-2. Ее основная задача – служить инструментом для исследования текста русских волшебных сказок, предоставлять исследователю данные для анализа, автоматизировать трудоёмкие действия и сопоставлять большие объемы данных. Система позволяет в автоматическом или полуавтоматическом режиме создавать словари, конкордансы, отбирать тексты, отвечающие определенным критериям, а также проводить эксперименты над текстами сказок, входящих в систему. В настоящее время система включает в себя тексты русских сказок из авторитетных сказочных сборников и современных записей (всего ок. 1,5 млн. словоупотреблений), ряд модулей для обработки текста (составление частотного словаря, составление конкордансов, обработка текстов как символьных последовательностей и некоторые другие), а также частотный словарь словоформ и словарь Зализняка [1] в электронной форме. Основными направлениями работы с системой сейчас являются следующие: 1. Обработка текста в автоматическом режиме без привлечения дополнительной информации (поиск заданных слов или словосочетаний, составление конкордансов, автоматическое составление частотного словаря словоформ, автоматическое сравнение и сопоставление текстов с использованием алгоритмов обработки символьных последовательностей). Текст при этом рассматривается как последовательность символов, дополнительные данные не привлекаются. 2. Обработка текста с учетом структуры и семантики сказочного текста и подготовка данных для дальнейшего ручного анализа. Второе направление работы требует учета семантических отношений в сказке. Необходимо учитывать отношения между сказочными персонажами, связь между локусами и обитающими там сверхъестественными существами, наиболее типичные роли сказочных персонажей и/или предметов и т.п. Как неоднократно отмечалось (см [2, 3]), при работе с фольклорными текстами нельзя полностью полагаться на существующие общеузуальные словари, более того, тексты различных жанров будут сильно различаться как по составу используемой лексики, так и по семантическим ролям наиболее значимых единиц, например, дома. Приведем пример. Как подробно рассмотрено в [4], в русских волшебных сказках болото служит местом обитания чудесной невесты (царевны-лягушки), а также может, в зависимости от контекста, заменять озеро (и то, и другое – место обитания чертей), лес (как место, где находится избушка лесного демона), трудную дорогу (описание странствий героя), реку (как одно из препятствий в мотиве укрощения чудесного коня). Такие характеристики болота, как топкое, зыбучее, отражающие промежуточное положение болота между водой и сушей, часто используются в эпитетах и устойчивых формулах, однако практически не влияют на развитие сказочного сюжета. Наконец, болото и всё, что с ним связано, имеет отчётливые отрицательные коннотации. Все эти характеристики болота как одного из локусов, значимых для волшебной сказки, хотелось бы учитывать при дальнейшем автоматическом анализе. В то же время обработанного материала недостаточно для того, чтобы однозначно выделить существенные для сказки семантические отношения и составить даже предварительную версию тезауруса сказочной лексики. В частности, добавление нового материала к системе приводит к появлению новых семантических отношений. При этом уже накопленные и обработанные данные могут быть использованы в дальнейшем автоматическом анализе, несмотря на их явную неполноту. Таким образом, возникла необходимость создать программное средство для описания семантических отношений между единицами будущего словаря и накопления как самих описаний, так и используемых функций. Для этого в системе используется модуль для описания и визуализации семантических отношений между словарными единицами (существительными или, реже, устойчивыми именными группами, например, тридевятое царство). В настоящее время семантические отношения, существенные для сказочного текста, являются побочным продуктом анализа отдельных персонажей (сверхъестественных существ, животных и т.п.) или мотивов. Алгоритм работы в этом случае следующий: 1. Выделение всех единиц для поиска с помощью частотного словаря. 2. Автоматическое составление конкордансов по всему корпусу или выборочно. 3. Ручной анализ семантических ролей искомых единиц и их фиксация в графе, описывающем семантические отношения. На первом этапе семантические отношения описываются в произвольной форме и включают, по большей части, функции искомой единицы в сказке. Например, при описании персонажей учитываются как их возможные роли по Проппу (см. [5]), так и дополнительные функции, например, быть диковинкой. Определяется также класс, к которому может принадлежать словарная единица. Заметим, что такие классы не обязательно совпадают с общеупотребительными. Например, кот предстает в волшебной сказке как домашнее животное, как животное, живущее в лесу и подчиняющееся бабе-яге (т.е. дикое) и как заморская диковинка, в том числе в виде украшения чудесного дерева. 4. Следующим этапом является проверка и уточнение выделенных семантических отношений. Для этого в программе предусмотрена возможность редактирования полученного графа. Более сложные операции над графом, а также визуализация, реализованы с помощью интерфейса, позволяющего подключать открытый пакет для работы с графами GraphViz (см. [6]). Описанные метод работы и программное обеспечение позволяют постепенно находить и уточнять семантические отношения, актуальные для волшебной сказки, что позволяет при выделении их идти «от материала», а не «от теории», учитывая специфику исследуемого жанра. Литература 1. Зализняк А. А. Грамматический словарь русского языка. Словоизменение. 2 е изд., стереотип. – М.: Рус. Яз., 1980. – 880 с. 2. Никитина С. Е., Кукушкина Е. Ю. Дом в свадебных причитаниях и духовных стихах (опыт тезаурусного описания). М.: ИЯз РАН, 2000. – 216 с. 3. Бобунова М. А., Хроленко А. Т. Словарь языка русского фольклора: Лексика былины. – Курск: Издво Курск. гос. ун-та, 2006. – 314 с. 4. Рафаева А.В. «И заехал в такие места пустынные, что только леса да болота»: болота и пустыни в русской волшебной сказке // Универсалии русской литературы. 3. – Воронеж: ООО ИПЦ «Научная книга», 2011. – С. 380 – 398. 5. Пропп В. Я. Морфология <волшебной> сказки. Исторические корни волшебной сказки. – М.: Лабиринт, 1998. – 512 с. 6. Gansner E.R., North S.C. An open graph visualization system and its applications to software engineering [Электронный ресурс]// Graphviz – graph visualization software. Url: http://www.graphviz.org/Documentation/GN99.pdf. [1999] (дата обращения 21.02.2011).