Технология автоматизации создания метрических справочников русских поэтов А. В. Забайкин д.т.н. В. Б. Барахнин к.фил.н. О. Ю. Кожемякина ИВТ СО РАН 2014г Актуальность • Необходимость лингвистической обработки большого количества поэтических корпусов • Отсутствие инструмента для автоматизации анализа поэтических текстов • Автоматическое создание специализированных справочников, словарей рифм Постановка задачи 1. Разработка алгоритмов по выделению следующих характеристик – – – – Метрико-ритмические характеристики Рифмовка строфики Количество мужских, женских, дактилических окончаний Количество нерифмованных мужских, женских, дактилических окончаний 2. Сравнение результатов со статистическими справочниками, составленными вручную Фонетические и метрико-ритмические характеристики Разработаны следующие модули: Модуль фонетического разбора Модуль-классификатор силлаботонического типа Модуль анализа рифм - мужские, женские, дактилические - кольцевая, смежная, перекрестная, ... Модуль-классификатор силлаботонического типа Метром называется последовательность слабых и сильных позиций (мест). Сильные позиции называются иктами. 1. 2. 3. 4. 5. 6. Шаги алгоритма: разбить текст на строки; для каждой строки выдать ее акцентуированную версию. преобразовать строку в последовательность, состоящую из символов определить, принадлежит ли последовательность тому или иному метру. Для последовательности проверить наличие ударных слогов на позициях, определяемых размером. Указать номера иктов, несущих ударения. Модуль фонетического разбора • Необходим для определения рифмовки • Работает на основе правил Определение рифмовки Шаги алгоритма: 1. составить массив конечных слов для всех строк 2. для каждой пары слов из массива проверить 3. Указать в качестве рифмующихся пар такие пары Подготовительная работа • Подготовка БД ударений. 3 647 000 словоформ • Отсутствие готовой БД стихов. Написан парсер для выделения стихов из академического издания. • Создание единой БД – Академическое издание в 16 томах – Конкорданс к стихам А.С. Пушкина – Метрический справочник Пушкина Сопоставление названий стихотворений из разных источников • Набор правил с весами • Год, название, первая строка, количество строк • Автоматическое соединение дало примерно 413 совпадений из 799 стихов • Нельзя обойтись без ручной перепроверки Тестирование • Тест на 413 стихотворениях А.С.Пушкина • 367 – правильное определение силлабо-тонических метров • 289 – правильно определилась рифмовка • Нулевая ошибка второго рода • Основная проблема в ударениях (омонимы, устаревшая лексика) Результаты • Разработано web-приложение для анализа одного стихотворения: poem.ict.sbras.ru • Разработано программное средство для создания справочника в автоматическом режиме (python) • Требуется доработка и отладка, снятие омонимии Poem.ict.sbras.ru Литература • • • • • Козьмин, А. В. "Автоматический анализ стиха в системе Starling."Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог. 2006. Правила русской орфографии и пунктуации. Полный академический справочник / Под ред. В. В. Лопатина. / Москва 2007 Лапшина, Надежда Васильевна. Метрический справочник к стихотворениям АС Пушкина. Академия, 1934. Дж. Томас Шоу, Конкорданс к стихам А.С. Пушкина, Языки русской культуры ISBN 5-88766-059-7; 2000 г. Барахнин, В. Б., О. Ю. Кожемякина. "Об автоматизации комплексного анализа русского поэтического текста." Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Тр. XIV Всерос. науч. конф. Переславль-Залесский. 2012. Спасибо за внимание