azabaykin - Конференции

advertisement
Технология автоматизации
создания метрических
справочников русских поэтов
А. В. Забайкин
д.т.н. В. Б. Барахнин
к.фил.н. О. Ю. Кожемякина
ИВТ СО РАН 2014г
Актуальность
• Необходимость лингвистической обработки
большого количества поэтических корпусов
• Отсутствие инструмента для автоматизации
анализа поэтических текстов
• Автоматическое создание специализированных
справочников, словарей рифм
Постановка задачи
1. Разработка алгоритмов по выделению
следующих характеристик
–
–
–
–
Метрико-ритмические характеристики
Рифмовка строфики
Количество мужских, женских, дактилических
окончаний
Количество нерифмованных мужских, женских,
дактилических окончаний
2. Сравнение результатов со статистическими
справочниками, составленными вручную
Фонетические и метрико-ритмические
характеристики
Разработаны следующие модули:
Модуль фонетического разбора
Модуль-классификатор силлаботонического типа
Модуль анализа рифм
- мужские, женские, дактилические
- кольцевая, смежная, перекрестная, ...
Модуль-классификатор силлаботонического типа
Метром называется последовательность
слабых и сильных позиций (мест).
Сильные позиции называются иктами.
1.
2.
3.
4.
5.
6.
Шаги алгоритма:
разбить текст на строки;
для каждой строки выдать ее акцентуированную версию.
преобразовать строку в последовательность, состоящую из символов
определить, принадлежит ли последовательность тому или иному метру.
Для последовательности проверить наличие ударных слогов на позициях,
определяемых размером.
Указать номера иктов, несущих ударения.
Модуль фонетического разбора
• Необходим для определения
рифмовки
• Работает на основе правил
Определение рифмовки
Шаги алгоритма:
1. составить массив конечных слов для всех строк
2. для каждой пары слов из массива проверить
3. Указать в качестве рифмующихся пар такие пары
Подготовительная работа
• Подготовка БД ударений. 3 647 000 словоформ
• Отсутствие готовой БД стихов. Написан парсер
для выделения стихов из академического
издания.
• Создание единой БД
– Академическое издание в 16 томах
– Конкорданс к стихам А.С. Пушкина
– Метрический справочник Пушкина
Сопоставление названий
стихотворений из разных источников
• Набор правил с весами
• Год, название, первая строка,
количество строк
• Автоматическое соединение дало
примерно 413 совпадений из 799 стихов
• Нельзя обойтись без ручной
перепроверки
Тестирование
• Тест на 413 стихотворениях
А.С.Пушкина
• 367 – правильное определение
силлабо-тонических метров
• 289 – правильно определилась
рифмовка
• Нулевая ошибка второго рода
• Основная проблема в ударениях
(омонимы, устаревшая лексика)
Результаты
• Разработано web-приложение для
анализа одного стихотворения:
poem.ict.sbras.ru
• Разработано программное средство
для создания справочника в
автоматическом режиме (python)
• Требуется доработка и отладка, снятие
омонимии
Poem.ict.sbras.ru
Литература
•
•
•
•
•
Козьмин, А. В. "Автоматический анализ стиха в системе
Starling."Компьютерная лингвистика и интеллектуальные технологии:
Труды международной конференции «Диалог. 2006.
Правила русской орфографии и пунктуации. Полный академический
справочник / Под ред. В. В. Лопатина. / Москва 2007
Лапшина, Надежда Васильевна. Метрический справочник к
стихотворениям АС Пушкина. Академия, 1934.
Дж. Томас Шоу, Конкорданс к стихам А.С. Пушкина, Языки русской
культуры ISBN 5-88766-059-7; 2000 г.
Барахнин, В. Б., О. Ю. Кожемякина. "Об автоматизации комплексного
анализа русского поэтического текста." Электронные библиотеки:
перспективные методы и технологии, электронные коллекции: Тр. XIV
Всерос. науч. конф. Переславль-Залесский. 2012.
Спасибо за внимание
Download