avtoreferat_makarova_2015 - Факультет искусств

advertisement
ПРАВИТЕЛЬСТВО РОСССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
ФАКУЛЬТЕТ ИСКУССТВ
Кафедра информационных систем в искусстве и гуманитарных науках
Автореферат
магистерской диссертации
Основная образовательная программа
«Инженерия гуманитарных знаний»
Направление 230700 «Прикладная информатика»
Уровень Магистратура
На тему
«Разработка системы квазиреферирования научных текстов»
Студента Макарова Ольга Егоровна
Руководитель профессор кафедры «Информационные системы в искусстве и
гуманитарных науках», СПБГУ, д.ф.н., Ягунова Елена Викторовна
Рецензент доцент кафедры «Информационные технологии и автоматизированные
системы», МИЭМ НИУ ВШЭ, к.т.н., Клышинский Эдуард Станиславович
Санкт-Петербург 2015
Реферируемая магистерская работа посвящена разработке системы автоматического
квазиреферирования научных текстов на русском языке.
В современном информационном обществе, основанном на экономике знаний,
своевременный доступ к информации является одним из главных приоритетов.
Существует множество технологий, призванных упростить работу с текстовой
информацией: классификация и кластеризация текстов, библиографическое описание,
информационный полнотекстовый поиск, извлечение информации, аннотирование и
реферирование текстов.
Реферат — это вторичный документ, отражающий ключевую информацию (в
зависимости от поставленной задачи), но в более компактном виде, чем в исходных
данных.
Развитие технологий обработки естественного языка позволяет автоматические
создавать рефераты, по качеству сравнимые с составленными экспертами вручную.
Первые системы автоматического реферирования для английского языка создавались
еще в конце 50х годов, но так как задачи в области реферирования разнообразны и
многоаспектны, активные исследования и разработки новых методов и подходов
продолжаются, а с ростом объемов текстовой информации их актуальность и
практическая значимость только увеличивается.
Целью рассматриваемой работы является создание гибкой системы автоматического
квазиреферирования научных текстов на русском языке, позволяющей порождать
вторичные документы, содержащие основные тезисы исходных научных статей.
Были выдвинуты следующие гипотезы:

Используя сочетания методов реферирования, различных по своей природе,
можно создавать более качественные рефераты

Используя вычисляемые параметры текста, можно обучить систему выбирать
оптимальные сочетания для каждого текста
Для достижения поставленной цели и проверки выдвинутых гипотез были решены
следующие задачи:

проанализированы существующие методы автоматического реферирования;

рассмотрены особенности научного стиля текста в русском языке;

проанализирована применимость и реализуемость ряда методов автоматического
реферирования для русского языка;

выработана стратегия подбора наиболее успешного метода или сочетания
методов автоматического реферирования для конкретного текста или коллекции;

создана система программных модулей, осуществляющих весь ряд процессов,
необходимых для порождения рефератов.
Текст магистерской диссертации состоит из введения, 5 глав и заключения.
В обзоре литературы подробно рассматриваются различные задачи в области
автоматического реферирования, возможные исходные данные, цели, подходы и методы
составления рефератов. Описывается ряд существующих алгоритмов и анализируется
их применимость и возможность реализации для работы с русским языком. Так же
рассматриваются
различные
способы
оценки
результатов
работы
систем
автоматического реферирования.
Отдельное внимание уделяется особенностям научного стиля текста, композиционной и
информационной структуре, отличительным чертам русскоязычных научных текстов.
Анализируются вычислительные характеристики текста, и ставится вопрос о
возможности их применения для повышения качества реферирования.
Исходными данными для исследований и экспериментов являются тексты на русском
языке
сборников
4
конференций
в
области
компьютерной
лингвистики
и
интеллектуальных технологий за разные годы, всего около 500 документов, прошедших
экспертное рецензирование.
Большинство популярных методов оценки качества реферирования предполагают
наличие так называемого золотого стандарта (рефератов, созданных экспертами) и/или
дополнительные
виды
внешней
экспертной
оценки.
Поэтому
были
собраны
дополнительные данные для проведения разных видов оценки: ключевые слова ко всем
текстам в коллекциях для автоматизированной предварительной оценки; ключевые
слова, выделенные 20 информантами и набор из 50 рефератов, вручную составленных
экспертами по 10 текстам.
При составлении реферата невозможно игнорировать особенности научного стиля
текста, композиционной и информационной структур. Более того, русскоязычные
научные тексты очень разнородны по структуре, стилю и т.д., даже работы, прошедшие
рецензирование, зачастую не удовлетворяют традиционным правилам академического
письма. Эти правила обязательны для англоязычных текстов рейтинговых конференций
и журналов, а именно этот материал лег в основу наибольшего количества работ по
реферированию научных текстов. Этот факт затрудняет прямо перенос опыта работы с
английского (наиболее разработанного в области автоматического анализа текста) на
русский язык. Для того чтобы учесть разнородность рассматриваемых нами
русскоязычных текстов были посчитаны интегральные характеристики текстов, такие
как энтропия и удобочитаемость.
В ходе работы были выбраны и реализованы 3 метода автоматического реферирования,
основанные на разных аспектах текста: статистический, структурный и семантический.
Ни один из методов не опирается на знания какой-либо конкретной предметной
области, что позволяет их использовать на материале любой научной направленности.
Семантический метод предполагает использование семантического ресурса, что часто
затруднено для русского языка с недостаточным количеством открытых ресурсов
подобного типа. В работе использована lite-версия лингвистической онтологии
«тезаурус РуТез» (Н.Лукашевич), содержащая общую лексику и свободно доступная
для некоммерческих исследований.
Достоверность результатов подтверждается большим объемом рассматриваемых
исходных данных и проведением оценки по нескольким методикам.
Основные проблемы при оценке рефератов – большой объем экспертного труда и
субъективность. Наиболее признанные методы оценки в настоящее время базируются
на семействе статистических метрик ROUGE. Суть процесса заключается в
сопоставлении оцениваемого реферата с одним или несколькими экспертными
рефератами по разным параметрам (совпадение наибольшего числа n-грамм,
наибольшая длинна общей цепочки слов и др.). Использование набора экспертных
рефератов (в нашем случае по 5 на каждый исходный текст) позволяет частично снять
проблему субъективности, но увеличивает объем дорогостоящей экспертной работы и
накладывает серьезные ограничения на размер тестовой коллекции.
Для проведения экспериментов с вычислительными характеристиками текстов и
предварительной проверки выдвинутых гипотез использовалась оценка по ключевым
словам, позволяющая оценить параметры полнота и лаконичность. Для проведения
оценки составляется список ключевых слов текста (вручную и/или автоматически), и
высчитывается, сколько слов из списка представлено в реферате и какую долю слов в
реферате составляют ключевые слова. Выделение ключевых слов значительно проще и
быстрее, чем составление рефератов, что позволяет значительно сократить затраты на
проведение оценки, и привлечь большее количество информантов для решения
проблемы
субъективности
оценки.
Возможность
извлекать
ключевые
слова
автоматически позволяет делать предварительную оценку по всей коллекции, вне
зависимости от ее объема.
После проведения предварительной автоматизированной оценки по ключевым словам,
результаты работы всех 3 методов и их сочетаний были сопоставлены со значениями
характеристик
текстов.
Этот
анализ
позволил
выработать
несколько
правил,
улучшающих качество порождаемых системой рефератов за счет учета таких
характеристик, как энтропия, длина цепочек слов в родительном падеже, лексическое
разнообразие и удобочитаемость исходного текста.
Главные
правила,
позволяющие
осуществлять
гибкую
подстройку
системы
реферирования:
1) «Хорошие» тексты, следующие строгой структуре и правилам академического
письма, успешно реферируются с помощью статистических и структурных методов, а
значит, для работы системы не обязательны труднодоступные лингвистические
ресурсы.
2) Тексты с нарушением структуры и с нетипичным для научного стиля представлением
информации лучше реферируются с использованием семантики.
3) Высокое лексическое разнообразие с высокой вероятностью приводит к низкому
качеству
семантического
реферирования
из-за
недостаточной
наполненности
используемого словаря. Используемые правила построения лексических цепей
расчитаны на работу с понятиями, представленными 1-2 граммами, и не плохо
справляются с обработкой длинных генетивных цепочек.
Результаты экспериментов подтверждают выдвинутые гипотезы.
Гибкая подстройка сочетаний методов реферирования под значения характеристик
каждого текста позволила улучшить качество работы системы по параметру полнота на
8% по сравнению с наилучшей из опробованных статичных версий системы. Особый
интерес
представляют
сопоставление
результатов
реферирования
«плохих»
и
«хороших» научных текстов. Для обработки первых необходимо использование
семантических методов, однако в случае с хорошо структурированными текстами
использование семантики часто вносит информационный шум. Учет особенностей, как
всей коллекции, так и каждого конкретного текста, для повышения качества работы
является основой научной новизной рассматриваемой диссертации.
Разработанная
в
результате
проведенных
экспериментов
система
состоит
из
независимых модулей, реализующих следующие процессы:

предобработка исходных текстов;

вычисление характеристик текстов, таких как энтропия, удобочитаемость, и др.;

взвешивание предложений-кандидатов в реферат по адаптированной метрике Tfidf (статистический метод реферирования);

взвешивание
предложений
по
ряду
структурных
правил
и
шаблонов
(структурный метод реферирования);

построение лексических цепей над текстом с использованием lite-версии
лингвистической онтологии «тезаурус РуТез»; (семантическое представление)

взвешивание
предложений
с
использованием
лексических
цепей;
(семантический метод реферирования)

составление текста реферата из взвешенных предложений с учетом значений
энтропии текста и др. (гибкая подстройка);

автоматическая оценка рефератов:
◦ выделение ключевых слов для предварительной оценки;
◦ оценка рефератов по параметрам полнота и лаконичность;
◦ оценка рефератов по нескольким версиям метрики ROUGE;
Все модули реализованы на популярном языке программирования Python, с
использованием библиотек NLTK и pymorphy2. Результаты работы каждого модуля
могут быть сохранены в текстовых файлах, что обеспечивает их независимость.
Независимость разработанных модулей позволяет использовать их в дальнейших
исследованиях и разработках, даже не связанных с задачей реферирования.
Из направлений возможной будущей работы над темой можно отметить разработку
дополнительного модуля преобразования предложений, который позволит упрощать и
сокращать сложные синтаксические структуры для улучшения понятности и краткости
порождаемых рефератов.
Основные результаты магистерской работы прошли апробацию в виде нескольких
докладов:

«Автоматическое реферирование: работа с новостными и научными текстами»
на семинаре «The Russian Language Seminar» (Финляндия, Хельсинки, 2014);

«Читабельность и энтропия как интегральные параметры текста для улучшения
автоматического
реферирования»
в
рамках
VII
международной
междисциплинарной научной конференции «Понимание в коммуникации»
(Коломна, 2015);

«Readability and Scientific Texts Quality for the Automatic Summarization» на
конференции «20th European Symposium on Languages for Special Purposes»
(прошел рецензирование, состоится в июле 2015, Австрия, Вена).
Дополнительные результаты по применимости ключевых слов для автоматической
оценки результатов реферирования были представлены на конференции «AINL:
искусственный интеллект и естественный язык» (Москва, 2014) в докладе «Гибкая
система оценки квазирефератов новостных текстов».
Download