Название учебного практикума

реклама
Программа «Фонд образовательных инноваций»
Ф.И.О. (полностью) автора(ов)-преподавателя(ей)
Ильвовский Дмитрий Алексеевич
Черняк Екатерина Леонидовна
Факультет, кафедра
Факультет компьютерных наук
Департамент анализа данных
Название учебного практикума
Программные системы для обработки и анализа текстов
Аннотация учебного практикума
Общая идея практикума заключается в проведении студентами полного цикла
создания, обработки и анализа собственного корпуса текстов. Цель проведения
практикума – познакомить студентов с наиболее востребованными и
интересными задачами и подходами в области обработки и анализа текстов и
научить их использовать для решения этих задач современные популярные
программные системы и инструменты.
Практикум посвящен теоретическому и практическому знакомству с
программными системами и средствами, предназначенными для обработки
текстовых данных. Рассматриваются системы, работающие с английским и
русским языком. В практикуме освещается ряд задач, связанных с обработкой
текстовых данных. В их число входят морфологический, синтаксический и
семантический анализ текста, суммаризация, выделение ключевых
словосочетаний, выявление скрытых тем, методы визуализации текстов.
Рассматриваются основные методы решения этих задач и их реализация.
Практикум включает в себя знакомство с системами и библиотеками Tomita,
NLTK, StanfordNLP, pyMorphy и т.д.
Обучение проходит в интерактивном режиме: в начале каждого занятия
преподаватели представляют одну из задач обработки и анализа текстов и
рассказывают о методах ее решения. После этого студенты при помощи
преподавателей приступают к решению рассмотренной задачи, используя
соответствующие программные системы. Предполагается, что в ходе первого
занятия каждый студент составит собственный веб-корпус и в течение всего
практикума будет работать с ним и решать различные задачи на собственном
веб-корпусе.
Для обучения используются в основном англоязычные учебники, находящиеся
в свободном доступе: Foundations of Natural Language Processing (C.D. Manning,
1
Программа «Фонд образовательных инноваций»
H. Schuetze, MIT Press) и Speech and Language Processing (D. Jurafsky, J. M.
Martin, Prentice Hall, 2008), а также русскоязычные статьи. В качестве
вспомогательных материалов используются инструкции и пособия по работе с
программными системами.
Методическая новизна учебного практикума
Область обработки и анализа текстов является одной из самых важных и быстро
развивающихся областей в компьютерных науках. Это вызвано отчасти
стремительным ростом вычислительных мощностей, во вторых, многообразием
накапливаемых текстовых данных: все тексты интернета, истории болезней,
декларации и прочие тексты. Однако анализ рынка труда обнаруживает
дефицит специалистов, владеющих методологией и методикой обработки
текстов. Это связано с некоторыми ограничениями существующих
дидактических подходов и образовательных программ. Область обработки и
анализа текстов находится, как правило, на стыке двух образовательных
программ: структурной / компьютерной лингвистики и анализа данных.
Специалисты, имеющие подготовку в области компьютерной лингвистики,
обладают обширными знаниями в области устройства и структуры языка,
специфики различных текстов на нем написанных, но не владеют полностью
математическим аппаратом для обработки и анализа текстов и, что более важно,
навыками программирования и работы с различными существующими
программными системами. Напротив, специалисты, получившие подготовку по
анализу данных, владеют необходимым математическим аппаратом и умеют
работать с большими объемами любых данных. Однако, как правило,
образовательные программы по анализу данных направлены на изучение
методов, моделей и программных систем для анализа структурированных
данных и почти не учитывают специфику неструктурированных данных, в
частности, текстовых данных. Таким образом, в обеих образовательных
программах существует некоторые пробелы, которые представляемый
практикум призван заполнить. Практикум имеет междисциплинарный характер
и предполагает изучение лингвистических моделей и математических методов
обработки и анализа текстов.
Содержательная новизна учебного практикума
В Высшей Школе Экономики в настоящий момент есть две дисциплины,
частично схожие с предлагаемым практикумом: «Компьютерная лингвистика»
на магистерской программе «Компьютерная лингвистика» и «Автоматическая
обработка текстов» на бакалаврской программе отделения прикладной
математики и информатики факультета компьютерных наук. Первая
дисциплина предполагает изучение лингвистических моделей
графематического, морфологического и синтаксического анализа и
программных систем, в которых представленные модели реализованы. Вторая
дисциплина посвящена изучению формальных грамматик, моделей синтаксиса,
алгоритмов классификации и категоризации текстов и программных систем, в
которых представленные модели реализованы. В предлагаемом практикуме мы
2
Программа «Фонд образовательных инноваций»
затронем все перечисленные темы, а также несколько современных актуальных
прикладных задач, например, задачу выделения скрытых тем или задачу
визуализации текстов. Практикум, хоть и пересекается с обеими дисциплинами,
не копирует ни одну из них. Напротив, он в сжатой форме комбинирует и
дополняет необходимые навыки и знания из обеих дисциплин. Также
необходимо отметить, что практикум носит более прикладной характер и
знакомит студентов с наиболее эффективными и активно используемыми
программными системами и подходами в области анализа текстов.
Опишите новизну/актуальность системы оценивания представляемого
учебного практикума
Оценка за практикум состоит из двух частей. Первая часть составляет 0.5 от
итоговой оценки и складывается из еженедельных отчетов по практическим
занятиям. На практических занятиях студенты используют некоторые
программные системы для решения изучаемых задач, по результатам своей
работы они представляют отчет. Например, на занятии может быть рассмотрена
задача выделения ключевых словосочетаний и ее решений с помощью Томитапарсера. На практической части занятия студенты извлекают ключевые
словосочетания из собственной коллекции текстов. В качестве домашнего
задания студенты оформляют отчет по проведенному анализу собственной
коллекции.
Вторая часть оценки складывается из оценок за выступления на коллоквиуме и
составляет 0.5 от итоговой оценки. Студентам предлагается выбрать одну из 8
практических задач обработки и анализа текстов, рассмотренных в ходе
практикуме, и сделать десятиминутный доклад о способах решения данной
задачи и результатах, полученных на собственном веб-корпусе.
На оценку 4-5 достаточно сдать большую часть еженедельных отчетов;
На оценку 6-7 необходимо сдать большую часть еженедельных отчетов и
сделать доклад об одной из рассмотренных в ходе практикума задаче;
На оценку 8-10 необходимо сдать все еженедельные отчеты, сделать доклад об
одной из рассмотренных в ходе практикума задаче и собственных результатах.
На какие компетенции нацелена предлагаемая к разработке программа
учебного практикума
Знания
Умения
Навыки
Знание моделей морфологии и синтаксиса, задач выделения
ключевых слов и словосочетаний, выявления скрытых тем,
визуализации текстов и основ корпусной лингвистики.
Умения самостоятельно анализировать текстовые данные,
выбирать необходимые методы и программные инструменты,
комбинировать их для решения реальных задач.
Навыки владения современными программными средствами по
обработке и анализу текстовых данных
3
Программа «Фонд образовательных инноваций»
Как проект может быть распространен на другие отделения и факультеты?
Проект может быть распространён на отделение программной инженерии
факультета компьютерных наук и магистерскую программу «Компьютерная
лингвистика» факультета филологии. В первом случае, следует сделать акцент
на изучение архитектуры программных систем для обработки и анализа текстов
и доработку студентами существующих программных систем, объединение их
в общий программный комплекс, создание связей между различными
приложениями для полной автоматизации всего цикла создания, обработки и
анализа текстов. Во втором случае, больший интерес составляют результаты
анализа собранных и обработанных корпусов. Другими словами, студентам
отделения программной инженерии можно предложить разработать
собственные системы для обработки и анализа текстов, включающие в себя
рассмотренные в курсе программы и библиотеки, а студентам программы
«компьютерная лингвистика» -- составить собственные корпуса, провести их
обработку и анализ, и сравнить полученные на выходе результаты, чтобы
проследить сходства и различия в источниках, выявить новые языковые
тенденции, и т.д.
4
Похожие документы
Скачать