НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра Правительство Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики" (Нижний Новгород) Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра магистерская программа «Прикладная лингвистика» Автор программы: Хоменко А.Ю., преподаватель кафедры прикладной лингвистики и межкультурной коммуникации, [email protected] Одобрена на заседании кафедры прикладной лингвистики и межкультурной коммуникации «28»августа 2014 г. Зав. кафедрой В.Г. Зусман Рекомендована секцией УМС «Гуманитарные науки» «28»августа 2014 г. Председатель В.Г. Зусман Утверждена УМС НИУ ВШЭ – Нижний Новгород «22»сентября 2014 г. Председатель В.М. Бухаров Нижний Новгород, 2014 Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра 1. Область применения и нормативные ссылки Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для преподавателей, ведущих данную дисциплину, и студентов направления подготовки 45.04.03 «Фундаментальная и прикладная лингвистика», обучающихся по магистерской программе «Политическая лингвистика», изучающих дисциплину. Программа разработана в соответствии с: образовательным стандартом НИУ ВШЭ для направления 45.04.03 «Фундаментальная и прикладная лингвистика»; Образовательной программой направления 45.04.03 «Фундаментальная и прикладная лингвистика» (магистерская программа «Политическая лингвистика»). Учебным планом университета по направлению подготовки 45.04.03 «Фундаментальная и прикладная лингвистика» (магистерская программа «Политическая лингвистика»), утвержденным в 2014 г. 2. Цели освоения дисциплины Цель освоения дисциплины – формирование умений и навыков магистрантов программы в области автоматической обработки естественного языка (natural language processing) и компьютерной лингвистики (computational linguistics), освоение программного инструментария для решения прикладных задач обработки текста. Задачи дисциплины: формирование навыков использования современных информационных технологий в языкознании и лингвистическом анализе; развитие представлений о принципах построения математических моделей обработки информации и о границах применимости компьютерных и количественных методов в лингвистике и филологии; формирование навыков математической обработки информации в гуманитарных исследованиях. 3. Компетенции дисциплины обучающегося, формируемые в результате освоения В результате освоения дисциплины студент должен: Знать современные методы обработки текста на естественном языке, владеть лингвистической и статистической терминологией, необходимой для чтения литературы в этой области (на русском и английском языках). Уметь использовать методы автоматического анализа текста для политических исследований, строить и анализировать частотные списки языковых единиц, извлекать данные из текста с помощью регулярных выражений, формулировать правила извлечения информации в терминах контекстно-свободных грамматик. 2 НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра Иметь навыки работы с программным обеспечением для автоматического анализа текстов: морфологическими и синтаксическими анализаторами, конкордансами, системами извлечения фактов и отношений, инструментами кластеризации, классификации и тематического моделирования коллекций документов. В результате освоения дисциплины студент осваивает следующие компетенции: Компетенция Код по Дескрипторы – основные признаки ФГОС/ освоения (показатели достижения НИУ результата) Формы и методы обучения, способствующие формированию и развитию компетенции Способен рефлексировать (оценивать и перерабатывать) освоенные научные методы и способы деятельности. Магистрант способен применять полученные знания СК-М1 и навыки при решении практических задач Домашнее задание, семинары Способен предлагать концепции, модели, изобретать и апробировать способы и инструменты профессиональной деятельности При выполнении домашнего задания магистрант не только воспроизводит усвоенные СК-М2 знания, но и проявляет креативность в решении прикладных задач Домашнее задание Способен анализировать, верифицировать, оценивать полноту информации в ходе профессиональной Магистрант участвует в деятельности, при интерактивных методах, Лекции, семинары, необходимости восполнять СК-М6 творчески решает кейсы и домашнее задание и синтезировать выполняет домашнее задание недостающую информацию и работать в условиях неопределенности Способен проводить анализ качества языковых данных, корпусов, систем, использующихся для автоматической обработки естественного языка Способен осуществлять лингвистическую обработку текстов в производственнопрактических целях ПК-9 Магистрант справляется с решением практических задач Лекции, семинары, на семинарских занятиях, домашнее задание, осуществляет подготовку к подготовка к экзамену экзамену При выполнении домашнего задания и при решении кейсов Семинары, ПК-17 грамотно использует задание. программное обеспечение 3 домашнее НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра Способен проводить квалифицированный анализ различных типов устного и письменного дискурса в производственнопрактических целях При выполнении домашнего задания дает развернутый ПК-19 ответ, демонстрируя Домашнее задание сформированные навыки анализа текстов. 4. Место дисциплины в структуре образовательной программы Настоящая дисциплина относится к вариативной части цикла дисциплин программы, читается в 2-4 модулях первого года обучения и базируется на дисциплинах «Корпусные методы в политической лингвистике», «Формальные модели в лингвистике», «Функциональные и когнитивные модели в лингвистике». Основные положения дисциплины могут быть использованы в дальнейшем при изучении следующих дисциплин как «Лингвистическая конфликтология», «Научноисследовательский семинар», «Социолингвистика», «Политическая лингвистика». 5. Тематический план учебной дисциплины Аудиторные часы № Название раздела Всего часов Лекции 1 2 3 4 5 6 Основы теоретической, вычислительной и экспериментальной лингвистики Компьютерная лингвистика: методы, ресурсы, приложения Начальные этапы анализа текста Инструментальные системы разработки приложений по автоматической обработке текстов на естественном языке Алгоритмы классификации полнотекстовых документов Информационные потоки и сложные сети Всего Трудоемкость в зачетных единицах 22 4 12 2 24 24 4 4 4 6 16 14 26 4 6 16 36 6 8 22 144 4 з.е. 24 28 92 6. Формы контроля знаний студентов Тип контроля Форма контроля 2 1 год 3 Параметры 4 4 Семина -ры 4 Самост оятельная работа 14 10 НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра Текущий (неделя) Домашнее задание Итоговый Экзамен * * * Решение кейса в области прикладной лингвистики, 10 неделя модуля 3 Устный экзамен (вопрос из списка экзаменационных вопросов и практическая задача). 1.1 Критерии оценки знаний, навыков Домашнее задание предполагает решение практической задачи (кейса) из предложенных преподавателем (примеры кейсов для домашнего задания прилагаются в п. 9 программы) Оценка работы осуществляется на основе следующих критериев: 10 баллов – кейс решен оптимальным образом, работа оформлена без содержательных и формальных ошибок, условия и выводы сформулированы грамотно, магистрант по итогам решения кейса вышел на уровень рекомендаций или аналитического заключения; 8-9 баллов – кейс решен оптимальным образом, работа оформлена с незначительными ошибками, преимущественно формальными, условия и выводы сформулированы грамотно; 6-7 баллов – кейс решен верно, работа оформлена с несколькими ошибками, преимущественно формальными, условия и выводы сформулированы; 4-5 баллов - кейс решен верно, однако работа оформлена с ошибками, как формальными, так и содержательными; 2-3 балла – кейс решен не верно, работа небрежно оформлена; 1 балл – решение не самостоятельное (плагиат). Итоговый контроль – предполагает устный экзамен (вопрос на воспроизведение знаний в области компьютерной лингвистики и решение практической задачи). Баллы за тест выставляются следующим образом: 10 баллов – дан полный ответ на экзаменационный вопрос, задача решена оптимальным образом, магистрант свободно ориентируется в материале и готов отвечать на любой вопрос по разделам дисциплины; 9 баллов – дан полный ответ на экзаменационный вопрос, задача решена оптимальным образом, магистрант готов отвечать на вопросы по разделам дисциплины; 8 баллов – дан полный ответ на экзаменационный вопрос, задача решена оптимальным образом; 7 баллов – дан верный ответ на экзаменационный вопрос с незначительными упущениями по содержанию, задача решена верно, 6 баллов – дан в целом верный, но схематичный ответ на экзаменационный вопрос, задача решена верно, 5 баллов – дан схематичный ответ на экзаменационный вопрос, задача решена с ошибками, 4 балла – ответ на экзаменационный вопрос – схематичный, с значительными упущениями, на дополнительные вопросы в рамках билета отвечает верно; задача решена с ошибками; 3 балла – ответ на экзаменационный вопрос не верный, на дополнительные вопросы в рамках билета не отвечает, задача решена с ошибками, 2 балла – магистрант отказывается от ответа, задача не решена; 5 НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра 1 балл – магистрант уличен в списывании. 1.2 Порядок формирования оценок по дисциплине Отек. = Одом.задание Онакопленная = Отек (0,7) + Оауд (0,3) Оитоговый = Онакопленная (0,5) + О экз(0,5) Способ округления оценок – арифметический. 7. Содержание дисциплины № Раздел 1 Основы теоретической, вычислительной и экспериментальной лингвистики Темы 1. Язык. Текст. Основы лингвистики и теории речевой коммуникации Содержание Часы Литераауд с/р тура Языки. Тексты. Основы 1 4 1;2 речевой коммуникации. Принцип моделирования. Цели, методы, задачи Образовательные технологии: лекциивизуализации. 2. Слово— коллокация– синтаксические конструкции– текст. Единица анализа и контекст Инвентарные и конструк- 3 тивные единицы. Избыточность. Контекстная предсказуемость. Единица анализа и контекст. Коллокации и конструкции. Типы коллокаций и конструкций. Принцип шкалирования. Образовательные технологии: проблемная лекция, семинар – деловая игра 6 1;2/6 3. Семантическая и информационная структуры при анализе текстов и/или коллекций Анализ текста в парадигме 3 когнитивных исследований. Анализ текста в парадигмах автоматического понимания текста. Избыточность. Компрессия текста. Свертки текста. Образовательные технологии: лекциивизуализации, традиционный семинар. 4 2/3 6 НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра 4. Объект исследования современной лингвистики текста. Информационный поток. 1 Коллокации и конструкции как составляющие текстов. Свертки для описания разных информационных объектов Образовательные технологии: лекциявизуализация 4 1;2 2 Компьютерная лингвистика: методы, ресурсы, приложения 5. Компьютерная лингвистика: методы, ресурсы, приложения Задачи компьютерной 2 лингвистики. Особенности системы ЕЯ: уровни и связи. Моделирование в компьютерной лингвистике. Образовательные технологии: проблемная лекция. 10 4;5;6 3 Начальные этапы анализа текста 6. Морфологический анализ и синтез Словарный морфологичес4 кий анализ и синтез. Автоматизированное пополнение морфологического словаря. Образовательные технологии: лекциявизуализация, семинар – метод кейсов. 8 1;2 7. Постморфологический и предсинтаксический анализ Автоматизированное снятие 4 омонимии. Постморфологический анализ. Образовательные технологии: лекциявизуализация, семинар – метод кейсов. 8 2;1,5 8. Инструментальные системы разработки приложений по автоматической обработке текстов на естественном языке Программные средства 10 лингвистической обработки. Представление лингвистических данных. Архитектура инструментальных ЕЯсистем. Системы обработки ЕЯ-текстов. Образовательные технологии: проблемная лекция, семинар – метод кейсов. 14 1;2/1;2;3 4 Инструментальные системы разработки приложений по автоматической обработке текстов на естественном языке 7 НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра 5 6 Алгоритмы классификации полнотекстовых документов 9. Алгоритмы классификации с учителем Представление данных в 6 задачах классификации текстов. Отбор терминов для классификации. Алгоритм наивной байесовской классификации. Образовательные технологии: лекциявизуализация, семинар – метод кейсов. 10. Алгоритмы Иерархические алгоритмы. 4 классификации Алгоритмk-средних. без учителя Плотностный алгоритмDBSCAN. Образовательные технологии: лекциявизуализация, семинар – метод кейсов. Информационны 11. Основы Понятие информационного е потоки и анализа пространства. сложные сети информационн Информационный поток как ого объект исследования пространства и Тематические информационн информационные потоки. ых Моделирование потоков информационных потоков. Образовательные технологии: лекциявизуализация, семинар – метод кейсов. 12. Ранговые распределения в Самоподобие в лингвистике. Степенное информационн распределение и ом самоподобие. Основы пространстве фрактального анализа информационных потоков. Образовательные технологии: лекциявизуализация, семинар – 8 8 1;4;5 8 2;5 1;2 1;2;6 НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра метод кейсов. 13. Сложные информационн ые сети. Основы концепции сложных сетей. Параметры сложных сетей. Сложные сети и задачи компьютерной лингвистики. Образовательные технологии: проблемная лекция, семинар - мозговой штурм. 3 8. Образовательные технологии Лекции, семинары, домашнее задание. 8.1 Методические рекомендации преподавателю Данный курс существует носит прикладной характер и ориентирован на решение практических задач из области социолингвистики и политической лингвистики с помощью IT-технологий. В рамках учебной дисциплины используются следующие образовательные технологии: Для лекционных занятий лекция-визуализация – лекция, представляющая собой подачу лекционного материала с помощью технических средств обучения; проблемная лекция - вид лекции, на которой новое знание вводится через вопрос, задачу, процесс познания студентов приближается к исследовательской деятельности через диалог с преподавателем. Для семинарских занятий деловая игра – имитация, упрощенное воспроизведение реальной производственной (экономической) ситуации в игровой форме, в которой каждый участник выполняет действия, аналогичные поведению людей в жизни, но с учетом принятых правил игры; мозговой штурм – это семинарское занятие, в ходе которого поиск решения проблемы осуществляется через стимулирование творческой активности, когда участникам обсуждения предлагают высказывать как можно большее количество вариантов решения, из которых в дальнейшем выбирается наиболее удачное для использования на практике; метод кейсов – способ организации семинарских занятий, который способствует развитию умения анализировать ситуации, оценивать альтернативы, выбирать оптимальный вариант и оставлять план его осуществления, а также вырабатывать у студентов устойчивый навык решения практических задач. 8.2 Методические рекомендации студентам Современные образовательные технологии, использующиеся в рамках данной учебной дисциплины, предъявляют особые требования к самостоятельной работе 9 НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра магистрантов. Для успешного освоения данного курса требуются сформированные навыки работы с литературой на иностранных языках. Специфика данной дисциплины также предъявляет требования к компьютерной грамотности магистранта на уровне «продвинутого пользователя». При подготовке домашней работы необходимо использовать программное обеспечение, рекомендуемое преподавателем. Требования к оформлению домашней работы – стандартные (титульный лист, содержание домашней работы, введение, основная часть, заключение, список литературы, приложения). Самостоятельная работа студентов осуществляется в соответствии с «Методическими рекомендациями по организации самостоятельной работы студентов НИУ ВШЭ – Нижний Новгород», утвержденными УМС от 30.04.2014, протокол № 4. 9. Оценочные средства для текущего контроля и аттестации студента 9.1. Тематика заданий текущего контроля Примерные задания для домашних заданий: 1. Построить частотный список лемм для корпуса текстов политических новостей региональных СМИ. Проиллюстрировать выполнение закона Ципфа графиком зависимости частотности от ранга на логарифмической шкале. 2. Построить список коллокаций по корпусу политических новостей региональных СМИ. Выделить наиболее значимые коллокации корпуса (биграммы, триграммы, разрывные коллокации). Использовать различные подходы: коллокации словоформ и коллокации лемм. Выделить наиболее значимые коллокаты к указанным ключевым словам (словоформы и леммы). 3. Разработать словари и грамматику для извлечения упоминаний партий и связанных с ними событий в заданном корпусе текстов. 9.2. Вопросы для оценки качества освоения дисциплины 1. Основные направления компьютерной лингвистики. 2. Когнитивный инструментарий компьютерной лингвистики. «Фреймы», «сценарии» и«планы». 3. Компьютерное обеспечение представления знаний. 4. Естественные и искусственные языки. Виды искусственных языков. 5. Автоматизированный анализ: распознавание и синтез устной и письменной речи. 6. Морфологический анализ, проблемы семантического анализа, синтаксический анализ. 7. Реферирование и аннотирование текста. 8. Лингвистические базы данных: модели и типы данных. Создания общих искусственных языков для представления информации. 9. Языковые уровни и стандартный цикл обработки текста. Закон Ципфа. 10. Взвешенная частотность. TF-IDF. Лексическая дисперсия. 11. Статистические языковые модели. N-граммы. 12. Коллокации. 13. Дистрибутивная семантика. 14. Кластеризация текстов. 15. Классификация текстов. 16. Латентный семантический анализ. 10 НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра 17. Тематическое моделирование. Метод латентного размещения Дирихле. 18. Методы извлечения мнений (sentiment analysis). 19. Формальные грамматики. Регулярные грамматики. Контекстно-свободные грамматики. 20. Методы сегментации текста. 21. Распознавание именованных сущностей. 22. Стилометрия. Автоматическое определение жанровой принадлежности. 23. Современный машинный перевод. Предпосылки возникновения и развитие машинного перевода(МП). 24. Последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода. 25. Стратегии машинного перевода. Автоматизированные и полуавтоматизированные системы перевода. 26. Компьютерная лексикография. Словарные процессоры. 27. Основные понятия структуры словаря: словник, словарная статья, грамматические, стилистические пометы; иллюстративный материал. Типология электронных словарей. 28. Тезаурусы и терминологические словари. 29. Компьютерные технологии составления и эксплуатации словарей. Специальные программы– базы данных, компьютерные картотеки, программы обработки текста. 30. Типы лингвистической разметки. 31. Информационные технологии в научной деятельности(этапы конструирования логики научного исследования). Поисковые компьютерные программы и их использование в научных проектах. 32. Использование компьютера при частотных статистических анализах текстов на материалах разных языков. 33. Компьютерная лингводидактика. Дидактическая концепция обучения на основе компьютерных технологий. 34. Принципы создания электронных учебных средств. Классификация электронных средств учебного назначения. 35. Использование инновационных технологий при проведении научноисследовательской работы. 9.3. Примеры заданий итогового контроля Задание 1. На основе приложенных данных (текст с данными по частотности лексем, биграммами и словарь ассоциаций) реконструируйте концепт-идологемы политической биографии. Задание 2. При помощи программного обеспечения из учебного текста необходимо извлечь: список наиболее связанных n-грамм по коллекции; список наиболее связанных nграмм по подколлекции. Поясните практический смысл использования n-грамм. Задание 3. Проведите кластерный анализ на основе предложенной матрицы, составленной по итогам интент-анализа политических новостей. Дайте характеристику полученной дендограмме и поясните практический смысл использования кластеризации. 11 НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра 10. Учебно-методическое и информационное обеспечение дисциплины 10.1.Основная литература 1. Попов А.М., Сотников В.Н., Пагаева Е.И., Акимов Н. Информатика и информационные технологии 4-е изд., пер. и доп. Учебник для бакалавров. – Москва: Юрайт, 2012. ISBN: 978-5-9916-1489-4. 2. Тихонова С.А. Политическая лингвистика: учебное пособие. - Омск: Омский государственный университет, 2012. 132стр. ISBN: 978-5-7779-1457-6 10.2.Дополнительная литература в сети интернет 1. Информационные технологии в лингвистике [Электронный ресурс]: учеб. пособие/ Л.Ю. Шипицина. – М. Флинта, 2013. 128стр. Режим доступа: https://books.google.ru/books?isbn=5457545415 2. Современные направления в лингвистике ; учеб. пособие для студ. высш. учеб. заведений / В.А. Маслова. – М.: Издательский центр “Академия”, 2008. – 272 с. ISBN 978-5-7695-4385-2 [Электронный ресурс] Режим доступа: http://www.irbis.vegu.ru/repos/12330/HTML/index.htm 3. Онлайн-сборник «Компьютерная лингвистика и интеллектуальные технологии». Гл.ред. В.П. Селегей. [Электронный ресурс] Режим доступа: http://www.dialog21.ru/digest/ 4. Ranko Bugarski. Applied Linguistics as Linguistics Applied. The Relation of Theoretical and Applied Linguistics. Topics in Language and Linguistics 1987, pp 3-19. Online ISBN: 978-1-4613-1923-8. [Электронный ресурс] Режим доступа: http://link.springer.com/chapter/10.1007/978-1-4613-1923-8_1 5. 4th Language and Technology Conference, LTC 2009, Poznan, Poland, November 6-8, 2009, Revised Selected Papers. Human Language Technology. Challenges for Computer Science and Linguistics. ISBN: 978-3-642-20095-3 (Online). [Электронный ресурс] Режим доступа: http://link.springer.com/book/10.1007/978-3642-20095-3 6. Michelangelo Conoscenti. Sprinkled Metonymies in the Analysis of Political Discourse with Corpus Linguistics Techniques: A Case Study. Multimodal Communication in Political Speech. Shaping Minds and Social Action. Lecture Notes in Computer Science Volume 7688, 2013, pp 258-275. Online ISBN: 978-3-642-41545-6 [Электронный ресурс] Режим доступа: http://link.springer.com/chapter/10.1007/9783-642-41545-6_19 11. Материально-техническое обеспечение дисциплины Занятия по дисциплине проводятся в компьютерном классе, оборудованном видеопроекционным оборудованием для презентаций и экраном. Используется программное обеспечение для занятий, находящееся в свободном доступе: АОТ: www.aot.ru 12 НИУ ВШЭ – Нижний Новгород Программа дисциплины «Компьютерные технологии в политической лингвистике» для направления 45.04.03 «Фундаментальная и прикладная лингвистика» подготовки магистра Программа построения частотных словарей: http://alingva.ru/index.php/lingvosoft/12ngramfrequency mystem. Морфологический анализатор для русского языка: http://company.yandex.ru/technologies/mystem/ LSA. Латентно-семантический анализ текстовых данных: http://alingva.ru/index.php/lingvosoft/17--lsa Tomita-пасрер. Инструмент для извлечения структурированных данных из текста на естественном языке: http://api.yandex.ru/tomita/ Модуль Perl Text:NSP. N-gram statistics and association measures: http://search.cpan.org/dist/Text-NSP/lib/Text/NSP/Measures.pm Stanford Topic Modeling Toolbox: http://nlp.stanford.edu/software/tmt/tmt-0.4/ Автор программы А.Ю. Хоменко 13