МИНИСТЕРСТВО НАУКИ И ОБРАЗОВАНИЯ РОССИСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Московский физико-технический институт (государственный университет)» МФТИ «УТВЕРЖДАЮ» Проректор по учебной и методической работе _______________ Д.А. Зубцов «___»______________ 20___ г. Рабочая программа дисциплины (модуля) по дисциплине: по направлению: профиль подготовки/ магистерская программа: факультет: кафедра: курс: квалификация: Основы компьютерной лингвистики Прикладные математика и физика (магистратура) Интеллектуальный анализ данных управления и прикладной математики проблем передачи информации и анализа данных 2 магистр Семестр, формы промежуточной аттестации: 11 (Осенний) - Дифференцированный зачёт Аудиторных часов: 34 всего, в том числе: лекции: 28 час. практические (семинарские) занятия: 6 час. лабораторные занятия: 0 час. Самостоятельная работа: 5 час. всего, в том числе: задания, курсовые работы: 0 час. Подготовка к экзамену: 0 час. Всего часов: 39, всего зач.ед.: 1 Программу составил: Л.Л. Иомдин, кандидат филологических наук, доцент Программа обсуждена на заседании кафедры 14 мая 2014 года СОГЛАСОВАНО: Заведующий кафедрой А.П. Кулешов Декан факультета управления и прикладной математики А.А. Шананин Начальник учебного управления И.Р. Гарайшина 1. Цели и задачи Цель дисциплины Познакомить магистрантов с важнейшими областями междисциплинарных исследований на стыке лингвистики со смежными дисциплинами, в первую очередь с компьютерной наукой. Задачи дисциплины - познакомить магистрантов с основной проблематикой компьютерной лингвистики, с основными теоретическими моделями, лежащими в основе решаемых в этой области задач; - научить магистрантов пользоваться методами обратной связи, т.е. применять полученные при разработке автоматических систем результаты для извлечения новых знаний о естественном языке; - дать представление о месте теоретической лингвистики в задачах, решаемых компьютерной лингвистикой, в первую очередь о месте синтаксиса и семантики естественного языка; - познакомить магистрантов с современными подходами к решению задач автоматической обработки текстов, в том числе с правиловыми, статистическими и гибридными подходами и приемами машинного обучения. 2. Место дисциплины (модуля) в структуре образовательной программы бакалавриата (магистратуры Дисциплина «Основы компьютерной лингвистики» включает в себя разделы, которые могут быть отнесены к вариативной части цикла М.1. Дисциплина «Основы компьютерной лингвистики» базируется на дисциплинах: Теория вероятностей; Математическая логика; Введение в прикладной анализ данных; Математические основы машинного обучения. 3. Перечень планируемых результатов обучения по дисциплине (модулю), соотнесенных с планируемыми результатами освоения образовательной Освоение дисциплины «Основы компьютерной лингвистики» направлено на формирование следующих общекультурных, общепрофессиональных и профессиональных компетенций бакалавра/магистра: способность применять теорию и методы математики для построения качественных и количественных моделей объектов и процессов в естественной сфере деятельности (ОПК-2); способность понимать ключевые аспекты и концепции в области специализации (ОПК-3); способность выбирать и применять подходящее оборудование, инструменты и методы исследований для решения задач в избранной предметной области (ПК-3); способность критически оценивать применимость применяемых методик и методов (ПК-4). В результате освоения дисциплины обучающиеся должны знать: - основные цели и задачи компьютерной лингвистики; - основные методы и подходы к автоматической обработке текстов (правиловые, статистические, в т.ч. машинное обучение, гибридные); - основные классы приложений, развиваемых на базе компьютерной лингвистики (информационный поиск, глубокий анализ данных, автоматический и автоматизированный перевод 2 текстов с одного языка на другой, автоматическое аннотирование и реферирование документов, анализ тональности текста, человеко-машинное общение на естественном языке); - основные классы цифровых лингвистических ресурсов, создаваемых методами компьютерной лингвистики (компьютерные одноязычные и многоязычные словари, аннотированные корпусы текстов); уметь: - строить базовые правила систем автоматической обработки текстов; - разбираться в правилах и алгоритмах автоматической обработки текстов; - строить базовые морфологические, синтаксические и семантические структуры предложения (на примере русского и английского языков); владеть: - навыком освоения большого объема информации; - навыками постановки научно-исследовательских задач и навыками самостоятельной работы. 4. Содержание дисциплины (модуля), структурированное по темам (разделам) с указанием отведенного на них количества академических часов и видов учебных занятий 4.1. Разделы дисциплины (модуля) и трудоемкости по видам учебных занятий № Тема (раздел) дисциплины Лингвистическое моделирование Основные задачи и проблемы 2 анализа естественноязыковых текстов Машинный перевод и другие 3 прикладные задачи компьютерной лингвистики Современные методы и сред4 ства глубокого семантического анализа текста Итого часов Общая трудоёмкость 1 Виды учебных занятий, включая самостоятельную работу Практич. Задания, Лаборат. Самост. Лекции (семинар.) курсовые работы работа занятия работы 4 1 10 3 1 10 3 2 4 1 28 6 39 час., 1 зач.ед. 5 4.2. Содержание дисциплины (модуля), структурированное по темам (разделам) Семестр: 11 (Осенний) 1. Лингвистическое моделирование. Лингвистика как наука о языке. Представление об уровнях представления языка – фонетика, морфология, синтаксис, семантика. Лингвистика и прагматика. Лингвистическое моделирование. Действующие модели языка. Теория «Смысл – Текст» как фундамент для построения систем автоматической обработки текста. 2. Основные задачи и проблемы анализа естественно-языковых текстов. 3 Грамматика и словарь естественного языка. Представление об интегральном описании языка. Представление о лексических функциях. Краткий обзор формальных грамматик. Порождающие грамматики. Грамматики составляющих и грамматики зависимостей. Гибридные грамматики. Анализ и синтез текста. Морфологический и синтаксический анализ. Парсинг. Различные подходы к синтаксическому анализу: анализ «сверху вниз» и «снизу вверх». Языковая неоднозначность как принципиальное свойство языка и методы ее разрешения при автоматической обработке текста. Интерактивное разрешение лексической и синтаксической неоднозначности. Правиловые и статистические подходы к автоматической обработке текста. Алгоритм синтаксического анализа. Синтаксические отношения. Синтагмы. Синтаксическая структура предложения. 3. Машинный перевод и другие прикладные задачи компьютерной лингвистики. Задача машинного перевода в кругу задач автоматической обработки текста на естественном языке. Система машинного перевода как механизм обратной связи и источник новых лингвистических знаний. Типы систем машинного перевода. Автоматический и автоматизированный перевод. Память переводов. Интерлингва (на примере UNL-универсального сетевого языка). Правиловый, статистический и гибридный перевод. Морфологический компонент системы автоматической обработки текстов. Морфологическая структура слова и предложения. Словарь системы автоматической обработки текстов. Словарь системы машинного перевода. Структура словарной статьи. Синтаксические признаки. Семантические признаки (дескрипторы). Теория валентностей. Модель управления. Аннотированные корпусы текстов и их роль в задачах автоматической обработки текстов. Синонимическое перифразирование высказываний и его прикладное значение. Обзор задач прикладной лингвистики. Современные цифровые лингвистические ресурсы (Word Net, Frame Net, Treebanks). 4. Современные методы и средства глубокого семантического анализа текста. Современные методы глубокого семантического анализа текста с участием лингвистических онтологий. Умозаключения на основе здравого смысла (common sense reasoning). 5. Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю) Учебная аудитория, оснащенная мультимедийным оборудованием (проектор или плазменная панель), доской. 6. Перечень основной и дополнительной литературы, необходимой для освоения дисциплины (модуля) Основная литература 1. Apresjan Ju, Boguslavsky I., Iomdin L et al. ETAP-3 Linguistic Processor: a Full-Fledged NLP Implementation of the MTT // MTT 2003. First International Conference on Meaning – Text Theory (June 16-18, 2003). Paris: École Normale Supérieure, 2003. P. 279-288. 2. Мельчук И.А. Опыт теории лингвистических моделей «Смысл – Текст». М.: Языки славянской культуры, 1999. - 370 с. 4 3. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистический процессор для сложных информационных систем. М.: Наука, 1992. - 256 с. Дополнительная литература 1. Boguslavsky I, Iomdin L. Nivre J. Parsing the Russian Dependency Treebank // Proceedings of COLING-2008. Manchester, 2008. Р. 641-648. 2. Баранов А.Н. Введение в прикладную лингвистику // Серия «Новый лингвистический учебник». М.: Эдиториал УРРС. 2001. Глава 2, раздел 1.3.1. Моделирование общения (с. 2031); Глава 4, разделы 1.3.1. – 1.3.4. «Естественный» перевод: лингвистические проблемы (с. 143-163); 1.4. Машинный перевод (с. 168-178). 3. Pollard C., Sag I.A. Неad-Driven Phrase Structure Grammar // Chicago: University of Chicago Press. 1994. - 454 р. 4. Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010. - 446 р. 5. Соснина Е.П. Введение в прикладную лингвистику // Ульяновск: УлГТУ, 2012. - 110 с. 7. Перечень учебно-методического обеспечения для самостоятельной работы обучающихся по дисциплине (модулю) 1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика // Учебное пособие. Большакова Е.И., Клышинский Э.С., Ландэ Д.В. и др. М.: МИЭМ, 2011. 272 с. 2. Jurafsky D., Martin J.H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition // Prentice Hall, 2009. - 988 р. 8. Перечень ресурсов информационно-телекоммуникационной сети «Интернет», необходимых для освоения дисциплины (модуля) 9. Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень программного обеспечения и информационных справочных систем (при необходимости) На лекционных занятиях используются мультимедийные технологии, включая демонстрацию презентаций. 10. Методические указания для обучающихся по освоению дисциплины Студент, изучающий дисциплину, должен, с одной стороны, овладеть общими понятийным аппаратом, а с другой стороны, должен научиться применять теоретические знания на практике. В результате изучения дисциплины студент должен знать основные определения, понятия, аксиомы, методы доказательств. Успешное освоение курса требует напряженной самостоятельной работы студента. В программе курса отведено минимально необходимое время для работы студента над темой. Самостоятельная работа включает в себя: - чтение и конспектирование рекомендованной литературы; - проработку учебного материала (по конспектам занятий, учебной и научной литературе), подготовку ответов на вопросы, предназначенные для самостоятельного изучения, доказательство отдельных утверждений, свойств, решение лингвистических задач; - подготовка к дифференцированному зачёту. Руководство и контроль за самостоятельной работой студента осуществляется в форме индивидуальных консультаций. 5 Важно добиться понимания изучаемого материала, а не механического его запоминания. При затруднении изучения отдельных тем, вопросов следует обращаться за консультациями к лектору. 11. Фонд оценочных средств для проведения промежуточной аттестации по итогам обучения Приложение. 6 ПРИЛОЖЕНИЕ ФОНД ОЦЕНОЧНЫХ СРЕДСТВ ДЛЯ ПРОВЕДЕНИЯ ПРОМЕЖУТОЧНОЙ АТТЕСТАЦИИ ОБУЧАЮЩИХСЯ ПО ДИСЦИПЛИНЕ «Основы компьютерной лингвистики» 1. Перечень типовых контрольных заданий, используемых для оценки знаний, умений, навыков Перечень контрольных вопросов к дифференцированному зачёту: 1. Что такое уровни представления языковых выражений? Какие бывают уровни? 2. Морфологический анализ и синтез текстов. Поверхностная и глубинная морфология. Анализ композитов. 3. Основные типы представления синтаксической структуры предложения. Зависимости и составляющие. Дерево зависимостей. 4. Понятие синтаксического правила (синтагмы). 5. Грамматика и словарь. 6. Синтаксические признаки слова. 7. Валентностная структура предиката. Синтаксические и семантические валентности.Модель управления слова. 8. Основные типы компьютерных синтаксических ресурсов. Словари и корпусы текстов. 9. Глубокий анализ лингвистических данных: постановка задачи, основные методы и подходы. 2. Критерии оценивания Оценка Баллы 10 отлично 9 8 хорошо 7 Критерии Выставляется студенту, показавшему всесторонние, систематизированные, глубокие знания учебной программы дисциплины, проявляющему интерес к данной предметной области, продемонстрировавшему умение уверенно и творчески применять их на практике при решении конкретных задач, свободное и правильное обоснование принятых решений. Выставляется студенту, показавшему всесторонние, систематизированные, глубокие знания учебной программы дисциплины и умение уверенно применять их на практике при решении конкретных задач, свободное и правильное обоснование принятых решений. Выставляется студенту, показавшему систематизированные, глубокие знания учебной программы дисциплины и умение уверенно применять их на практике при решении конкретных задач, правильное обоснование принятых решений, с некоторыми недочетами. Выставляется студенту, если он твердо знает материал, грамотно и по существу излагает его, умеет применять полученные знания на практике, но недостаточно грамотно обосновывает полученные результаты. 7 6 5 4 удовлетворительно 3 2 неудовлетворительно 1 Выставляется студенту, если он твердо знает материал, грамотно и по существу излагает его, умеет применять полученные знания на практике, но допускает в ответе или в решении задач некоторые неточности. Выставляется студенту, если он в основном знает материал, грамотно и по существу излагает его, умеет применять полученные знания на практике, но допускает в ответе или в решении задач достаточно большое количество неточностей. Выставляется студенту, показавшему фрагментарный, разрозненный характер знаний, недостаточно правильные формулировки базовых понятий, нарушения логической последовательности в изложении программного материала, но при этом он освоил основные разделы учебной программы, необходимые для дальнейшего обучения, и может применять полученные знания по образцу в стандартной ситуации. Выставляется студенту, показавшему фрагментарный, разрозненный характер знаний, допускающему ошибки в формулировках базовых понятий, нарушения логической последовательности в изложении программного материала, слабо владеет основными разделами учебной программы, необходимыми для дальнейшего обучения и с трудом применяет полученные знания даже в стандартной ситуации. Выставляется студенту, который не знает большей части основного содержания учебной программы дисциплины, допускает грубые ошибки в формулировках основных принципов и не умеет использовать полученные знания при решении типовых задач. Выставляется студенту, который не знает основного содержания учебной программы дисциплины, допускает грубейшие ошибки в формулировках базовых понятий дисциплины и вообще не имеет навыков решения типовых практических задач. 3. Методические материалы, определяющие процедуры оценивания знаний, умений, навыков и (или) опыта деятельности Дифференцированный зачёт проводится в устной форме. При проведении устного дифференцированного зачёта обучающемуся предоставляется 30 минут на подготовку. Во время проведения дифференцированного зачёта обучающиеся могут пользоваться программой дисциплины, а также справочной литературой, вычислительной техникой и проч. 8