Основы компьютерной лингвистики

реклама
МИНИСТЕРСТВО НАУКИ И ОБРАЗОВАНИЯ РОССИСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
«Московский физико-технический институт (государственный университет)»
МФТИ
«УТВЕРЖДАЮ»
Проректор по учебной и методической работе
_______________ Д.А. Зубцов
«___»______________ 20___ г.
Рабочая программа дисциплины (модуля)
по дисциплине:
по направлению:
профиль подготовки/
магистерская программа:
факультет:
кафедра:
курс:
квалификация:
Основы компьютерной лингвистики
Прикладные математика и физика (магистратура)
Интеллектуальный анализ данных
управления и прикладной математики
проблем передачи информации и анализа данных
2
магистр
Семестр, формы промежуточной аттестации: 11 (Осенний) - Дифференцированный зачёт
Аудиторных часов: 34 всего, в том числе:
лекции: 28 час.
практические (семинарские) занятия: 6 час.
лабораторные занятия: 0 час.
Самостоятельная работа: 5 час. всего, в том числе:
задания, курсовые работы: 0 час.
Подготовка к экзамену: 0 час.
Всего часов: 39, всего зач.ед.: 1
Программу составил: Л.Л. Иомдин, кандидат филологических наук, доцент
Программа обсуждена на заседании кафедры
14 мая 2014 года
СОГЛАСОВАНО:
Заведующий кафедрой
А.П. Кулешов
Декан факультета управления и прикладной математики
А.А. Шананин
Начальник учебного управления
И.Р. Гарайшина
1. Цели и задачи
Цель дисциплины
Познакомить магистрантов с важнейшими областями междисциплинарных исследований на
стыке лингвистики со смежными дисциплинами, в первую очередь с компьютерной наукой.
Задачи дисциплины
- познакомить магистрантов с основной проблематикой компьютерной лингвистики, с основными теоретическими моделями, лежащими в основе решаемых в этой области задач;
- научить магистрантов пользоваться методами обратной связи, т.е. применять полученные
при разработке автоматических систем результаты для извлечения новых знаний о естественном языке;
- дать представление о месте теоретической лингвистики в задачах, решаемых компьютерной лингвистикой, в первую очередь о месте синтаксиса и семантики естественного языка;
- познакомить магистрантов с современными подходами к решению задач автоматической
обработки текстов, в том числе с правиловыми, статистическими и гибридными подходами и
приемами машинного обучения.
2. Место дисциплины (модуля) в структуре образовательной программы бакалавриата (магистратуры
Дисциплина «Основы компьютерной лингвистики» включает в себя разделы, которые могут
быть отнесены к вариативной части цикла М.1.
Дисциплина «Основы компьютерной лингвистики» базируется на дисциплинах:
Теория вероятностей;
Математическая логика;
Введение в прикладной анализ данных;
Математические основы машинного обучения.
3. Перечень планируемых результатов обучения по дисциплине (модулю), соотнесенных с планируемыми результатами освоения образовательной
Освоение дисциплины «Основы компьютерной лингвистики» направлено на формирование следующих общекультурных, общепрофессиональных и профессиональных компетенций бакалавра/магистра:
способность применять теорию и методы математики для построения качественных и
количественных моделей объектов и процессов в естественной сфере деятельности (ОПК-2);
способность понимать ключевые аспекты и концепции в области специализации (ОПК-3);
способность выбирать и применять подходящее оборудование, инструменты и методы
исследований для решения задач в избранной предметной области (ПК-3);
способность критически оценивать применимость применяемых методик и методов (ПК-4).
В результате освоения дисциплины обучающиеся должны
знать:
- основные цели и задачи компьютерной лингвистики;
- основные методы и подходы к автоматической обработке текстов (правиловые, статистические, в т.ч. машинное обучение, гибридные);
- основные классы приложений, развиваемых на базе компьютерной лингвистики (информационный поиск, глубокий анализ данных, автоматический и автоматизированный перевод
2
текстов с одного языка на другой, автоматическое аннотирование и реферирование документов, анализ тональности текста, человеко-машинное общение на естественном языке);
- основные классы цифровых лингвистических ресурсов, создаваемых методами
компьютерной лингвистики (компьютерные одноязычные и многоязычные словари,
аннотированные корпусы текстов);
уметь:
- строить базовые правила систем автоматической обработки текстов;
- разбираться в правилах и алгоритмах автоматической обработки текстов;
- строить базовые морфологические, синтаксические и семантические структуры
предложения (на примере русского и английского языков);
владеть:
- навыком освоения большого объема информации;
- навыками постановки научно-исследовательских задач и навыками самостоятельной
работы.
4. Содержание дисциплины (модуля), структурированное по темам (разделам) с указанием отведенного на них количества академических часов и видов учебных занятий
4.1. Разделы дисциплины (модуля) и трудоемкости по видам учебных занятий
№
Тема (раздел) дисциплины
Лингвистическое моделирование
Основные задачи и проблемы
2
анализа естественноязыковых текстов
Машинный перевод и другие
3
прикладные задачи компьютерной лингвистики
Современные методы и сред4
ства глубокого семантического анализа текста
Итого часов
Общая трудоёмкость
1
Виды учебных занятий, включая самостоятельную работу
Практич.
Задания,
Лаборат.
Самост.
Лекции
(семинар.)
курсовые
работы
работа
занятия
работы
4
1
10
3
1
10
3
2
4
1
28
6
39 час., 1 зач.ед.
5
4.2. Содержание дисциплины (модуля), структурированное по темам (разделам)
Семестр: 11 (Осенний)
1. Лингвистическое моделирование.
Лингвистика как наука о языке. Представление об уровнях представления языка – фонетика,
морфология, синтаксис, семантика. Лингвистика и прагматика.
Лингвистическое моделирование. Действующие модели языка. Теория «Смысл – Текст» как
фундамент для построения систем автоматической обработки текста.
2. Основные задачи и проблемы анализа естественно-языковых текстов.
3
Грамматика и словарь естественного языка. Представление об интегральном описании языка.
Представление о лексических функциях.
Краткий обзор формальных грамматик. Порождающие грамматики. Грамматики составляющих и грамматики зависимостей. Гибридные грамматики.
Анализ и синтез текста. Морфологический и синтаксический анализ. Парсинг. Различные
подходы к синтаксическому анализу: анализ «сверху вниз» и «снизу вверх».
Языковая неоднозначность как принципиальное свойство языка и методы ее разрешения при
автоматической обработке текста. Интерактивное разрешение лексической и синтаксической
неоднозначности.
Правиловые и статистические подходы к автоматической обработке текста.
Алгоритм синтаксического анализа. Синтаксические отношения. Синтагмы. Синтаксическая
структура предложения.
3. Машинный перевод и другие прикладные задачи компьютерной лингвистики.
Задача машинного перевода в кругу задач автоматической обработки текста на естественном
языке. Система машинного перевода как механизм обратной связи и источник новых лингвистических знаний.
Типы систем машинного перевода. Автоматический и автоматизированный перевод. Память
переводов. Интерлингва (на примере UNL-универсального сетевого языка). Правиловый, статистический и гибридный перевод.
Морфологический компонент системы автоматической обработки текстов. Морфологическая
структура слова и предложения.
Словарь системы автоматической обработки текстов. Словарь системы машинного перевода.
Структура словарной статьи. Синтаксические признаки. Семантические признаки (дескрипторы). Теория валентностей. Модель управления.
Аннотированные корпусы текстов и их роль в задачах автоматической обработки текстов.
Синонимическое перифразирование высказываний и его прикладное значение.
Обзор задач прикладной лингвистики.
Современные цифровые лингвистические ресурсы (Word Net, Frame Net, Treebanks).
4. Современные методы и средства глубокого семантического анализа текста.
Современные методы глубокого семантического анализа текста с участием лингвистических
онтологий. Умозаключения на основе здравого смысла (common sense reasoning).
5. Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)
Учебная аудитория, оснащенная мультимедийным оборудованием (проектор или плазменная
панель), доской.
6. Перечень основной и дополнительной литературы, необходимой для освоения дисциплины
(модуля)
Основная литература
1. Apresjan Ju, Boguslavsky I., Iomdin L et al. ETAP-3 Linguistic Processor: a Full-Fledged NLP
Implementation of the MTT // MTT 2003. First International Conference on Meaning – Text Theory
(June 16-18, 2003). Paris: École Normale Supérieure, 2003. P. 279-288.
2. Мельчук И.А. Опыт теории лингвистических моделей «Смысл – Текст». М.: Языки славянской культуры, 1999. - 370 с.
4
3. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистический процессор для
сложных информационных систем. М.: Наука, 1992. - 256 с.
Дополнительная литература
1. Boguslavsky I, Iomdin L. Nivre J. Parsing the Russian Dependency Treebank // Proceedings of
COLING-2008. Manchester, 2008. Р. 641-648.
2. Баранов А.Н. Введение в прикладную лингвистику // Серия «Новый лингвистический
учебник». М.: Эдиториал УРРС. 2001. Глава 2, раздел 1.3.1. Моделирование общения (с. 2031); Глава 4, разделы 1.3.1. – 1.3.4. «Естественный» перевод: лингвистические проблемы (с.
143-163); 1.4. Машинный перевод (с. 168-178).
3. Pollard C., Sag I.A. Неad-Driven Phrase Structure Grammar // Chicago: University of Chicago
Press. 1994. - 454 р.
4. Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010. - 446 р.
5. Соснина Е.П. Введение в прикладную лингвистику // Ульяновск: УлГТУ, 2012. - 110 с.
7. Перечень учебно-методического обеспечения для самостоятельной работы обучающихся по
дисциплине (модулю)
1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика //
Учебное пособие. Большакова Е.И., Клышинский Э.С., Ландэ Д.В. и др. М.: МИЭМ, 2011. 272 с.
2. Jurafsky D., Martin J.H. Speech and Language Processing: An Introduction to Natural Language
Processing, Computational Linguistics, and Speech Recognition // Prentice Hall, 2009. - 988 р.
8. Перечень ресурсов информационно-телекоммуникационной сети «Интернет», необходимых
для освоения дисциплины (модуля)
9. Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень программного обеспечения и информационных справочных систем (при необходимости)
На лекционных занятиях используются мультимедийные технологии, включая демонстрацию
презентаций.
10. Методические указания для обучающихся по освоению дисциплины
Студент, изучающий дисциплину, должен, с одной стороны, овладеть общими понятийным
аппаратом, а с другой стороны, должен научиться применять теоретические знания на практике.
В результате изучения дисциплины студент должен знать основные определения, понятия,
аксиомы, методы доказательств.
Успешное освоение курса требует напряженной самостоятельной работы студента. В программе курса отведено минимально необходимое время для работы студента над темой. Самостоятельная работа включает в себя:
- чтение и конспектирование рекомендованной литературы;
- проработку учебного материала (по конспектам занятий, учебной и научной литературе),
подготовку ответов на вопросы, предназначенные для самостоятельного изучения, доказательство отдельных утверждений, свойств, решение лингвистических задач;
- подготовка к дифференцированному зачёту.
Руководство и контроль за самостоятельной работой студента осуществляется в форме индивидуальных консультаций.
5
Важно добиться понимания изучаемого материала, а не механического его запоминания. При
затруднении изучения отдельных тем, вопросов следует обращаться за консультациями к лектору.
11. Фонд оценочных средств для проведения промежуточной аттестации по итогам обучения
Приложение.
6
ПРИЛОЖЕНИЕ
ФОНД ОЦЕНОЧНЫХ СРЕДСТВ
ДЛЯ ПРОВЕДЕНИЯ ПРОМЕЖУТОЧНОЙ АТТЕСТАЦИИ ОБУЧАЮЩИХСЯ
ПО ДИСЦИПЛИНЕ
«Основы компьютерной лингвистики»
1. Перечень типовых контрольных заданий, используемых для оценки знаний, умений, навыков
Перечень контрольных вопросов к дифференцированному зачёту:
1. Что такое уровни представления языковых выражений? Какие бывают уровни?
2. Морфологический анализ и синтез текстов. Поверхностная и глубинная морфология. Анализ композитов.
3. Основные типы представления синтаксической структуры предложения. Зависимости и составляющие. Дерево зависимостей.
4. Понятие синтаксического правила (синтагмы).
5. Грамматика и словарь.
6. Синтаксические признаки слова.
7. Валентностная структура предиката. Синтаксические и семантические валентности.Модель
управления слова.
8. Основные типы компьютерных синтаксических ресурсов. Словари и корпусы текстов.
9. Глубокий анализ лингвистических данных: постановка задачи, основные методы и подходы.
2. Критерии оценивания
Оценка
Баллы
10
отлично
9
8
хорошо
7
Критерии
Выставляется студенту, показавшему всесторонние, систематизированные, глубокие знания учебной программы дисциплины,
проявляющему интерес к данной предметной области, продемонстрировавшему умение уверенно и творчески применять их на
практике при решении конкретных задач, свободное и правильное
обоснование принятых решений.
Выставляется студенту, показавшему всесторонние, систематизированные, глубокие знания учебной программы дисциплины
и умение уверенно применять их на практике при решении конкретных задач, свободное и правильное обоснование принятых
решений.
Выставляется студенту, показавшему систематизированные,
глубокие знания учебной программы дисциплины и умение уверенно применять их на практике при решении конкретных задач,
правильное обоснование принятых решений, с некоторыми недочетами.
Выставляется студенту, если он твердо знает материал, грамотно и по существу излагает его, умеет применять полученные
знания на практике, но недостаточно грамотно обосновывает полученные результаты.
7
6
5
4
удовлетворительно
3
2
неудовлетворительно
1
Выставляется студенту, если он твердо знает материал, грамотно и по существу излагает его, умеет применять полученные
знания на практике, но допускает в ответе или в решении задач
некоторые неточности.
Выставляется студенту, если он в основном знает материал,
грамотно и по существу излагает его, умеет применять полученные знания на практике, но допускает в ответе или в решении задач достаточно большое количество неточностей.
Выставляется студенту, показавшему фрагментарный, разрозненный характер знаний, недостаточно правильные формулировки базовых понятий, нарушения логической последовательности в изложении программного материала, но при этом он освоил
основные разделы учебной программы, необходимые для дальнейшего обучения, и может применять полученные знания по образцу в стандартной ситуации.
Выставляется студенту, показавшему фрагментарный, разрозненный характер знаний, допускающему ошибки в формулировках базовых понятий, нарушения логической последовательности в изложении программного материала, слабо владеет основными разделами учебной программы, необходимыми для
дальнейшего обучения и с трудом применяет полученные знания
даже в стандартной ситуации.
Выставляется студенту, который не знает большей части основного содержания учебной программы дисциплины, допускает
грубые ошибки в формулировках основных принципов и не умеет
использовать полученные знания при решении типовых задач.
Выставляется студенту, который не знает основного содержания учебной программы дисциплины, допускает грубейшие
ошибки в формулировках базовых понятий дисциплины и вообще
не имеет навыков решения типовых практических задач.
3. Методические материалы, определяющие процедуры оценивания знаний, умений, навыков
и (или) опыта деятельности
Дифференцированный зачёт проводится в устной форме.
При проведении устного дифференцированного зачёта обучающемуся предоставляется 30 минут на
подготовку.
Во время проведения дифференцированного зачёта обучающиеся могут пользоваться программой
дисциплины, а также справочной литературой, вычислительной техникой и проч.
8
Скачать