Презентация магистерской программы "Теория языка и

advertisement
Теория языка и компьютерная
лингвистика
магистерская программа
школы лингвистики НИУ ВШЭ
О программе
34 бюджетных места
5 коммерческих мест
Очное обучение 2 года
2 специализации
Условия поступления
• Теория языка
• Компьютерная
лингвистика
1) Портфолио +
собеседование
2) Английский (зачет или
сертификат)
Преподавание на
русском языке
Стоимость обучения на
коммерческой основе
240 тыс. рублей
Структура программы
Общие курсы стандарта
Формальные
модели в языке
Функциональные и
когнитивные
модели в языке
Общие курсы программы
Анализ и визуализация
лингвистических данных
Антропология
Нейролингвистика
Теория языка: база
Сравнительно-историческое
языкознание
Иностранный язык
( с нулевого уровня)
• Да, можно выучить язык с нуля за полтора года
Теоретические модели в
лингвистике
Теория языка: фокус
Русистика
• Русистика - это не ответы на вопрос как, а ответы на вопрос
почему.
Типология
• Типология - наука о языке после Вавилонского столпотворения.
Социолингвистика
• Каждый носитель языка - природный социолингвист.
Теория языка: фокус
Один
весьма
интеллектуальный
(молекулярный
биолог!)
знакомый,
узнав,
что
мы
занимаемся русистикой, спросил с удивлением - а что, там есть еще, чем заниматься? Вроде у
Розенталя все написано. Русистика - это не то, что преподают в школе - правила, нуждающиеся в
заучивании. Теоретическая русистика - это исследование того, откуда эти правила взялись, есть ли
в них логика и, не в последнюю очередь, как именно они нарушаются. (Когда люди делают
орфографические ошибки, они в большинстве делают их одинаково - почему это так? Как это
объяснить?) В девятнадцатом веке люди не только писали, но и говорили существенно иначе, чем
мы говорим сейчас. Язык меняется - нельзя ли попытаться предсказать (или хотя бы
предположить), каким он будет через сто лет? Кроме того, внимательное исследование русского
языка обнаруживает в нем некоторые незаметные тонкости и явления, на которые привычное ухо
носителя вообще никогда не обращает внимания - и которые являются, тем не менее, редкими
языковыми чертами, характерными для совсем немногих языков.
Теория языка: фокус
Один западный лингвист сказал: все языки равно только перед богом и лингвистом. Не менее трети всех
сотрудников Школы лингвистики имеет типологические интересы и занимаются исследованиями малых
языков. Почему это так важно? Дело в том, что человеческие языки демонстрируют поразительно
разные структуры на всех уровнях. Они гораздо менее похожи друг на друга, чем про них обычно
думают. Практически любое утверждение типа "Для всех языков верно P" когда-либо подвергалось
сомнению (с той или иной степенью успешности). Это удивительно, если учесть, что ныне доминирует
гипотеза о моногенезе (происхождении человеческого языка из единственного источника). Один из
важнейших вопросов лингвистической типологии - есть ли границы у языкового многообразия? А для
того, чтобы ответить на этот вопрос, очевидно, знания крупных языков мира - китайского, английского,
арабского, испанского - сугубо недостаточно. Ведь примерно 95% населения земного шара использует
лишь 5% языков, на остальных 95% говорит только 5% человечества.
Теория языка: фокус
В СССР была очень сильная наука, традиции которой продолжаются сейчас. Это верно и для лингвистики.
Но вот социолингвистика в СССР была если не под запретом, то совершенно не популярна. После
всплеска интереса к социальной стороне языка в 20-х годах, она последовательно искоренялась в
тридцатые и, как это ни удивительно, до сих пор не подняла голову (ВШЭ - одно из очень немногих
образовательных учреждений России, которое делает акцент на социолингвистике.). А ведь в Европе и в
США - социолингвистика - одно из двух самых популярных направлений лингвистических исследований.
Социальные аспекты существования языка особенно интересны тем, что, в отличие от сугубо
теоретических проблем, каждый из нас постоянно, ежедневно с ними сталкивается. Они жизненны и
злободневны. Неприязненное отношение к некоторым региональным акцентам, снисходительное - к
диалектной речи, споры до хрипоты о том, как правильно - все это часть жизни любого носителя языка, а
не только лингвиста.
Теория языка : практика
Лингвистические
экспедиции
Летом 2014 года студенты и
преподаватели школы
лингвистики исследовали 12
языков в трех частях света
Теория языка : стажировки
Болонья
Ницца
Шеффилд
Тромсе
Париж
Хельсинки
Компьютерная лингвистика:
основное
Компьютерная лингвистика
Программирование Python
• Да, даже гуманитарии могут научиться программировать
Машинное обучение
Математика
Компьютерная лингвистика: фокус
Digital Humanities
Социальные сети
Онтологии и семантические технологии
Компьютерная лингвистика: фокус
Digital Humanities переводится как «цифровая человечность»…
В мире давно написано в разы больше книг, чем кто-либо способен прочитать за целую жизнь. Даже условная
«золотая классика» стала для современного занятого человека почти неподъемной, не говоря уже о мемуарах,
воспоминаниях, письмах и прочих свидетельствах давно ушедших времен. Но значит ли это, что знания о том,
как жили, общались и творили люди, погребены в пыльных страницах навсегда и доступны лишь тем, кто готов
провести всю жизнь в архивах? Нет, если мы призовем на помощь современные методы обработки, анализа и
визуализации данных. Digital Humanities – это наука о том, как применять информационные технологии в сугубо
гуманитарных областях: литературоведении, исторической науке, культурологии и даже педагогике. Проекты
«цифровых гуманитариев» отличаются буйным разнообразием: они создают интерактивные карты переписки
французских просветителей, строят по письмам и дневникам социальные сети великих поэтов, конструируют 3Dмодели Древнего Рима и автоматически визуализируют тексты голливудских сценариев.
Компьютерная лингвистика: фокус
А что это вообще такое?
Это бурно развивающаяся в последние годы отрасль Computer Science, которая является
практическим применением теории графов. Это значит, что у Вас есть узлы, а есть между ними
ребра. А еще ребра могут иметь направления. А еще ребра могут иметь веса. А еще граф может
быть снежинкой, а может - кругом. А у узлов может быть престиж. А самое главное - все эти
метрики могут быть очень полезными при Вашем исследовании. Забиваете петабайты материала,
строите граф - и он отвечает на все Ваши вопросы. В том числе - и про лингвистику. Да-да. Фокус.
Знаете ли Вы, сколько друзей в среднем у одного аккаунта в фейсбуке?
Классический пример применения этой методики. Можно построить граф, узлами которого будут
аккаунты, а ребро между узлами будет проведено в том случае, если аккаунты дружат между
собой. Современные технологии позволяют при помощи одной кнопки узнать все данные об этом
графе, в том числе - среднее количество соседей у узла. Ах да, правильный ответ - 6.
Знаете ли Вы, что графы можно строить и в лингвистике?
Например, Вы хотите узнать, насколько похожи два текста. Можно построить граф, в котором
вершинами будут слова, а ребро между ними будет в том случае, если они идут друг за другом.
Можно... да можно примерно все, что угодно. А потом при помощи этого графа математик в Вас
ответит на вопросы Вам-лингвисту: хм, коэффициент ассортативности у нас 0,53, а тут - 0,3, а это
значит, что... Вы будете творить на стыке наук и можете получить невероятные интересные
результаты. Как и всегда в компьютерной лингвистике, впрочем.
Компьютерная лингвистика: фокус
Перед сотворением мира Господь Бог наверняка прослушал курс по онтологиям…
Все мы используем язык для того, чтобы описывать какие-то кусочки действительности. За
словами человек, университет, город, подруга, купить, смартфон, учиться, экзамен,
смерть стоят реальные, наблюдаемые, часто даже осязаемые понятия, из которых
складывается наша цельная (или пока не очень) картина мира. Но как заложить такое
«осознание» реальности в компьютер? Для этого необходимо как-то формализовать часть
действительности, представить ее в виде строгой иерархической модели с объектами и
связями. Такие «модели мира» в информатике принято называть онтологиями. Разработка
онтологий – это дело, за которым можно почувствовать себя сразу философом, творцом и
инженером, оставаясь при этом лингвистом до мозга костей. Здесь приходится
одновременно
задаваться
фундаментальными
вопросами
бытия,
изучать
стандарты Semantic Web и думать о том, как автоматически вытащить из «Википедии» все
известные виды алкогольных напитков.
Компьютерная лингвистика:
практика
Yaндекс
ABBYY
старт-апы
Mail.ru
Кроме учебы
мы находимся в
старом прекрасном
районе Москвы,
практически в центре
Кроме учебы
студенты живут в
новом, удобном
общежитии
Кроме учебы
у нас теплая и демократичная атмосфера
Кроме учебы
у нас есть неформальный клуб
любителей активного отдыха
#linguistsoutdoors
Кроме учебы
Ночная велопрогулка #linguistsoutdoors
Важные даты
ДЛЯ РОССИЙСКИХ ГРАЖДАН:
Подача документов c 1 июня по 15 июля
Собеседование, экзамен с 16 июля по 31 июля
Зачисление – 3 августа
ДЛЯ ИНОСТРАННЫХ ГРАЖДАН:
Подача документов
Ранняя подача – до 30 марта
Результаты – до 1 июня
Поздняя подача – до 15 июля
Результаты – до 1 августа
Подача документов на программу КВОТА
(стипендия на полную оплату обучения) – до 15 мая
Дополнительная информация
Сайт программы: http://www.hse.ru/ma/ling/
Адрес программы: ling@hse.ru
ПИШИТЕ НАМ!
Download