Правительство Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики" Факультет Бизнес-информатики Отделение Прикладной математики и информатики Программа дисциплины Робастные методы в статистике для направления 010400.68 «Прикладная математика и информатика» подготовки магистров Автор программы: Цитович И.И., д.ф.-м.н., [email protected]; [email protected] Одобрена на заседании базовой кафедры Яндекс «___»____________ 20 г Зав. кафедрой И.В. Аржанцев Рекомендована профессиональной коллегией УМС «Прикладная математика» «___»____________ 20 г Председатель А.А. Макаров Утверждена УС факультета бизнес-информатики «___»_____________20 г. Ученый секретарь ________________________ Москва, 2013 Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы. 1 Пояснительная записка Автор программы Цитович И.И., д.ф.-м.н. Требования к студентам Изучение курса «Робастные методы в статистике» требует предварительных знаний по теории вероятностей, математической статистике, математическому анализу и методам оптимизации. Аннотация Дисциплина «Робастные методы в статистике» предназначена для подготовки магистров 010400.68 – Прикладная математика и информатика. Учебная дисциплина «Робастные методы в статистике» является логическим продолжением и развитием курса "Теория вероятностей и математическая статистика", где будет показано, каким образом необходимо формулировать задачу, где предполагается использование статистических методов, а так же каким образом необходимо адаптировать классические статистические методы принятия решений в зависимости от условий статистического эксперимента, на базе которого принимается решение. Такой подход необходим в тех случаях, когда необходимо принять гарантийное решение, т.е. такое решение, риски которого могут быть надежно оценены. Будут рассмотрены необходимые модификации классических статистических методов тех случаях, когда вероятность ошибки очень мала и решение должно приниматься не на основе классических предельных теорем теории вероятностей, а на основании теории больших уклонений. Будут рассмотрены алгоритмы, позволяющие правильно учитывать «выбросы» в выборке, которые обычно рассматриваются как ошибочные наблюдения и отбрасываются. Сегодня грамотный практик обязан учитывать множество факторов, влияющих на процесс формирования данных наблюдений, и использовать статистические решения, устойчивые к негативному влиянию неконтролируемых негативных факторов, влияющих на результаты наблюдений и дисциплина «Робастные методы в статистике» позволит правильно выбирать методы обработки данных в зависимости от природы формирования данных и целей их обработки. Программа курса предусматривает лекции (32 часа) и практические занятия (32 часа). Учебные задачи курса Цель курса – научить студентов методике постановки конкретных задач анализа статистических данных в зависимости от природы формирования данных и целей их обработки, выбор адекватных статистических методов решения задачи и правильная интерпретация получаемых статистических выводов. В результате изучения дисциплины «Робастные методы в статистике» студенты должны: знать теоретические основы математической статистики: статистическая структура, статистический фильтр, статистический эксперимент, функция цели, регуляризирующий функционал; правильно формулировать задачу обработки данных в зависимости от природы формирования данных и целей их обработки; 2 знать отличительные особенности робастных статистических выводов; их положительные и отрицательные свойства; уметь выбирать робастный статистический критерий в зависимости от точности доступных данных наблюдений и целей решения статистической задачи; уметь строить гарантийные решающие правила принятия решений по данным наблюдений. Тематический план дисциплины «Робастные методы в статистике» № Всего часов Аудиторные часы Самостопо Сем. и ятельная Лекции дисциплине практика работа занятия Название темы Тема 1. Основные понятия робастной статистики. 50 10 10 30 Тема 2. Робастные статистические 2 решения, основанные на независимых наблюдениях. 52 10 10 32 Тема 3. Робастные статистические 3 решения, основанные на зависимых наблюдениях. 60 12 12 36 162 32 32 98 1 Итого I. Источники информации Список литературы Основная литература 1. А.А. Боровков. Математическая статистика. Новосибирск: Наука. 1997. 2. Хампель Ф. и др. Робастность в статистике. Подход на основе функций влияния. М.: Мир. 1989. 3. М. Холлендер, Д.А. Вульф Непараметрические методы статистики. М.: Финансы и статистика. 1983. Дополнительная литература 1. Ширяев А.Н. Вероятность. М.: Наука. 1980. 3 2. 3. 4. 5. Малютов М.Б., Цитович И.И. Асимптотически последовательная проверка гипотез // Проблемы передачи информации. Том 36. Вып. 4. 2000. С.98-112. Цитович Ф.И. Свойства субоптимальных последовательных правил проверки непараметрических гипотез о распределениях с экспоненциально убывающими хвостами // Информационные процессы Т. 10, № 2. 2010. С. 181-196. Tsitovich I. Suboptimal Nonparametric Hypotheses Discriminating from Small Dependent Observations // Pliska. Studia mathematica Bulgaria. 2009. V. 19. P. 283292. Malyutov, M.B., Tsitovich I.I. Second Order Optimal Sequential Model Choice and Change-point Detection // Information Processes. 2010. Vol. 10, № 3. P. 275-291. II. Формы контроля и структура итоговой оценки • Текущий контроль: - письменная аудиторная контрольная работа (60 мин.) и индивидуальное домашнее задание. • Итоговый контроль – письменный экзамен (120 мин.) Формирование оценки. Оценка работы студентов на семинарских и практических занятиях, Оаудиторная,, формируется по десятибалльной шкале и выставляется рабочую ведомость перед итоговым контролем. При формировании оценки учитывается: активность на семинарских занятиях, правильность решения задач на семинаре, результаты письменных тестовых опросов. Результирующая оценка за текущий контроль в первом модуле учитывает результаты студента по текущему контролю следующим образом: Отекущий = 0,6·Ок/р + 0,4· Оаудиторна ; Результирующая оценка за итоговый контроль в форме экзамена выставляется по следующей формуле, где Озач – оценка за работу непосредственно на зачете: Оитоговый1 =0,4· Озач +0,6·Отекущий· Результирующая оценка за текущий контроль во втором модуле учитывает результаты студента по текущему контролю следующим образом: Отекущий = 0,6 Одз + 0,4· Ок/р; Результирующая оценка за итоговый контроль в форме экзамена выставляется по следующей формуле, где Оэкзамен – оценка за работу непосредственно на экзамене: Оитоговый =0,4·Оэкзамен +0,3·Отекущий +0,3· Оитоговый1. В диплом ставится оценка за итоговый контроль, которая является результирующей оценкой по учебной дисциплине. Таблица соответствия оценок по десятибалльной и системе зачет/незачет Оценка по 10-балльной шкале Оценка по 5-балльной шкале 1 Незачет 2 3 4 Зачет 5 6 4 7 8 9 10 Таблица соответствия оценок по десятибалльной и пятибалльной системе По десятибалльной шкале По пятибалльной системе 1 – неудовлетворительно 2 – очень плохо неудовлетворительно – 2 3 – плохо 4 – удовлетворительно удовлетворительно – 3 5 – весьма удовлетворительно 6 – хорошо хорошо – 4 7 – очень хорошо 8 – почти отлично 9 – отлично отлично – 5 10 - блестяще III. Программа дисциплины «Многомерный статистический анализ» Тема 1. Основные понятия робастной статистики. Вероятностные меры и отношения между ними. Понятие статистической структуры и статистического фильтра. Примеры формирования статистической структуры. Построение статистической структуры на базе параметрической модели. Понятие о робастном статистическом решении. Регуляризирующий функционал и предъявляемые к нему требования. Выбор статистической модели исходя из качества имеющихся статистических данных. Правило выбора целевой функции решающего правила. Большие уклонения и их влияние на выбор статистической модели и решающего правила. Статистический эксперимент. Последовательные и статические решающие правила. Основная литература 1. А.А. Боровков. Математическая статистика. Новосибирск: Наука. 1997. 2. Хампель Ф. и др. Робастность в статистике. Подход на основе функций влияния. М.: Мир. 1989. Дополнительная литература 1. Цитович Ф.И. Свойства субоптимальных последовательных правил проверки непараметрических гипотез о распределениях с экспоненциально убывающими хвостами // Информационные процессы Т. 10, № 2. 2010. С. 181-196. 2. Ширяев А.Н. Вероятность. М.: Наука. 1980. 5 Тема 2. Робастные статистические решения, основанные на независимых наблюдениях. Задача оценивания параметров распределений, заданных с ошибками. Свойства оценок параметров распределений, если наблюдаемое распределение не принадлежит предполагаемому параметрическому множеству. Правила выбора функции риска для построения робастных оценок параметров. Информационные расстояния между вероятностными мерами и их свойства. Сложные непараметрические гипотезы. Примеры построения статистических моделей в задаче проверки гипотез. Гарантийное решающее правило. Правила построения решающих правил при ограниченном носителе данных. Влияние скорости убывания хвостов распределений на гарантийное решающее правило. Рекомендации по учету «выбросов» в статистических данных. Основная литература 1. А.А. Боровков. Математическая статистика. Новосибирск: Наука. 1997. 2. Хампель Ф. и др. Робастность в статистике. Подход на основе функций влияния. М.: Мир. 1989. 3. М. Холлендер, Д.А. Вульф Непараметрические методы статистики. М.: Финансы и статистика. 1983. Дополнительная литература 1. Цитович Ф.И. Свойства субоптимальных последовательных правил проверки непараметрических гипотез о распределениях с экспоненциально убывающими хвостами // Информационные процессы Т. 10, № 2. 2010. С. 181-196. 2. Малютов М.Б., Цитович И.И. Асимптотически последовательная проверка гипотез // Проблемы передачи информации. Том 36. Вып. 4. 2000. С.98-112. Тема 3. Робастные статистические решения, основанные на зависимых наблюдениях. Вероятностные модели статистической зависимости. Понятие о слабой и сильной зависимости. Регрессионные модели. Статистические методы проверки независимости и однородности. Марковские модели. Задача оценивания матрицы переходных вероятностей. Проблемы точности оценивания и адекватности. Статистика случайных процессов. Решение задачи о разладке на основании анализа траекторий стационарных процессов. Основная литература 1. А.А. Боровков. Математическая статистика. Новосибирск: Наука. 1997. 2. Хампель Ф. и др. Робастность в статистике. Подход на основе функций влияния. М.: Мир. 1989. Дополнительная литература 1. М. Холлендер, Д.А. Вульф Непараметрические методы статистики. М.: Финансы и статистика. 1983. 6 2. Tsitovich I. Suboptimal Nonparametric Hypotheses Discriminating from Small Dependent Observations // Pliska. Studia mathematica Bulgaria. 2009. V. 19. P. 283-292. 3. Malyutov, M.B., Tsitovich I.I. Second Order Optimal Sequential Model Choice and Change-point Detection // Information Processes. 2010. Vol. 10, № 3. P. 275-291. IV. Методические указания студентам Самостоятельная работа студента предусматривает выполнение теоретических заданий, направленных на овладение техникой построения и преобразования моделей многомерных данных, которая необходима для выполнения анализа моделей, построенных по реальным данным, выбора типа моделей, описывающих эти данные, диагностики и интерпретации результатов. Автор программы: _____________________________/ <Цитович И.И.> / 7