Современные_методы_анализа_данных 1 к. ПМИ маг.13

advertisement
Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Нижегородский филиал
Факультет Бизнес информатики и прикладной математики
Программа дисциплины Современные методы анализа данных
для направления 010400.68 Прикладная математика и информатика
подготовки магистра
для магистерской программы «Прикладная математика и информатика»
Автор программы:
Калягин В.А. д.ф.-м.н., профессор
Одобрена на заседании кафедры ПМИ «___»____________ 2013г.
Зав. кафедрой Калягин В.А.
Рекомендована секцией УМС «Прикладная математика» «___»____________2013г.
Председатель Калягин В.А.
Утверждена УМС НИУ ВШЭ – Нижний Новгород «___»_____________2013г.
Председатель Бухаров В.М.
Нижний Новгород, 2013
1
Область применения и нормативные ссылки
Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 010400.68 Прикладная математика и информатика,
обучающихся по магистерской программе «Прикладная математика и информатика»,
изучающих дисциплину «Современные методы анализа данных».
Программа разработана в соответствии с:
 ОС НИУ ВШЭ;
 Образовательной программой 010400.68 Прикладная математика и информатика
подготовки магистра
 Рабочим учебным планом университета по направлению подготовки магистра
010400.68 Прикладная математика и информатика, утвержденным в 2013 г.
2
Цели освоения дисциплины
Программа учебной дисциплины (курса) «Современные методы анализа данных» рассчитана
на студентов – магистров направления «Прикладная математика и информатика» НИУ ВШЭ –
Нижний Новгород. Материалы этого курса могут быть так же использованы при подготовке бакалавров.
Цели курса:
 Развитие способностей к профессиональному комплексному анализу данных в экономической сфере и бизнесе;
 Развитие компетенций в области математических методов и информационных технологий.
Задачи курса:
 Освоение студентами основных теоретических положений современных математических методов анализа данных;
 Овладение навыками разработки и компьютерной реализации новых методов анализа
данных.
 Овладение практическими навыками анализа реальных данных;
 Знакомство с современными профессиональными компьютерными пакетами анализа
данных, сравнение их возможностей, достоинств и недостатков.
3
Компетенции обучающегося, формируемые в результате освоения дисциплины
В результате освоения дисциплины студент должен:
 Знать основные теоретические положения современных математических методов
анализа данных
 Уметь пользоваться профессиональными компьютерными пакетами анализа данных,
сравнивать их возможности, достоинства и недостатки
 Иметь практические навыки анализа реальных данных
 Иметь навыки разработки и компьютерной реализации новых методов анализа данных
В результате освоения дисциплины студент осваивает следующие компетенции:
2
Компетенция
Способность рефлексировать (оценивать и перерабатывать) освоенные научные методы и способы деятельности.
Способность к самостоятельному
освоению новых методов исследований, изменению научного и производственного профиля своей деятельности.
Способность анализировать и воспроизводить смысл междисциплинарных текстов с использованием
языка и аппарата прикладной математики.
Код по
НИУ
СК-1
СК-3
ПК-10
Способность использовать в профессиональной деятельности знания в области естественных наук,
математики и информатики, понимание основных фактов, концепций, принципов теорий, связанных
с прикладной математикой и информатикой.
ПК-16
Способность строить и решать математические модели в соответствии с направлением подготовки и
специализацией.
ПК-17
Способность понимать и применять
в исследовательской и прикладной
деятельности современный математический аппарат.
ПК-18
4
Дескрипторы – основные признаки освоения
(показатели достижения
результата)
Демонстрирует способность оценивать и
перерабатывать освоенные научные методы
при выборе способов
решения новых задач
Показывает способность
к самостоятельному
освоению новых методов исследования при
подготовке докладов
Показывает способность
анализировать и воспроизводить смысл текстов при работе с журнальной литературой по
курсу
Использует знания в
области естественных
наук, математики и информатики, понимание
основных фактов, концепций, принципов теорий при выполнении
индивидуальных творческих заданий
Показывает способность
строить и решать математические модели при
выполнении лабораторных работ
Показывает способность
понимать и применять в
исследовательской и
прикладной деятельности современный математический аппарат при
выполнении индивидуальных творческих заданий.
Формы и методы обучения,
способствующие формированию и развитию компетенции
Чтение лекций, проведение
Чтение лекций, п
практических занятий, самоде-ние практиче
стоятельная работа
занятий, самост
тельная работ
Чтение лекций, проведение
практических занятий, самостоятельная работа
Чтение лекций, проведение
практических занятий, самостоятельная работа
Чтение лекций, проведение
практических занятий, самостоятельная работа
Чтение лекций, проведение
практических занятий, самостоятельная работа
Чтение лекций, проведение
практических занятий, самостоятельная работа
Место дисциплины в структуре образовательной программы
Настоящая дисциплина является базовой дисциплиной подготовки магистров по направлению
010400.68 Прикладная математика и информатика. Изучение данной дисциплины базируется на
следующих дисциплинах подготовки бакалавров: дискретная математика, линейная алгебра, математический анализ, теория вероятностей и математическая статистика, исследование операций.
5
№
1
Тематический план учебной дисциплины
Название раздела
Всего часов
Аудиторные часы
Самостоятельная
Семина- ПрактичеЛекции
работа
ры
ские занятия
Многомерные данные. Пер3
2
вичная обработка. Пропуски
и выбросы. Классификация и
визуализация.
Анализ главных компонент.
3
Факторный анализ.
4
Кластерный анализ.
5
Многомерное шкалирование
(Multidimensional scaling).
Статистические основы
многомерного анализа
Дискриминантный анализ.
6
7
8
6
Метод структурных уравнений (SEM analysis)
Итого
22
44
4
14
20
44
4
12
20
44
4
12
20
44
4
12
20
44
4
12
16
22
2
12
24
44
4
16
20
162
44
30
4
30
12
102
Формы контроля знаний студентов
Тип контроля
Текущий
(неделя)
Промежуточный
Итоговый
Форма контроля
Контрольная
работа
Домашнее
задание
Зачет
Экзамен
1
5
3
5
8
*
1 год
2
2 год
Параметры
письменная работа 60
минут
Лабораторные работы по
курсу
2
4
6
Письменный зачет 40
мин
Письменный экзамен 120
мин
*
6.1 Критерии оценки знаний, навыков
Контроль знаний студентов включает формы текущего и итогового контроля. Текущий контроль
осуществляется в течение двух модулей. По курсу предусмотрены: текущий контроль знаний студентов, контроль индивидуальной и практической работы студентов. Каждая форма текущего контроля оценивается 10-балльной оценкой, которая выставляется в рабочую ведомость преподавателя.
По результатам текущего контроля организуются индивидуальные консультации либо в рамках
второй половины рабочего дня преподавателя, либо по электронной почте. Предоставленные студентами результаты индивидуальных и лабораторных работ обсуждаются на семинарских занятиях
и оцениваются лектором и преподавателем, ведущим практические занятия.
Формы итогового контроля:
 По окончании первого учебного модуля курса предусмотрен письменный теоретический
тест по темам 1-4, которая оценивается по 10-балльной шкале. Продолжительность теста
работы 60 мин.

По окончании второго учебного модуля курса (окончание курса) предусмотрен письменный экзамен, который оценивается по 10-балльной шкале. Продолжительность экзамена
— 120 мин.
4

6.2
В течение двух учебных модулей курса проводится публичная защита и обсуждение результатов индивидуальных работ (докладов) и лабораторных работ (работа с базой данных), которые оцениваются по 10-балльной шкале. Защита включает в себя презентацию
материала, ответы на вопросы аудитории и преподавателя.
Порядок формирования оценок по дисциплине
Онакопленная1 = 0,6*Ок/р + 0,4*Од/з1
Онакопленная2 = Од/з2
Опромежуточная = 0,6*Озачет + 0,4*Онакопл.1
Оитоговая накопл. = (Опромежут. + Онакопл.2) : 2
Орезультат = 0,5*Оэкзамен + 0,5*Оитоговая накопл.
Полученный после округления этой величины до целого значения результат выставляется как
результирующая оценка по 10-балльной шкале.
7
Содержание дисциплины
Тема 1. Многомерные данные. Первичная обработка. Пропуски и выбросы. Классификация и визуализация.
Основные типы данных. Многомерные данные. Сравнение многомерных наборов данных.
Расстояния между векторными наборами данных. Центрирование и стандартизация данных. Особенности номинальных данных. Выбросы в многомерных данных. Проблема выбросов. Пропущенные данные. Проблема пропусков. Визуализация данных. Диаграммы рассеяния. Блок-диаграммы.
2D и 3D визуализация. Визуализация многомерных данных: матричные диаграммы, звездные диаграммы, диаграммы Эндрюса (Andrews), Андерсона (Anderson), Клейнера-Хартигана (KleinerHartigan), Чернова (Chernoff) и другие. Представление данных в различных прикладных компьютерных системах. Преобразование данных из одной системы в другую. Представление данных в системе MatLab.
Основная литература
1. Mirkin B.G. Core Concepts in Data Analysis: Summarization, Correlation and Visualization
Springer, 2011, 410 с.
2. Лагутин М.Б. Наглядная математическая статистика, Бином. Лаб. знаний, 2009, 472 с.
3. Айвазян С.А. Енюков И.С. Мешалкин Л.Д. Прикладная статистика, т.3, М., 1989.
Дополнительная литература
4. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS, М., ГУВШЭ, 2006.
5. Gnanadesikan R. Methods for Statistical Data Analysis of Multivariate Observations, 2-d Edition,
Wiley, 1997.
6. Hair J.F. Anderson E. Babin B. Black W. Tatham R. Multivariate Data Analysis, 6-th Edition, Pearson Printice Hall, 2006.
7. Agresti A. An Introduction to Categorical Data Analysis. New York: Wiley, 1996.
8. Cox T. An Introduction to Multivariate Analysis, Arnold, 2005.
9. Landau S. Everitt B. Handbook of Statistical Analysis using SPSS, CRC Press, 2006.
10. Tabachnik B. Fidell L. Using Multivariate Statistics, Boston: Allyn and Bacon, 2001.
11. Документация и Help системы MatLab.
Тема 2. Анализ главных компонент
Проблема уменьшения размерности. Задачи наилучшей аппроксимации матрицы заданной
размерности матрицами той же размерности фиксированного ранга. Выбор матричной нормы. SVD
разложение. Сингулярные числа матрицы. Теорема Шмидта – Мирского (Эккарта-Юнга). Оценка
5
погрешности в l2 матричной норме и в норме Фробениуса. Метод главных компонент как вариант
SVD разложения. Вычисление главных компонент. QR - алгоритм. Матрица нагрузок как матрица
корреляций наблюдений и новых факторов. Погрешность аппроксимации как изменение общей вариации данных. Проблема выбора числа главных компонент. Проблема выбросов в анализе главных
компонент. Интерпретация главных компонент. Поиск структуры в матрице нагрузок. Вращения в
пространстве главных компонент как способ улучшения структуры матрицы нагрузок и помощь в
интерпретации главных компонент (факторов). Ограничения анализа главных компонент. Анализ
главных компонент в различных компьютерных системах анализа данных. Алгоритм анализа главных компонент в системе MatLab.
Основная литература
1. Mirkin B.G. Core Concepts in Data Analysis: Summarization, Correlation and Visualization
Springer, 2011, 410 с.
2. Лагутин М.Б. Наглядная математическая статистика, Бином. Лаб. знаний, 2009, 472 с.
3. Айвазян С.А. Енюков И.С. Мешалкин Л.Д. Прикладная статистика, т.3, М., 1989.
a. Дополнительная литература
4. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS, М., ГУВШЭ, 2006.
5. Gnanadesikan R. Methods for Statistical Data Analysis of Multivariate Observations, 2-d Edition,
Wiley, 1997.
6. Hair J.F. Anderson E. Babin B. Black W. Tatham R. Multivariate Data Analysis, 6-th Edition, Pearson Printice Hall, 2006.
7. Agresti A. An Introduction to Categorical Data Analysis. New York: Wiley, 1996.
8. Cox T. An Introduction to Multivariate Analysis, Arnold, 2005.
9. Landau S. Everitt B. Handbook of Statistical Analysis using SPSS, CRC Press, 2006.
10. Tabachnik B. Fidell L. Using Multivariate Statistics, Boston: Allyn and Bacon, 2001.
11. Документация и Help системы MatLab.
Тема 3. Факторный анализ.
Общая схема факторного анализа. Анализ главных компонент и вращения в пространстве
главных компонент как частный случай общей схемы. Терминология факторного анализа. Общность, надежность, характерность, специфичность, дисперсия ошибки, факторное отображение и
факторная структура. Фундаментальные соотношения Тэрстоуна. Алгоритмы факторного анализа.
Метод главных факторов, центроидный метод. Метод максимального правдоподобия, метод минимальных остатков. Проблема интерпретации результатов факторного анализа. Факторный анализ в
различных компьютерных системах анализа данных. Алгоритмы факторного анализа в системе
MatLab. Ограничения и проблемы факторного анализа.
Основная литература
1.
2.
3.
4.
Дубров А.М. Мхитарян В.С. Трошин Л.И. Многомерные статистические методы для
экономистов и менеджеров, М., 2000.
Mirkin B.G. Core Concepts in Data Analysis: Summarization, Correlation and Visualization
Springer, 2011, 410 с.
Лагутин М.Б. Наглядная математическая статистика, Бином. Лаб. знаний, 2009, 472 с.
Айвазян С.А. Енюков И.С. Мешалкин Л.Д. Прикладная статистика, т.3, М., 1989.
a. Дополнительная литература
5.
Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS, М.,
ГУ-ВШЭ, 2006.
6.
Малхотра Н. Маркетинговые исследования. Практическое руководство. М., ИД «Вильямс», 2002.
Харман Г. Современный факторный анализ, М., Статистика, 1972.
6
7.
8.
9.
Gnanadesikan R. Methods for Statistical Data Analysis of Multivariate Observations, 2-d
Edition, Wiley, 1997.
Hair J.F. Anderson E. Babin B. Black W. Tatham R. Multivariate Data Analysis, 6-th Edition, Pearson Printice Hall, 2006.
10.
Agresti A. An Introduction to Categorical Data Analysis. New York: Wiley, 1996.
11.
Cox T. An Introduction to Multivariate Analysis, Arnold, 2005.
12.
Landau S. Everitt B. Handbook of Statistical Analysis using SPSS, CRC Press, 2006.
13.
Tabachnik B. Fidell L. Using Multivariate Statistics, Boston: Allyn and Bacon, 2001.
14.
Документация и Help системы MatLab.
Тема 4. Кластерный анализ.
Проблема классификации объектов. Задача кластерного анализа как двойственная к задаче
уменьшения размерности факторного анализа. Расстояния в пространстве объектов. Евклидово расстояние, расстояние городских кварталов, расстояние Чебышева, расстояние Минковского. Расстояния между номинальными данными. Преимущества и недостатки известных расстояний. Методы
измерения расстояния между кластерами: метод ближайшего соседа; метод наиболее удаленных
соседей; метод попарных средних; метод взвешенных попарных средних; центроидный метод;
взвешенный центроидный метод; метод Варда. Таблица расстояний между объектами. Алгоритмы
иерархической кластеризации (снизу вверх и сверху вниз). Проблема выбора адекватного числа
кластеров. Графическое представление иерархических алгоритмов кластеризации. Дендрограммы.
Задача кластеризации как задача дискретной оптимизации. Выбор целевой функции. Суммарная
вариация внутри кластеров как одна из целевых функций. Метод перебора. Число разбиений множества объектов на фиксированное число непустых классов. Числа Стирлинга второго рода. Числа
Белла. Оценки роста чисел Стирлинга и чисел Белла. Алгоритм к-средних. Теорема сходимости.
Проблема локального минимума. Методы поиска глобального минимума. Вычислительные проблемы кластерного анализа. Параллельные алгоритмы. Проблема адекватного числа кластеров. Сравнение иерархических методов и методов оптимизации. Кластерный анализ в различных компьютерных системах анализа данных. Алгоритмы кластерного анализа в системе MatLab.
Основная литература
1. Mirkin B.G. Core Concepts in Data Analysis: Summarization, Correlation and Visualization Springer,
2011, 410 с.
2. Лагутин М.Б. Наглядная математическая статистика, Бином. Лаб. знаний, 2009, 472 с.
3. Айвазян С.А. Енюков И.С. Мешалкин Л.Д. Прикладная статистика, т.3, М., 1989.
a. Дополнительная литература
4. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS, М., ГУ-ВШЭ,
2006.
5. Малхотра Н. Маркетинговые исследования. Практическое руководство. М., ИД «Вильямс»,
2002.
6. Харман Г. Современный факторный анализ, М., Статистика, 1972.
7. Gnanadesikan R. Methods for Statistical Data Analysis of Multivariate Observations, 2-d Edition,
Wiley, 1997.
8. Hair J.F. Anderson E. Babin B. Black W. Tatham R. Multivariate Data Analysis, 6-th Edition, Pearson Printice Hall, 2006.
9. Agresti A. An Introduction to Categorical Data Analysis. New York: Wiley, 1996.
10. Cox T. An Introduction to Multivariate Analysis, Arnold, 2005.
11. Landau S. Everitt B. Handbook of Statistical Analysis using SPSS, CRC Press, 2006.
12. Tabachnik B. Fidell L. Using Multivariate Statistics, Boston: Allyn and Bacon, 2001.
7
13. Документация и Help системы MatLab.
14. 1996
Тема 5. Многомерное шкалирование.
Проблема сравнительного расположения объектов. Матрица различий между объектами
(матрица расстояний). Уменьшение размерности по матрице расстояний. Сравнение с факторным
анализом. Расположение объектов в пространстве меньшей размерности с максимально возможным
сохранением расстояний. Теорема о существовании точного решения. Критерий положительных
собственных значений. Метод главных координат. Ошибка в матрице расстояний при переходе к
меньшей размерности. Алгоритмы оптимизации для решения задачи многомерного шкалирования.
Выбор целевой функции. Обсуждение проблемы существования и единственности решения. Фиксация осей координат. Интерпретация результатов многомерного шкалирования. Многомерное
шкалирование в различных компьютерных системах анализа данных. Алгоритмы многомерного
шкалирования в системе MatLab.
Основная литература
1.
2.
3.
Mirkin B.G. Core Concepts in Data Analysis: Summarization, Correlation and Visualization
Springer, 2011, 410 с.
Лагутин М.Б. Наглядная математическая статистика, Бином. Лаб. знаний, 2009, 472 с.
Айвазян С.А. Енюков И.С. Мешалкин Л.Д. Прикладная статистика, т.3, М., 1989.
a. Дополнительная литература
4.
Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS, М.,
ГУ-ВШЭ, 2006.
5.
Малхотра Н. Маркетинговые исследования. Практическое руководство. М., ИД «Вильямс», 2002.
Харман Г. Современный факторный анализ, М., Статистика, 1972.
Дубров А.М. Мхитарян В.С. Трошин Л.И. Многомерные статистические методы для
экономистов и менеджеров, М., 2000.
Gnanadesikan R. Methods for Statistical Data Analysis of Multivariate Observations, 2-d
Edition, Wiley, 1997.
Hair J.F. Anderson E. Babin B. Black W. Tatham R. Multivariate Data Analysis, 6-th Edition, Pearson Printice Hall, 2006.
6.
7.
8.
9.
10.
Agresti A. An Introduction to Categorical Data Analysis. New York: Wiley, 1996.
11.
Cox T. An Introduction to Multivariate Analysis, Arnold, 2005.
12.
Landau S. Everitt B. Handbook of Statistical Analysis using SPSS, CRC Press, 2006.
13.
Tabachnik B. Fidell L. Using Multivariate Statistics, Boston: Allyn and Bacon, 2001.
14.
Документация и Help системы MatLab.
Тема 6. Статистические основы многомерного анализа.
Основные понятия многомерной статистики (кратко). Случайные векторы. Нормальные случайные векторы. Линейные преобразования нормальных случайных векторов. Оценки максимального правдоподобия вектора средних и матрицы ковариаций нормального случайного вектора.
Многомерное обобщение хи-квадрат распределения: распределение Вишарта (Wishart). Многомерное обобщение распределения Стьюдента: Т2-распределение Хотеллинга (Hotelling). Связь с распределением Фишера-Снедекора. Многомерный тест проверки гипотезы о равенстве средних заданным значениям. Расстояние Махаланобиса между двумя выборками. Распределение расстояния
Махаланобиса. Проверка многомерной гипотезы о равенстве средних двух выборок. Общий принцип оптимального многомерного статистического теста – тест отношения правдоподобия. Теорема
Вилкса (Wilk’s theorem). Примеры. Специфика многомерного случая. Вычислительные аспекты
применения теста отношения правдоподобия. Процедура оптимизации отношения правдоподобия.
Численная реализация. Достоинства и недостатки тестов отношения правдоподобия. Проблема вы8
деления причины отклонения основной гипотезы. Альтернативный подход. Проекция многомерного случайного вектора на одномерные подпространства. Теорема Крамера-Вольда (Cramer-Wold).
Проверка гипотезы для проекций. Общий вывод. Выделение направления уклонения наблюдений от
основной гипотезы. Тест объединение-пересечение (Union-Intersection). Достоинства и недостатки.
Вычислительные проблемы. Имитационное моделирование (метод Монте-Карло) как средство решения вычислительных проблем. Проверка гипотезы о равенстве средних для k независимых векторных выборок размерности p. Тест отношения правдоподобия (Λ-тест Вилкса). Тест Объединение-пересечение. Связь с анализом вариаций (дисперсионный анализ). Реализация тестов в компьютерных пакетах анализа данных. Преимущества системы MatLab.
Основная литература
1. Лагутин М.Б. Наглядная математическая статистика, Бином. Лаб. знаний, 2009, 472 с.
2. Айвазян С.А. Енюков И.С. Мешалкин Л.Д. Прикладная статистика, т.3, М., 1989.
3. Дубров А.М. Мхитарян В.С. Трошин Л.И. Многомерные статистические методы для экономистов и менеджеров, М., 2000.
a. Дополнительная литература
4. Gnanadesikan R. Methods for Statistical Data Analysis of Multivariate Observations, 2-d Edition,
Wiley, 1997.
5. Hair J.F. Anderson E. Babin B. Black W. Tatham R. Multivariate Data Analysis, 6-th Edition, Pearson Printice Hall, 2006.
6. Agresti A. An Introduction to Categorical Data Analysis. New York: Wiley, 1996.
7. Cox T. An Introduction to Multivariate Analysis, Arnold, 2005.
8. Landau S. Everitt B. Handbook of Statistical Analysis using SPSS, CRC Press, 2006.
9. Tabachnik B. Fidell L. Using Multivariate Statistics, Boston: Allyn and Bacon, 2001.
10. Документация и Help системы MatLab.
Тема 7. Дискриминантный анализ.
Основная проблема дискриминантного анализа. Поиск характеристики, разделяющей группы наблюдений. Линейный дискриминантный анализ. Основные принципы линейного дискриминантного анализа. Аналогия с анализом главных компонент и с многомерным анализом вариаций
(дисперсионный анализ). Техника многомерного дискриминантного анализа. Матричная вариация
внутри групп и между группами. Проблема максимума отношения двух квадратичных форм. Решение с помощью обобщенной задачи на собственные значения. Линейная дискриминантная функция
Фишера. Другие дискриминантные функции. Дискриминантные подпространства. Проблема отсутствия ортогональности дискриминантных векторов. Определение нового объекта в соответствующую ему группу. Принцип ближайшего центра группы. Различные виды расстояний: евклидово,
дискриминантное, Махаланобиса. Квадратичный дискриминантный анализ и другие варианты
определения функций, различающих группы. Логистическая регрессия. Статистическая модель
дискриминантного анализа. Предположения о форме распределения в группах. Формальные правила классификации. Статистическое сравнение правил классификации. Правило максимального
правдоподобия. Теоретические выводы для многомерных нормальных распределений. Байесовское
правило классификации (разделения). Правило отношения правдоподобия. Вероятности неправильной классификации. Сравнение правил по вероятностям неверной классификации. Оптимальность
правила максимума правдоподобия. Оптимальность байесовского правила. Оценки вероятностей
неверной классификации. Jackknife estimate. Перестановки и рандомизация наблюдений. Нейронные сети. Алгоритмы дискриминантного аннализа с использованием нейронных сетей. Карты Кохонена. Достоинства и недостатки различных методов дискриминантного анализа. Дискриминантный анализ в различных компьютерных системах анализа данных. Алгоритмы дискриминантного
анализа в системе MatLab.
Основная литература
9
1.
2.
3.
Mirkin B.G. Core Concepts in Data Analysis: Summarization, Correlation and Visualization
Springer, 2011, 410 с.
Лагутин М.Б. Наглядная математическая статистика, Бином. Лаб. знаний, 2009, 472 с.
Айвазян С.А. Енюков И.С. Мешалкин Л.Д. Прикладная статистика, т.3, М., 1989.
a. Дополнительная литература
4.
Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS, М.,
ГУ-ВШЭ, 2006.
5.
Малхотра Н. Маркетинговые исследования. Практическое руководство. М., ИД «Вильямс», 2002.
Дубров А.М. Мхитарян В.С. Трошин Л.И. Многомерные статистические методы для
экономистов и менеджеров, М., 2000.
Gnanadesikan R. Methods for Statistical Data Analysis of Multivariate Observations, 2-d
Edition, Wiley, 1997.
Hair J.F. Anderson E. Babin B. Black W. Tatham R. Multivariate Data Analysis, 6-th Edition, Pearson Printice Hall, 2006.
6.
7.
8.
9.
Agresti A. An Introduction to Categorical Data Analysis. New York: Wiley, 1996.
10.
Cox T. An Introduction to Multivariate Analysis, Arnold, 2005.
11.
Landau S. Everitt B. Handbook of Statistical Analysis using SPSS, CRC Press, 2006.
12.
Tabachnik B. Fidell L. Using Multivariate Statistics, Boston: Allyn and Bacon, 2001.
13.
Документация и Help системы MatLab.
Тема 8. Метод структурных уравнений (SEM analysis).
Основы метода структурных уравнений (structural equation modeling). Подтверждающий факторный
анализ (confirmatory factor analysis). Анализ путей (path analysis). Структурная модель. Оценка качества структурной модели (fit analysis). Практические применения метода структурных уравнений
(case study).
Основная литература
1. Hair J.F. Anderson E. Babin B. Black W. Tatham R. Multivariate Data Analysis, 6-th Edition,
Pearson Printice Hall, 2006.
Дополнительная литература
1. Publications in the international Journal of Structural Equation Modeling (IF 3,1).
2. Rachna Shah, Susan Meyer Goldstein Use of structural equation modeling in operations management research: Looking back and forward, Journal of Operations Management 24 (2006)
148–169
3. Advances in Management Accounting, 2007, Volume 16, 217-260 Activity based cost management and manufacturing, operational and financial performance: a structural equation modeling approach
4. Decision support systems 42 (2007) Structural equation modeling the use of a risk assessment
instrument in child protective services
Перечень тем семинарских занятий
На семинарах студенты делают доклады по темам семинара и представляют результаты
практических работ. Доклады и результаты комментируются преподавателем, который выделяет
проблемы применения различных методов анализа данных, типичные ошибки и способы их исправления.
С1. Визуализация и преобразование данных.
С2. Анализ главных компонент.
С3. Факторный анализ.
С4. Кластерный анализ.
10
С5. Многомерное шкалирование.
С6. Статистические основы многомерного анализа.
С7. Дискриминантный анализ.
С8. Метод структурных уравнений.
Перечень тем лабораторных работ
Каждая лабораторная работа является работой с реальной базой данных. База данных находится студентом самостоятельно и утверждается преподавателем. Предпочтение отдается базам
данных, связанным с региональным бизнесом и имеющим сложную структуру. Результаты анализа
докладываются на семинарских занятиях, обсуждаются студентами и преподавателем. Анализ базы
данных проводится с использованием компьютерных систем анализа данных и параллельно с помощью системы MatLab. Делается сравнение результатов.
Лаб 1. Визуализация многомерных данных.
Лаб 2. Анализ главных компонент.
Лаб 3. Факторный анализ.
Лаб 4. Кластерный анализ.
Лаб 5. Многомерное шкалирование.
Лаб 6. Дискриминантный анализ.
8
Образовательные технологии
Используются традиционные образовательные технологии: лекции и практические занятия. Практические занятия проводятся в форме обсуждения результатов выполнения лабораторных работ с
выделением наиболее важных моментов и возможных ошибок.
Методические рекомендации преподавателю
На лекциях преподаватель должен, прежде всего, обратить внимание на доступное и одновременно строгое изложение математических основ различных методов анализа данных. Магистры
направлений «Прикладная математика и информатика» имеют достаточную фундаментальную математическую подготовку для восприятия такого подхода. В программе курса подробно изложена
схема подачи теоретического лекционного материала. Основой многих классических методов многомерного анализа являются матричные вычисления. Поэтому в качестве основного программного
продукта для выполнения практических работ выбрана система математических вычислений
MatLab. Система MatLab была изначально задумана, как система матричных вычислений и ее использование в курсе позволяет эффективно и качественно иллюстрировать теоретические положения практическими вычислениями. Алгоритмы анализа данных системы MatLab доступны, хорошо
представлены и легко могут быть адаптированы для решения специфических задач и создания новых алгоритмов. Доступность библиотеки алгоритмов позволяет понять причину удачного и неудачного их применения в конкретных ситуациях, оценить их эффективность и границы применимости. Преподаватель может использовать анализ алгоритмов системы MatLab в качестве тем докладов студентов (индивидуальная работа). В качестве другой составляющей индивидуальной работы студентов рекомендуется использовать сравнительный анализ профессиональных пакетов
анализа данных. В курсе рекомендуется использовать (при наличии лицензии) наиболее распространенные в бизнес-среде программные продукты (см.ниже).
8.1
На семинарах студенты делают доклады по темам семинара и представляют результаты лабораторных работ. Доклады и результаты комментируются преподавателем, который выделяет проблемы применения различных методов анализа данных, типичные ошибки и способы их исправления. Каждая лабораторная работа является работой с реальной базой данных. База данных находится каждым студентом самостоятельно и утверждается преподавателем. Предпочтение отдается базам данных, связанным с региональным бизнесом и имеющим достаточно сложную структуру. Результаты анализа докладываются на семинарских занятиях, обсуждаются студентами и преподавателем. Анализ базы данных проводится с использованием перечисленных компьютерных систем
анализа данных и параллельно с помощью системы MatLab. Делается сравнение результатов. Пре11
подаватель использует презентации практических работ студентов для более глубокого усвоения
теоретических положений курса.
Методические указания студентам
Для усвоения теоретической части курса рекомендуется использовать основную и дополнительную литературу, литературу для самостоятельного изучения. При выполнении практических
работ следует уделить особое внимание интерпретации полученных результатов. Для эффективного
выполнения практических работ рекомендуется вносить изменения в стандартные реализации алгоритмов с целью их улучшения, анализировать время выполнения вычислений и сравнивать результаты, полученные с помощью различных программных продуктов. Отчеты по практическим
работам следует готовить по стандартной форме (желательно в компьютерном исполнении). Отчет
должен содержать следующие обязательные части:
 Постановка задачи
 Анализ различных алгоритмов решения
 Выбор (с обоснованием) алгоритма для анализа имеющейся базы данных
 Реализация алгоритма в системе MatLab.
 Интерпретация полученных результатов.
 Решение той же задачи в другой программной среде. Сравнение результатов.
 Выводы.
Студентам следует обратить внимание, что контроль усвоения теоретической части курса
осуществляется на письменной контрольной работе и на письменном зачете. Контроль практической части курса проходит на семинарских занятиях и при выполнении индивидуальных и практических работ.
8.2
9
Оценочные средства для текущего контроля и аттестации студента
Тематика заданий текущего контроля
Дайте наиболее полный ответ.
1. Какую информацию можно извлечь из диаграммы рассеяния двух признаков?
2. Зачем нужен анализ выбросов данных?
3. Для чего используется ЕМ алгоритм при первичном анализе данных?
4. Какова математическая формулировка задачи аппроксимации в теоретическом обосновании метода главных компонент?
5. Для чего делаются вращения в пространстве главных факторов?
6. Сформулируйте общую модель факторного анализа.
7. Что характеризуют общности исходных признаков в факторном анализе?
8. Результаты анализа главных компонент для базы данных из 5 признаков собраны в таблицах «Квадраты сингулярных чисел ( σi2 )» и «Матрица нагрузок»
8.1. Сколько факторов достаточно (число главных факторов)? Обоснуйте ответ.
8.2. Выделите матрицу нагрузок для выделенных главных факторов и дайте характеристику
ее структуры.
8.3. В пространстве 3-х главных факторов сделано вращение. Матрица нагрузок после вращения представлена в матрице «Нагрузки после вращения». Опишите, как изменилась структура
матрицы нагрузок. Дайте комментарий к результатам.
9.1
9.2
1.
2.
3.
4.
5.
6.
7.
8.
Вопросы для оценки качества освоения дисциплины
Способы визуализации одномерных данных.
2D и 3D визуализация.
Способы визуализации многомерных данных.
Преобразование данных из одной компьютерной системы в другую.
Преобразование данных из различных систем в систему MatLab.
SVD разложение
Теорема Шмидта-Мирского
Вычисление главных компонент. QR алгоритм.
12
9. Свойства матрицы нагрузок анализа главных компонент.
10. Зачем нужны вращения в пространстве главных компонент?
11. Основная модель факторного анализа.
12. В чем отличие факторного анализа от анализа главных компонент?
13. Как узнать, сколько главных факторов достаточно?
14. Как измеряется расстояние в пространстве объектов?
15. Что такое: иерархические методы кластеризации?
16. Какие целевые функции используются при кластерном анализе методом оптимизации?
17. Как определить адекватное число кластеров?
18. Почему метод перебора разбиений множества объектов на фиксированное число групп практически неприменим для выделения кластеров?
19. В чем состоит основная идея многомерного шкалирования?
20. Когда возможно расположение объектов в пространстве меньшей размерности с сохранением исходной матрицы расстояний?
21. Что дает метод главных координат?
22. Какие целевые функции используются для решения задачи многомерного шкалирования методом оптимизации?
23. Где используется распределение Вишарта (Wishrt)?
24. Для проверки каких гипотез полезно Т2-распределение Хотеллинга (Hotelling)?
25. Какое распределение имеет расстояние Махаланобиса между двумя выборками при условии
нормальности основных распределений?
26. Перечислите достоинства и недостатки многомерных статистических тестов, основанных на
отношении правдоподобия.
27. В чем суть теоремы Крамера-Вальда (Cramer-Wold)?
28. Как используется метод имитационного моделирования при численной реализации теста Union-Intersection?
29. Чем отличается линейный дискриминантный анализ от нелинейного?
30. Как связаны задача максимума отношения двух квадратичных форм и линейная дискриминантная функция Фишера?
31. В чем причина и каковы следствия неортогональности дискриминантных векторов?
32. Как сравнивать по качеству различные правила классификации дискриминантного анализа?
10 Учебно-методическое и информационное обеспечение дисциплины
10.1 Базовый учебник
Mirkin B.G. Core Concepts in Data Analysis: Summarization, Correlation and Visualization Springer,
2011, 410 с.
10.2 Основная литература
Лагутин М.Б. Наглядная математическая статистика, Бином. Лаб. знаний, 2009, 472 с.
Айвазян С.А. Енюков И.С. Мешалкин Л.Д. Прикладная статистика, т.3, М., 1989.
13
10.3 Дополнительная литература
Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS, М., ГУ-ВШЭ, 2006.
Малхотра Н. Маркетинговые исследования. Практическое руководство. М., ИД «Вильямс», 2002.
Дубров А.М. Мхитарян В.С. Трошин Л.И. Многомерные статистические методы для экономистов и
менеджеров, М., 2000.
Gnanadesikan R. Methods for Statistical Data Analysis of Multivariate Observations, 2-d Edition, Wiley,
1997.
Hair J.F. Anderson E. Babin B. Black W. Tatham R. Multivariate Data Analysis, 6-th Edition, Pearson
Printice Hall, 2006.
Agresti A. An Introduction to Categorical Data Analysis. New York: Wiley, 1996.
Cox T. An Introduction to Multivariate Analysis, Arnold, 2005.
Landau S. Everitt B. Handbook of Statistical Analysis using SPSS, CRC Press, 2006.
Tabachnik B. Fidell L. Using Multivariate Statistics, Boston: Allyn and Bacon, 2001.
Документация и Help системы MatLab.
Источники в Интернете:
1. Интегрированная среда
http://www.mathworks.com
математических
расчетов
Официальный
MatLab.
сервер
2. Программа статистических расчетов R. Официальный сервер. http://cran.r-project.org
3. Программная среда статистических расчетов SPSS. Официальный сервер. http://www.spss.ru
4. Интегрированная
среда
http://www.minitab.com
анализа
данных
Minitab.
Официальный
сервер
5. Программа XLSTAT анализа данных в среде Microsoft Excel. Официальный сайт
http://xlstat.com
6. Компьютерная среда анализа данных STATISTICA. Официальный сайт компании StatSoft
http://www.statsoft.com .
7. Интегрированная оболочка
http://www.basegroup.ru.
для
подготовки
и
анализа
данных
DEDUCTOR.
8. Статистический пакет анализа данных S-PLUS. Официальный сайт компании Insightful
http://www.insightful.com/products/splus
9. Интегрированная среда бизнес-анализа SAS/STAT. Официальный сайт компании SAS
http://www.sas.com
10. Интегрированная среда бизнес-анализа STATA. Официальный сайт компании STATA
http://www.stata.com
11. Интегрированная среда бизнес-анализа SYSTAT. Официальный сайт компании SYSTAT
http://www.systat.com
12. Виртуальная лаборатория по Теории Вероятностей и Статистике университета Алабама
(США) http://www.math.uah.edu/stat/
13. Базы данных для анализа с помощью
http://biostatistics.iop.kcl.ac.uk/publications/everitt .
14. Образовательный
портал
http://www.ecsocman.edu.ru/
по
Экономике,
14
прикладных
пакетов
Социологии
и
R
и
S-plus
Менеджменту
10.4 Программные средства
№
Назвап.п.
ние
Описание и адрес в Интернете
1.
MatLab
Популярная интегрированная графическая среда для научных вычислений. Имеет обширную постоянно пополняющуюся
библиотеку алгоритмов для анализа данных и аналитической обработки информации. Ядро программы создано на основе матричных вычислений. Имеет простой язык программирования и специальные средства создания сложных вычислительных модулей.
Коммерческий
продукт
компании
Mathworks
(http://www.mathworks.com)
2.
R
Программная среда анализа данных. Некоммерческий проект группы университетов Европы и США. Поддержка осуществляется Экономическим университетом г. Вена (Австрия). Имеет
большой набор функций анализа данных и свой язык программирования. Используется в курсах анализа данных многих университетов США. (http://cran.r-project.org)
3.
SPSS
Профессиональный продукт бизнес аналитики. Имеет
сильный блок анализа данных. Используется для профессиональных маркетинговых исследований различными маркетинговыми
агенствами. Постоянно расширяется. Включает большинство современных методов анализа данных. Используется в различных
курсах на многих факультетах ГУ-ВШЭ. Коммерческий продукт
компании SPSS (http://www.spss.ru)
4.
Minitab
Интегрированная среда анализа данных. Распространен в
университетах США. Имеет возможности программирования.
Коммерческий продукт компании Minitab (http://www.minitab.com)
5.
XLSTAT
Недорогая надстройка к табличному калькулятору Microsoft Excel. Имеет стандартный набор методов анализа данных.
Постоянно расширяется. Используется язык VBA. Коммерческий
продукт компании Xlstat (http://xlstat.com)
6.
STATISTICA
Интегрированная среда бизнес-анализа. Имеет хорошую
документацию и обучающие модули. Последние версии содержат
самые современные методы анализа данных. Коммерческий продукт компании StatSoft (http://www.statsoft.com). Сайт содержит
много справочной информации по методам анализа данных.
7.
DEDUCTOR
Интегрированная и расширяемая среда известного Российского производителя для подготовки и анализа данных с помощью
различных алгоритмов Добычи данных. Хорошо документирована и снабжена различными иллюстративными примерами из реальных предметных областей. При заключении партнерского соглашения высшим учебным заведениям продукт поставляется
бесплатно. (http://www.basegroup.ru)
8.
S-PLUS
Коммерческая копия программного продукта R. Имеет более удобный интерфейс и дополнительные встроенные функции.
Популярна в академических кругах США и Великобритании.
Коммерческий
продукт
компании
Insightful
(http://www.insightful.com)
15
9.
SAS/STAT
10.
STATA
11.
SYSTAT
Интегрированная среда бизнес-анализа. Предлагает много
решений для бизнес-аналитики. Имеет модуль анализа данных.
Последние версии включают самые популярные методы анализа.
Коммерческий продукт компании SAS (http://www.sas.com)
Развитая система статистического анализа. Конкурирует с
SAS/STAT и SYSTAT. Имеет богатый модуль многомерного анализа данных. Коммерческий продукт компании STATA
(http://www.stata.com).
Развитая система статистического анализа. Конкурирует с
SAS/STAT и STATA. Имеет богатый модуль многомерного анализа данных. Коммерческий продукт компании SYSTAT
(http://www.systat.com).
11 Материально-техническое обеспечение дисциплины
Вычислительные эксперименты и обработка данных проводятся в компьютерных классах, оборудованных доступом к лицензионному программному обеспечению.
Автор программы
В.А. Калягин
16
Download