I. Пояснительная записка Требования к студентам: Учебная дисциплина «Статистический анализ данных» (1-й – 2-й модули третьего курса) использует материал предшествующих ей дисциплин "Алгебра и анализ", "Исследование операций " учебного плана факультета Менеджмента. Дисциплина является логическим продолжением и, в значительной степени, модельным прикладным завершением изучения студентами факультета Менеджмента математической компоненты своего профессионального образования. Аннотация: Учебная дисциплина " Статистический анализ данных " является, прежде всего, менеджериальным профессионально-прикладным продолжением дисциплины "Теория вероятностей и математическая статистика", включая в себя разделы информационно-алгоритмического содержания, конкретизирующие многие общематематические методологические разделы предыдущей дисциплины. При рассмотрении в курсе конкретных математических методов и алгоритмов главное внимание уделяется их применению в социально - экономическом анализе, оперированию с данными именно социально-экономической природы. Обширный список литературы " Статистический анализ данных ", поможет студентам, осваивающим и создающим свой профессиональный исследовательский инструментарий. Учебная задача курса: Курс является ключевым в цикле математических дисциплин для формирования у студентов навыков системной аналитики. Материал курса предназначен, прежде всего, для дальнейшего использования и развития в специальных областях менеджмента – таких как стратегическое управление, маркетинг, инвестиционный и финансовый менеджмент, логистика, управление человеческими ресурсами, управленческое консультирование и др. Актуальной практической задачей дисциплины является подведение студентов к творческому профессиональному восприятию последующих специальных дисциплин, явно или неявно связанных с подготовкой, анализом, принятием, реализацией, оцениванием последствий, корректировкой решений, обеспечивающих целенаправленное развитие (в том числе – оптимальное). У студентов должно сформироваться ощущение и понимание того, что собственно принятие решения (а тем более – претендующего на оптимальность) есть лишь один элемент конструктивной парадигмы анализа данных. Последняя же существует в гораздо более широком контексте того, что составляет существо парадигмы: математическое моделирование, эксплуатация систем информационной, ситуационной, модельной, алгоритмической поддержки процессов выработки социально - экономических решений. Формы контроля: По курсу предусмотрены три контрольные работы как форма промежуточного контроля (возможно проведение контрольной работы во внеаудиторное время), контроль текущей работы в течение двух модулей. Форма итогового контроля – письменный (или устный) экзамен, к которому допускаются студенты, выполнившие контрольную работу и сдавшие (защитившие) домашнее задание. Студенты, посетившие менее 80% аудиторных занятий, выполняют на экзамене дополнительную письменную контрольную работу. Все формы промежуточного и текущего контроля оцениваются в 10-балльной шкале. Итоговая оценка складывается: из оценки за 1 промежуточную контрольную работу – 20% итоговой оценки из оценки за 2 промежуточную контрольную работу - 20% итоговой оценки из оценки контроля текущей работы в течение двух модулей - 20% итоговой оценки из оценки итоговой контрольной работы - 40% итоговой оценки с округлением результата до целых единиц. Итоговая оценка выставляется в 10-балльной системе в ведомость и в зачетную книжку студента (оценкам 1, 2, 3 в 10-балльной системе соответствует оценка «неудовлетворительно » в пятибалльной системе, оценкам 4, 5 – «удовлетворительно », оценкам 6, 7 – «хорошо », оценкам 8, 9, 10 – «отлично »). Если студент согласен с накопительной оценкой, то он может не сдавать экзамен. II. Содержание программы Тема 1. Введение: природа социально-экономической информации, математические информационные структуры и рациональные решения. Системный обзор проблематики, рассматриваемой в учебной дисциплине. Место учебной дисциплины в содержании математической компоненты профессиональной подготовки студентов факультета Менеджмента. Общематематические, проблемно-ориентированные и профессионально-прикладные аспекты проблематики математического анализа данных. Графики, диаграммы, таблицы в математическом анализе социально-экономических данных. Содержательные примеры социально–экономического моделирования и проблемы адекватности модели, планирования исследования, репрезентативности выборки, обработки данных, подготовки решений и др. Тема 2. Методы проверки статистических гипотез: критерии значимости в анализе данных. Обзор основных понятий, структур и задач математической статистики, используемых в анализе социально - экономических явлений. Проверка гипотез в критериях значимости. Свойства точечных оценок; информационное неравенство Крамера–Рао и свойство эффективности; свойство достаточности относительно оцениваемого параметра. Асимптотическая ситуация ("большая " выборка) и ситуация недостаточного числа наблюдений ("малая " выборка). Уровень значимости как вероятность ошибки первого рода. Непараметрическое оценивание законов распределения и квантилей при малых выборках. Элементы аппарата порядковых статистик, долей и блоков выборки. Критерий согласия "омега - квадрат". Порядковые критерии однородности: критерий Н.В.Смирнова, критерий знаков (биномиальный), критерий Уилкоксона (Манна – Уитни), критерий "Х ". Критерии Бартлета и Кочрена равенства нескольких дисперсий. Критерии Пирсона и Фишера равенства нескольких математических ожиданий. Ранговые критерии случайности: критерий экстремальных точек, критерий фаз, критерий знаков разностей, критерий ранговой корреляции. Возможности статистических пакетов. Тема 3. Методы принятия решений в условиях неопределенности: элементы теории статистических решений. Проверка гипотез как теория статистических решений. Учет ошибок первого и второго рода. Характеристики решающего правила (РП): оперативная характеристика, мощность. Наиболее мощное РП, равномерно наиболее мощное РП. Лемма Неймана – Пирсона о построении РП. Функция штрафа, функция риска, средний риск, рандомизированные РП, минимаксные процедуры. Принятие решения в условиях неопределенности: критерии Байеса – Лапласа, Вальда, Гурвица, Сэвиджа, минимакса, выбор критерия. Последовательный анализ Вальда. Элементы теории статистических игр. Теоретикоигровой подход к задачам анализа данных. Полезность и "игра с природой". Дерево решений. Байесовские стратегии. Минимаксные стратегии. Элементы теории полезности, элементы теории риска. Возможности статистических пакетов. Тема 4. Методы исследования взаимосвязей и зависимостей в анализе данных. Прикладные задачи и математические модели дисперсионного анализа (ДА), корреляционного анализа (КА), регрессионного анализа (РА) в исследовании социальноэкономических явлений. Эконометрическое моделирование. Однофакторный и двухфакторный ДА, взаимозависимость факторов. Факторы и отклик. Проверка статистических гипотез в задачах ДА. Лемма Фишера о законе распределения квадратичной формы. ДА и планирование эксперимента. Блочный план и рандомизированный эксперимент. Активный эксперимент. Многофакторный ДА. Полный и дробный факторный эксперимент, полный и дробный план, дробные реплики. Планы экспериментов в виде латинских квадратов различных порядков. Стандартизованные вычислительные схемы ДА. Характеризация взаимозависимостей на основе показателей корреляции различных типов: полный, частный, множественный коэффициенты корреляции, коэффициент детерминации. Коэффициенты ранговой корреляции Спирмена и Кендалла. Проверка статистических гипотез в задачах КА. Стандартизованные вычислительные схемы КА. Линейный РА: однофакторный случай – парная регрессия, многофакторный случай – множественная регрессия. Теорема Гаусса – Маркова. Построение уравнения регрессии. Проверка статистических гипотез о коэффициентах регрессии, о необходимости и о целесообразности уточнения построенного уравнения регрессии. Последовательное уточнение вида регрессионной зависимости. Стандартизованные вычислительные схемы РА. Ортогональные системы базисных функций. Линейная регрессия. Критерий Бартлетта и критерий Дики – Фуллера. Связь с фундаментальной "САРМ " – моделью оценки рисковых активов. Некоторые специальные эконометрические аспекты: гомоскедастичность и гетероскедастичность, мультиколлинеарность, фиктивные переменные, системы одновременных уравнений. Некоторые специальные методологические принципы построения эконометрических зависимостей. Возможности статистических пакетов. Тема 5. Методы структурного анализа данных. Предмет и математические основы многомерного статистического анализа (МСА). МСА как математический анализ социально-экономических систем. Многоаспектность и многомерность в структурном анализе данных социально-экономической природы. Элементы математической теории информации и энтропии, их приложения в социальноэкономических исследованиях. Случайный вектор как векторный признак, его математическое описание. Аналоги стандартных распределений в МСА. Статистические гипотезы о векторах средних значений и о корреляционных матрицах. Проблема снижения размерности модели, канонические величины. Главные компоненты. Факторный анализ. Классификация, дискриминантный анализ. Пространство признаков и расстояние в нем. Распределение собственных значений в дискриминантном анализе. Кластерный анализ, многомерные группировки. Распознавание образов как задача прикладного социально-экономического анализа. Решающие функции, функции расстояния, эталоны, классы, кластеры. Классификаторы. Выбор признаков. Логические, статистические, структурные методы распознавания. Математические задачи и методы в проблематике экспертного оценивания, шкалирования, латентного анализа, контент анализа. Методы многомерного шкалирования. Метод семантического дифференциала и метод пат - анализа как методы прикладной комбинаторики. Исследование структуры совокупности и ее изменений, диаграмма Лоренца, показатели концентрации, специализации, монополизации. Полезность, риски и рациональное поведение. Модель ожидаемой полезности. Модель когнитивной психологии как модель "не вполне рационального " поведения. Проектные риски и элементы сценарного подхода к их анализу и прогнозированию. Элементы тестологии. “Классическая ” и “современная ” теории тестирования. Понятия надежности и валидности тестов. Оценивание латентных параметров. Элементы теории “задание – ответ ” (Item Response Theory - IRT). Шкалирование результатов тестирования. Использование тестирования в образовании, в психологическом консультировании, в профессиональном отборе. Статистические методы в маркетинговых исследованиях. Возможности статистических пакетов. Тема 6. Модели вероятностных процессов в задачах анализа данных и прогнозирования. Последовательности зависимых испытаний, зависимых скалярных и векторных случайных величин как математические модели социально-экономической динамики. Различные виды вероятностной зависимости, зависимости от времени. Модели панельных данных в изучении динамики социальных явлений. Дискретная марковская цепь (ДМЦ) с конечным числом состояний, с бесконечным счетным числом состояний. Переходные вероятности, матрица переходных вероятностей. Уравнение Колмогорова – Чепмена. Однородность ДМЦ. Элементы аппарата производящих функций в исследовании ДМЦ. Классификация состояний ДМЦ. Блочная структура матрицы переходных вероятностей в случае разложимой ДМЦ, в случае неразложимой периодической ДМЦ. Асимптотическое поведение, эргодичность, предельное распределение. Марковская цепь с непрерывным аргументом. Инфинитезимальная матрица. Прямое и обратное уравнения Колмогорова – Феллера. Диффузионный марковский процесс, локальные характеристики. Обобщенное уравнение Маркова. Обратное уравнение Колмогорова, прямое уравнение Колмогорова – Фоккера – Планка. Марковские процессы как математические модели социальноэкономической динамики и прогнозирования. Элементы общей теории случайных процессов. Семейство конечномерных распределений, содержание теоремы Колмогорова. Моментные функции, непрерывность, дифференцируемость, интегрируемость. Стационарность. Эргодичность, теорема Биркгофа–Хинчина. Спектр. Проблемы, связанные с "пересечениями уровней ". Модель временного ряда в исследовании социально – экономической динамики. Структура временного ряда, его "фундаментальный " и "технический " анализ. Выравнивание рядов динамики. Исследование и модели тренда, циклов (регулярных колебаний относительно тренда), эффекта сезонности, случайности. Модели стационарных временных рядов: авторегрессия и скользящее среднее, ряды Маркова и Юла. Проблема "единичных корней ". Уравнения Юла – Уокера. Элементы аппарата производящих функций в исследовании рядов динамики. Модели нестационарных временных рядов, случайное блуждание, мартингалы. Проблема адекватности математических моделей реальным данным. Интеграция и коинтеграция, регрессия коинтеграции, гетероскедастичность. Корреляция рядов динамики. Анализ и проверка гипотезы об эффективности рынка. Прогнозирование социально-экономической динамики на основе моделей временных рядов. Модели процессов и систем массового обслуживания (СМО). Описание СМО, теория очередей". Пуассоновский процесс, модель Эрланга, формула Поллачека – Хинчина. Оценка параметров СМО. Марковские модели: одноканальная и многоканальная СМО, зависимость параметров от времени, многофазное обслуживание. Немарковские модели СМО: входящий поток, время обслуживания, групповое поступление требований, интервал занятости, число требований в системе, время ожидания. Виды дисциплины очереди. Последовательные и параллельные каналы. Уход из очереди. Многокритериальные задачи. Применение в анализе, планировании и управлении социально-экономическими процессами. Метод Монте-Карло и математическая технология вероятностного моделирования. Возможности статистических пакетов. III. Тематика Темы семинарских занятий Тема 1: Семинарское занятие 1: Графики, диаграммы, таблицы в математическом анализе социально-экономических данных. Содержательные примеры социально–экономического моделирования и проблемы адекватности модели, планирования исследования, репрезентативности выборки, обработки данных, подготовки решений и др. Тема 2: Семинарское занятие 2: Проверка гипотез в критериях значимости. Свойства точечных оценок; информационное неравенство Крамера–Рао и свойство эффективности; свойство достаточности относительно оцениваемого параметра. Семинарское занятие 3: Непараметрическое оценивание законов распределения и квантилей при малых выборках. Элементы аппарата порядковых статистик, долей и блоков выборки. Тема 3: Семинарское занятие 4: Критерий согласия "омега - квадрат". Порядковые критерии однородности: критерий Н.В.Смирнова, критерий знаков (биномиальный), критерий Уилкоксона (Манна – Уитни), критерий "Х ". Критерии Бартлета и Кочрена равенства нескольких дисперсий. Критерии Пирсона и Фишера равенства нескольких математических ожиданий. Ранговые критерии случайности: критерий экстремальных точек, критерий фаз, критерий знаков разностей, критерий ранговой корреляции. Проверка гипотез как теория статистических решений. Учет ошибок первого и второго рода. Характеристики решающего правила. Семинарское занятие 5: Элементы теории статистических игр. Теоретико-игровой подход к задачам анализа данных. Полезность и "игра с природой". Дерево решений. Байесовские стратегии. Минимаксные стратегии. Элементы теории полезности, элементы теории риска. Тема 4: Семинарское занятие 6: Прикладные задачи и математические модели дисперсионного анализа (ДА), корреляционного анализа (КА), регрессионного анализа (РА) в исследовании социально-экономических явлений. Эконометрическое моделирование. Семинарское занятие 7: Однофакторный и двухфакторный ДА, взаимозависимость факторов. Факторы и отклик. Проверка статистических гипотез в задачах ДА. Семинарское занятие 8: Линейный РА: однофакторный случай – парная регрессия, многофакторный случай – множественная регрессия. Теорема Гаусса – Маркова. Построение уравнения регрессии. Проверка статистических гипотез о коэффициентах регрессии, о необходимости и о целесообразности уточнения построенного уравнения регрессии. Тема 5: Семинарское занятие 9: Предмет и математические основы многомерного статистического анализа (МСА). МСА как математический анализ социальноэкономических систем. Семинарское занятие 10: Проблема снижения размерности модели, канонические величины. Главные компоненты. Факторный анализ. Классификация, дискриминантный анализ. Пространство признаков и расстояние в нем. Распределение собственных значений в дискриминантном анализе. Кластерный анализ, многомерные группировки. Семинарское занятие 11: Математические задачи и методы в проблематике экспертного оценивания, шкалирования, латентного анализа, контент - анализа. Методы многомерного шкалирования. Метод семантического дифференциала и метод пат - анализа как методы прикладной комбинаторики. Тема 6: Семинарское занятие 12: Последовательности зависимых испытаний, зависимых скалярных и векторных случайных величин как математические модели социальноэкономической динамики. Различные виды вероятностной зависимости, зависимости от времени. Модели панельных данных в изучении динамики социальных явлений. Семинарское занятие 13: Дискретная марковская цепь (ДМЦ) с конечным числом состояний, с бесконечным счетным числом состояний. Переходные вероятности, матрица переходных вероятностей. Семинарское занятие 14: Уравнение Колмогорова – Чепмена. Однородность ДМЦ. Элементы аппарата производящих функций в исследовании ДМЦ. Тематика форм контроля Тематика контрольной работы Статистические методы в анализе данных социально-экономической природы. Динамические модели в исследовании операций. Тематика домашнего задания Статистические модели и методы планирования деятельности фирмы в условиях неопределенности. Динамические модели и методы прогнозирования и управления социальноэкономическими процессами. Экзаменационные вопросы 1. Точечные оценки неслучайных параметров. Критерии точечных оценок: состоятельность, несмещенность, эффективность. 2. Метод моментов. 3. Метод максимального правдоподобия. 4. Получение оценок основных распределений методом максимального правдоподобия: а) биномиальное; б) распределение Пуассона; в) геометрическое; г) показательное д) нормальное. 5. Основные законы распределения, используемые в математической статистике: нормальное (Гаусса) 2 (Пирсона) распределение Стьюдента распределение Фишера. 6. Интервальные оценки. 7. Решение задач о построении доверительного интервала для математического ожидания дисперсии. 8. Виды статистических гипотез. Критерий значимости основной принцип проверки статистических гипотез. 9. Общая схема проверки статистических гипотез. 10. Ошибки первого и второго ряда. Мощность критерия. 11. Решение типовых задач о проверке параметрических гипотез: значении математического ожидания равенстве дисперсий двух нормальных генеральных совокупностей равенстве математических ожиданий. 12. Критерий согласия 2 (Пирсона). 13. Матричные игры. Игры с Седловой точкой. 14. Игра в смешанных стратегиях. 15. Решение игры mxn, 2xn. 16. Основы теории принятия решений. 17. Планирование эксперимента. 18. Позиционные игры. 19. Биматричные игры. IV. Учебно-методическое обеспечение программы Базовые учебники 1. Томас Ричард. Количественные методы анализа хозяйственной деятельности. – М.: Дело и Сервис, 1999. 2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: ИНФРА - М, 2003. 3. Фомин Г.П. Математические методы и модели в коммерческой деятельности: Учебник. – М.: Финансы и статистика , 2001. Основная литература 1. Аронович А.Б., Афанасьев М.Ю., Суворов Б.П. Сборник задач по исследованию операций. – М.: Изд - во МГУ, 1997. 2. Байе Майкл Р. Управленческая экономика и стратегия бизнеса. – М.: ЮНИТИДАНА, 1999. 3. Глинский В.В., Ионин В.Г. Статистический анализ. Учебное пособие. – М.: ИИД "Филинъ", 1998. 4. Глухов В.В., Медников М.Д., Коробко С.Б. Математические методы и модели для менеджмента. – СПб.: Лань, 2000. 5. Дубров А.М., Лагоша Б.А., Хрусталев Е.Ю. Моделирование рисковых ситуаций в экономике и бизнесе: Учебное пособие. – М.: Финансы и статистика, 1999, 2001. 6. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник. – М.: Финансы и статистика, 1999. 7. Колемаев В.А., Калинина В.Н. Теория вероятностей и математическая статистика: Учебник (Серия «Высшее образование »). – М.: ИНФРА - М, 1999, 2000. 8. Сидоренко Е.В. Методы математической обработки в психологии. – СПб.: Речь, 2000. 9. Сио К.К. Управленческая экономика. – М.: ИНФРА - М, 2000. 10. Фабоцци Фрэнк Дж. Управление инвестициями. – М.: ИНФРА - М, 2000. Дополнительная литература 1. Акофф Рассел. Искусство решения проблем. – М.: Мир, 1982. 2. Бикел Питер Дж., Доксам Куэлл А. Математическая статистика. – Вып. 1, 2. – М: Финансы и статистика, 1983.. 3. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука, 1983. 4. Доугерти Кристофер. Введение в эконометрику. – М.: ИНФРА - М, 1999. 5. Ковалев В.В. Методы оценки инвестиционных проектов. – М.: Финансы и статистика, 1999. 6. Курбатов В.И., Угольницкий Г.А. Математические методы социальных технологий: Учебное пособие. – М.: Вузовская книга, 1998. 7. Мангейм Джарол Б., Рич Ричард К. Политология. Методы исследования. – М.: Весь Мир, 1999. 8. Мостеллер Фредерик, Тьюки Джон У. Анализ данных и регрессия: В 2-х вып. – М.: Финансы и статистика, 1982. 9. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. – М.: Прометей, 2000. 10. Ниворожкина Л.И. и др. Основы статистики с элементами теории вероятностей для экономистов: Руководство для решения задач. – Ростов - на - Дону: Феникс , 1999. 11. Орлова И.В. Экономико-математические методы и модели. Выполнение расчетов в среде EXCEL. – М.: ЗАО «Финстатинформ », 2000. 12. Павловский Збигнев. Введение в математическую статистику. – М.: Статистика, 1967. 13. Плаус Скотт. Психология оценки и принятия решений. – М.: ИИД “Филинъ”, 1998. 14. Практикум по эконометрике: Учебное пособие / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2001. 15. Сошникова Л.А. Многомерный статистический анализ в экономике: Учебное пособие для ВУЗов. – М.: ЮНИТИ - ДАНА, 1999. 16. Трояновский В.М. Математическое моделирование в менеджменте. Учебное пособие. – М.: Русская Деловая Литература, 1999. 17. Эддоус М., Стэнсфилд Н. Методы принятия решений. – М.: Аудит, ЮНИТИ, 1997. 18. Эконометрик: Учебник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2001. 19. Agresti Alan. Categorical Data Analysis. Univ. of Florida. – USA: John Wiley & Sons, Inc., 1990. 20. Cook Wade D., Kress Moshe. Ordinal Information and Preference Structures: Decision Models and Applications. – USA, New Jersey: Prentice-Hall – Englewood Cliffs, 1992. 21. Joyce James. The Foundations of Causal Decision Theory. Univ. of Michigan. – UK: Cambridge University Press, 2000. 22. Kahneman Daniel. Choices, Values, and Frames. Princeton Univ. – UK: Cambridge University Press, 2000. V. Тематический расчет часов № Название темы Введение: природа социальноэкономической информации, 1 математические информационные структуры и рациональные решения Методы проверки статистических гипотез: 2 критерии значимости в анализе данных Методы принятия решений в условиях 3 неопределенности: элементы теории статистических решений Методы исследования взаимосвязей и 4 зависимостей в анализе данных 5 Методы структурного анализа данных Модели вероятностных процессов в задачах 6 анализа данных и прогнозирования Итого: Всег о часо в Количество часов лекций Количество часов семинаров Количество часов сам. работы 8 2 2 4 16 4 4 8 12 4 2 6 24 6 6 12 24 6 6 12 24 6 6 12 108 28 26 54 Авторы программы: ________________________ Рейнов Ю.И. ________________________ Рыбакин А.С.