Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики" Факультет социальных наук Департамент социологии Кафедра методов сбора и анализа социологической информации Рабочая программа дисциплины «Обработка и анализ количественных данных» для уровня подготовки - бакалавриат Разработчик(и) программы Зангиева И.К., к.с.н., старший преподаватель, [email protected] Одобрена на заседании кафедры методов сбора и анализа социологической информации «___»____________ 2016 г. Зав. Кафедрой методов сбора и анализа социологической информации Козина И.М. ________________ Одобрена на заседании департамента социологии «___»____________ 2016 г. Руководитель департамента социологии Чепуренко А.Ю. ________________ Утверждена «___»____________ 2016 г. Академический руководитель образовательной программы бакалавриата «Социология» Кузина О.Е. _________________ Москва, 2016 Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения дразделения-разработчика программы. 1 1. Область применения и цели дисциплины Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направлений подготовки академического бакалавра, изучающих курс «Обработка и анализ количественных данных», включенный в майнор (дисциплину) «Практические методы социальных и маркетинговых исследований». Цель дисциплины — освоение студентами базовых методов анализа количественных данных, включая методы описательной статистики, методы изучения связи между признаками, регрессионные модели, методы изучения латентных признаков и классификации объектов, методы непараметрической статистики для малых выборок. В результате изучения дисциплины студенты приобретут понимание специфики работы с количественными данными, типов задач, которые могут быть решены с помощью статистических методов, получат практические навыки применения этих методов с помощью статического пакета SPSS. 2. Компетенции обучающегося, формируемые в результате освоения дисциплины В результате освоения курса студент должен: Знать основные понятия теории вероятностей, математической статистики, методы статистического анализа данных в пределах программы курса, Уметь ставить и понимать социологические задачи, которые могут быть решены с помощью статистического анализа данных; понимать специфику данных, используемых в статистическом анализе. Иметь навыки самостоятельного статистического анализа данных на компьютере в программе SPSS. 2 3. Тематический план учебной дисциплины № Название темы Всего Аудиторные часы Самостоятельная часов Лекции Семинары работа 1 Введение в статистический анализ данных 12 2 4 6 2 Описательная статистика и статистические графики 20 4 6 10 3 Поиск связи между двумя признаками с помощью таблиц сопряженности 16 2 6 8 Поиск связи между двумя признаками с помощью коэффициентов 4 корреляции 16 2 6 8 Сравнение средних значений: т-тесты 5 и дисперсионный анализ 16 2 6 8 Поиск связи между несколькими признаками: модели линейной 6 регрессии 20 4 6 10 Поиск связи между несколькими признаками: модели логистической 7 регрессии 16 2 6 8 Изучение латентных признаков: 8 факторный анализ 20 4 6 10 Построение классификаций объектов: 9 кластерный анализ 16 4 4 8 152 26 50 76 ИТОГО 4. Формы контроля знаний студентов Тип контроля Форма контроля Текущий Домашнее задание Контрольная работа Итоговый Экзамен Модули Параметры 1 2 3 4 Х Х Решение практических задач с помощью пакета SPSS на основе готовых баз данных Х Тестовые задания (в т.ч. с использованием SPSS) (80 минут) Х Письменный экзамен по материалам курса в формате теста (80 минут) 3 5. Порядок формирования оценки Итоговая оценка складывается из накопленной оценки (оценка за контрольную работу(КР), оценки за два домашних заданий (ДЗ)- Онакопл) и письменного итогового экзамена (Оэкзам). Онакопл=0,4*КР +0,3*ДЗ1+0,3*ДЗ2 Оитог=0,6* Онакопл +0,4*Оэкзам Все работы оцениваются по шкале от 0 до 10. Правила округления математические. Исключение составляет только итоговая оценка. Итоговые оценки менее 4-х баллов округляются в меньшую сторону. На пересдаче студенту не предоставляется возможность получить дополнительный балл для компенсации оценки за текущий контроль. 4 6. Содержание Тема 1. Введение в статистический анализ данных 1. Для решения каких задач в социальных науках используется статистический анализ данных? Примеры исследований, построенных на статистическом анализе данных. 2. Источники данных для статистического анализа: опрос, перепись, агрегированная статистика. 3. Основные методы количественного анализа. Обзор содержания курса. 4. Основы работы в SPSS. Архитектура пакета. Синтаксис SPSS. Основная литература 1. Bluman A. Elementary statistics. McGraw-Hill, 2012.pp. 3-25. 2. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS : учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.7-12. 3. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.: Питер, 2013. Стр.17-82. Дополнительная литература 1. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. – М.: ИНФРА-М, 2007. – С. 21-41. 2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. – М.: ИД «ФОРУМ», 2008. – С. 15-44, 296-314. 3. Чуриков А.В. Основы формирования выборки: лекции для студентов направления 040100.62 (Социология) – М.: ГУ-ВШЭ, 2005, с. 8-38. 4. Чуриков А.В. Случайные и неслучайные выборки в социологических исследованиях // Социальная реальность. 2007. №4. С. 89-109. Семинары 1-2 Разбор интерфейса пакета SPSS Обсуждение правил и принципов создания переменных в SPSS Разбор кейсов: оформление в SPSS анкетных вопросов разного типа Тема 2. Описательная статистика и статистические графики 1. Шкалы измерений (интервальная, порядковая, категориальная). Распределения и их характеристики. Меры центральной тенденции и разброса. Статистическая визуализация. График Диаграммы рассеяния. Гистограммы. Столбиковые диаграммы. Линейные диаграммы. Коробчатые диаграммы. Круговые диаграммы. 2. Два вида оценивания: точечное и интервальное. Понятие стандартной ошибки. Доверительные интервалы для среднего арифметического и для доли. Уровень доверительной вероятности, его содержательный смысл. Связь точности исследования и объема выборки исследования. Основная литература 1. Bluman A. Elementary statistics. McGraw-Hill, 2012. pp.37-151, 356-392 2. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS : учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.12-33 5 3. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.: Питер, 2011.Стр.83-113. Дополнительная литература 1. Толстова Ю.Н. Математико-статистические модели в социологии. М.: ИД ГУ-ВШЭ, 2007. С.19-70. 2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. – М.: ИД «ФОРУМ», 2008. – С. 44-58. 3. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. – М.: ИНФРА-М, 2007. – С.42-60. 4. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson Prentice Hall, 2009. Pp.31-72. Семинары 3-5 Практическая работа в пакете SPSS.Решение описательных задач на основе номинальных, порядковых и интервальных признаков: Построение одномерных частотных распределений Построение графиков Построение и интерпретация доверительных интервалов Расчет и интерпретация мер центральной тенденции и разброса Тема 3. Поиск связи между двумя признаками с помощью таблиц сопряженности Вопросы: 1. Понятие о двумерной частотной таблице и способах отражения в ее виде независимости рассматриваемых признаков. Ожидаемые частоты и наблюдаемые частоты. 2. Введение в проверку статистических гипотез. Базовые понятия: статистическая гипотеза, нулевая гипотеза, альтернативная гипотеза, направленные и ненаправленные альтернативные гипотезы, статистика критерия, фиксированный уровень значимости, минимальный уровень значимости (p-value), критическая область, статистический вывод. Примеры. 3. Логика проверки гипотезы об отсутствии связи между двумя номинальными (или рассматриваемыми как номинальные) признаками на основе критерия Хи-квадрат. Основная модель. Интерпретация остатков. Примеры. Основная литература 1. Bluman A. Elementary statistics. McGraw-Hill, 2012.pp.399-462, 606-621 2. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS: учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.39-59. 3. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.: Питер, 2011.Стр.113-125. Дополнительная литература 1. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. – М.: ИНФРА-М, 2007. – С.74-80. 6 2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. – М.: ИД «ФОРУМ», 2008. – С.240-253, 263-267. 3. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson Prentice Hall, 2009. Pp.221-255. Семинары 6-8 Практическая работа в пакете SPSS. Решение практических задач: Построение двумерных распределений-таблиц сопряженности Расчет разных видов частот и процентов Расчет критерия «Хи-квадрат» и проверка статистической гипотезы об отсутствии связи Расчет и интерпретация стандартизованных остатков. Тема 4. Поиск связи между двумя признаками с помощью коэффициентов корреляции Вопросы: 1. Коэффициента линейной корреляции Пирсона (для переменных, измеренных на уровне шкал высокого порядка), коэффициенты ранговой корреляции Спирмена и Кендалла (для переменных, измеренных на порядковом уровне). 2. Проверка статистических гипотез о равенстве коэффициентов корреляции 0. Соотнесение с ограничениями социологических шкал. Основная литература 1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS: учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.67-82. 2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.: Питер, 2011.Стр.125-134. 3. Bluman A. Elementary statistics. McGraw-Hill, 2012.pp..575-591, 740-742. Дополнительная литература 1. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. – М.: ИНФРА-М, 2007. – С.104-127. 2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. – М.: ИД «ФОРУМ», 2008. – С.253-263, 267-269, 208-219, 230-239. 3. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson Prentice Hall, 2009. Pp.255-300. Семинары 9-11 Практическая работа в пакете SPSS. Решение практических задач на поиск связи между двумя признаками: Расчет коэффициента корреляции Пирсона для поиска линейной связи между двумя интервальными признаками Расчет коэффициентов ранговой корреляции Спирмена и Кендалла для поиска монотонной связи между двумя порядковыми признаками Рассмотрение практических примеров, где требуется расчет нескольких коэффициентов связи для установления типа связи между признаками. 7 Тема 5. Сравнение средних значений: т-тесты и дисперсионный анализ Вопросы: 1. Сравнение средних значений показателя в двух группах и сравнение средних значений двух показателей в одной группе (параметрические тесты (Т-тесты)). 2. Параметрический дисперсионный анализ: формальная модель, заложенная в методе. 3. Однофакторный дисперсионный анализ. 4. Методы множественных сравнений. Интерпретация результатов. Основная литература 1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS: учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.82-115. 2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.: Питер, 2011.Стр.134-149, 168-179. 3. Bluman A. Elementary statistics. McGraw-Hill, 2012.pp..524-564,669-687. Дополнительная литература 1. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. – М.: ИНФРА-М, 2007. – С.42-60. 2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. – М.: ИД «ФОРУМ», 2008. – С. 44-58. 3. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson Prentice Hall, 2009. Pp.31-72. Семинары 12-14 Практическая работа в пакете SPSS. Решение практических задач на сравнение средних значений показателя в группах: Сравнение среднего значения показателя с заданным числом – одновыборочный Т-тест Сравнение среднего значения показателя в двух группах с помощью Т-тестов для независимых и парных выборок Сравнение среднего значения показателя в более чем в двух группах с помощью однофакторного дисперсионного анализа с последующим использованием апостериорных критериев (множественных сравнений). Тема 6. Поиск связи между несколькими признаками: модели линейной регрессии Вопросы: 1. Парная линейная регрессия. Оценка регрессионных коэффициентов методом наименьших квадратов. Интерпретация регрессионных коэффициентов. Статистическая значимость коэффициентов. 2. Регрессия с несколькими предикторами. Понятие статистического контроля. Интерпретация коэффициентов в множественной регрессии. 3. Допущения регерссионных моделей и диагностика моделей. Гетероскедастичность. Статистические выбросы. Мультиколлинеарность. Регрессия с категориальными независимыми переменными. Понятие фиктивных переменных. 4. Интерпретация коэффициентов в регрессии с фиктивными переменными. Коэффициент детерминации R2. 8 Основная литература 1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS: учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.117-166. 2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.: Питер, 2011.Стр.221-246. 3. Bluman A. Elementary statistics. McGraw-Hill, 2012.pp..591-624. Дополнительная литература 1. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. – М.: ИНФРА-М, 2007. – С.118-127. 2. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson Prentice Hall, 2009. Pp.301-320. Семинары 15-17 Практическая работа в пакете SPSS. Решение практических задач на поиск связи между несколькими признаками с помощью моделей линейной регрессии: Построение модели парной линейной регрессии. Обсуждение интерпретации регрессионных коэффициентов Построение модели линейной регрессии с несколькими предикторами. Сравнение интерпретации регрессионных коэффициентов с моделью парной линейной регрессии Интерпретация коэффициента детерминации для оценки качества модели; Проверка регрессионных моделей на ограничения, на примере мультиколинеарности Создание фиктивных переменных Построение регрессионной модели с одним и двумя наборами фиктивных переменных. Сравнение интерпретации регрессионных коэффициентов в модели с фиктивными переменными с интерпретацией коэффициентов в других пройденных ранее моделях Тема 7. Поиск связи между несколькими признаками: модели логистической регрессии Вопросы: 1. Регрессионные модели для бинарных зависимых переменных. 2. Модель линейной вероятности. 3. Логистическая регрессия. Интерпретация коэффициентов логистической регрессии. Шансы и отношения шансов. Основная литература 1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS: учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.181-192. 2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.: Питер, 2011. Стр.318-329. Дополнительная литература 3. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson Prentice Hall, 2009. Pp.483-518. 9 Семинар 18-20 Практическая работа в пакете SPSS. Решение практических задач на поиск связи между несколькими признаками с помощью моделей бинарной логистической регрессии: Построение модели парной бинарной логистической регрессии. Обсуждение интерпретации регрессионных коэффициентов Построение модели бинарной логистической регрессии с несколькими интервальными предикторами Построение модели бинарной логистической регрессии с одним и двумя наборами фиктивных переменных Сравнение интерпретации регрессионных коэффициентов в бинарной логистической регрессии с другими пройденными ранее моделями Интерпретация коэффициента детерминации для оценки качества модели Тема 8. Изучение латентных признаков: факторный анализ Вопросы: 1. Понятие латентного признака. Различие латентных и наблюдаемых признаков. 2. Метод главных компонент (разведывательный анализ). Модель, заложенная в методе, требования к исходным данным. Критерии отбора количества факторов. 3. Ортогональное и косоугольное вращение матрицы факторных нагрузок, расчёт значений факторов. 4. Интерпретация результатов. Основная литература: 1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. М.: ИД ГУ ВШЭ, 2006. Стр.191-205. 2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.: Питер, 2011. Стр.257-273 Дополнительная литература: 1. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 19. Стр. 717-741. Семинар 21-23 Практическая работа в пакете SPSS. Решение практических задач на измерение латентных признаков: Обсуждение примеров латентных признаков Разработка наблюдаемых индикаторов для этих латентных признаков Реализация в SPSS факторного анализа для измерения латентного признака Сравнение моделей факторного анализа с разным количеством факторов, разными видами вращений Тема 9. Построение классификаций объектов: кластерный анализ Вопросы: 1. Основные задачи, решаемые с помощью кластерного анализа, сфера применения. 2. Кластерный анализ методом k-средних. Понимание кластера и центра кластера, суть алгоритма. 10 3. Требования к исходным данным. Определение количества кластеров, критерии оценки качества кластеров. Интерпретация кластеров. Основная литература: 1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. М.: ИД ГУ ВШЭ, 2006. Стр.205-2016. 2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.: Питер, 2011. Стр.273-289. Семинар 24-25 Практическая работа в пакете SPSS. Решение практических задач на построение классификации объектов по нескольким признакам: Обсуждение примеров реальных задач, требующих построения классификации объектов Построение классификации объектов в SPSS с помощью алгоритма k- средних Сравнение моделей с разным количеством кластеров Обсуждение критериев оценки качества полученной классификации 7.Образовательные технологии В рамках семинаров используются следующие форматы деятельности: 1. Знакомство с примерами исследований (отдельных фрагментов) с обсуждением на семинаре. 2. Анализ кейсов реальных исследовательских задач на семинаре (ставится задача, для решения которых студенты подбирают наиболее адекватный методический инструментарий (самостоятельно, в малых группах или с преподавателем), учатся его применять, а затем разбирается имеющееся решение в исходном проекте). 8. Оценочные средства для текущего контроля и аттестации студента Тематика заданий текущего контроля Домашние задания Для выполнения домашнего задания необходимо сформулировать исследовательский вопрос на основе готовых баз данных (ESS, RLMS и пр.). Например: «Есть ли связь между степенью счастья и оценкой собственного здоровья?», «Какова средняя величина заработной платы на предприятиях разного размера в изучаемой Вами стране?», «Есть ли связь между возрастом, уровнем образования и длительностью работы на предприятии с одной стороны, и величиной заработной платы?», «Какова структуру ценностных ориентаций жителей изучаемой страны». В домашних задании необходимо продемонстрировать следующие навыки: Домашнее задание №1: Решение задач на описание признака с помощью методов описательной статистики. 11 Выявление и описание характера связи между двумя признаками с помощью парных коэффициентов связи (критерий «Хи-квадрат», коэффициенты корреляции Спирмена и Пирсона). Сравнение средних значений показателей в двух и более группах с помощью ттестов и однофакторного дисперсионного анализа. Домашнее задание №1: Анализ связи между несколькими признаками с помощью основных регрессионных моделей: множественной линейной регрессии, регрессии с фиктивными переменными, бинарной логистической регрессии. Измерение латентного признака с помощью факторного анализа. Построение многомерной классификации объектов с помощью кластерного анализа. Вопросы для оценки качества освоения дисциплины (примерный перечень экзаменационных вопросов) 1. Основные типы шкал и соответствующие им меры средней тенденции и меры разброса. 2. Коэффициенты парной связи для различных типов шкал. Критерий Хи-квадрат, коэффициенты ранговой корреляции. Коэффициент корреляции Пирсона. 3. Понятие связных и несвязных выборок. Т-тесты, предназначенные для сравнения средних значений показателей в связанных и несвязанных выборках; 4. Одномерный (однофакторный) дисперсионный анализ. Формальная модель, заложенная в методе. 5. Множественный регрессионный анализ. Проверка качества полученной модели, требования к исходным данным. Интерпретация результатов. 6. Регрессионная модель с использованием фиктивных переменных Проверка качества полученной модели, требования к исходным данным. 7. Смысл, сходства и различия в интерпретации регрессионных коэффициентов в моделях линейной регрессии, реверсии с фиктивными переменными и в бинарной логистической регрессии. 8. Оценка качества различных регрессионных моделей;. 9. Суть алгоритма кластерного анализа методом k-средних. Интерпретация кластерных центров. 10. Основной смысл процедуры факторного анализа методом главных компонент. Смысл факторных нагрузок. Способы отбора количества факторов. Интерпретация факторных нагрузок. 9. Учебно-методическое и информационное обеспечение дисциплины Базовые учебники Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS: учебное пособие для вузов. М.: Изд. дом ГУ ВШЭ, 2007. 12 Наследов А. SPSS 20: профессиональный статистический анализ данных. СПб.: Питер, 2011. Основная и дополнительная литература приведены отдельно для каждой темы. 10. Материально-техническое обеспечение дисциплины. Запланирована дистанционная поддержка курса в системе LMS. Лекции проводятся с применением проектора для демонстрации презентационных материалов. Семинарские занятия проводятся в компьютерном классе. 13