Обработка и анализ количественных данных».

реклама
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Факультет социальных наук
Департамент социологии
Кафедра методов сбора и анализа социологической информации
Рабочая программа дисциплины «Обработка и анализ количественных
данных»
для уровня подготовки - бакалавриат
Разработчик(и) программы
Зангиева И.К., к.с.н., старший преподаватель, [email protected]
Одобрена на заседании кафедры методов сбора и анализа социологической информации
«___»____________ 2016 г.
Зав. Кафедрой методов сбора и анализа социологической информации Козина И.М.
________________
Одобрена на заседании департамента социологии «___»____________ 2016 г.
Руководитель департамента социологии Чепуренко А.Ю. ________________
Утверждена «___»____________ 2016 г.
Академический руководитель образовательной программы бакалавриата «Социология»
Кузина О.Е. _________________
Москва, 2016
Настоящая программа не может быть использована другими подразделениями
университета и другими вузами без разрешения дразделения-разработчика программы.
1
1. Область применения и цели дисциплины
Настоящая программа учебной дисциплины устанавливает минимальные
требования к знаниям и умениям студента и определяет содержание и виды учебных
занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину,
учебных ассистентов и студентов направлений подготовки академического бакалавра,
изучающих курс «Обработка и анализ количественных данных», включенный в майнор
(дисциплину) «Практические методы социальных и маркетинговых исследований».
Цель дисциплины — освоение студентами базовых методов анализа
количественных данных, включая методы описательной статистики, методы изучения
связи между признаками, регрессионные модели, методы изучения латентных признаков и
классификации объектов, методы непараметрической статистики для малых выборок. В
результате изучения дисциплины студенты приобретут понимание специфики работы с
количественными данными, типов задач, которые могут быть решены с помощью
статистических методов, получат практические навыки применения этих методов с
помощью статического пакета SPSS.
2. Компетенции обучающегося, формируемые в результате
освоения дисциплины
В результате освоения курса студент должен:



Знать основные понятия теории вероятностей, математической статистики, методы
статистического анализа данных в пределах программы курса,
Уметь ставить и понимать социологические задачи, которые могут быть решены с
помощью статистического анализа данных; понимать специфику данных,
используемых в статистическом анализе.
Иметь навыки самостоятельного статистического анализа данных на компьютере в
программе SPSS.
2
3. Тематический план учебной дисциплины
№
Название темы
Всего
Аудиторные часы
Самостоятельная
часов Лекции Семинары
работа
1
Введение в статистический анализ
данных
12
2
4
6
2
Описательная статистика и
статистические графики
20
4
6
10
3
Поиск связи между двумя признаками
с помощью таблиц сопряженности
16
2
6
8
Поиск связи между двумя признаками
с помощью коэффициентов
4 корреляции
16
2
6
8
Сравнение средних значений: т-тесты
5 и дисперсионный анализ
16
2
6
8
Поиск связи между несколькими
признаками: модели линейной
6 регрессии
20
4
6
10
Поиск связи между несколькими
признаками: модели логистической
7 регрессии
16
2
6
8
Изучение латентных признаков:
8 факторный анализ
20
4
6
10
Построение классификаций объектов:
9 кластерный анализ
16
4
4
8
152
26
50
76
ИТОГО
4. Формы контроля знаний студентов
Тип
контроля
Форма контроля
Текущий
Домашнее задание
Контрольная работа
Итоговый
Экзамен
Модули
Параметры
1 2 3 4
Х Х Решение практических задач с
помощью пакета SPSS на
основе готовых баз данных
Х Тестовые задания (в т.ч. с
использованием SPSS) (80
минут)
Х Письменный экзамен по
материалам курса в формате
теста (80 минут)
3
5. Порядок формирования оценки
Итоговая оценка складывается из накопленной оценки (оценка за контрольную
работу(КР), оценки за два домашних заданий (ДЗ)- Онакопл) и письменного итогового
экзамена (Оэкзам).
Онакопл=0,4*КР +0,3*ДЗ1+0,3*ДЗ2
Оитог=0,6* Онакопл +0,4*Оэкзам
Все работы оцениваются по шкале от 0 до 10. Правила округления математические.
Исключение составляет только итоговая оценка. Итоговые оценки менее 4-х баллов
округляются в меньшую сторону. На пересдаче студенту не предоставляется возможность
получить дополнительный балл для компенсации оценки за текущий контроль.
4
6. Содержание
Тема 1. Введение в статистический анализ данных
1. Для решения каких задач в социальных науках используется статистический анализ
данных? Примеры исследований, построенных на статистическом анализе данных.
2. Источники данных для статистического анализа: опрос, перепись, агрегированная
статистика.
3. Основные методы количественного анализа. Обзор содержания курса.
4. Основы работы в SPSS. Архитектура пакета. Синтаксис SPSS.
Основная литература
1. Bluman A. Elementary statistics. McGraw-Hill, 2012.pp. 3-25.
2. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS :
учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.7-12.
3. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.:
Питер, 2013. Стр.17-82.
Дополнительная литература
1. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. –
М.: ИНФРА-М, 2007. – С. 21-41.
2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. – М.: ИД
«ФОРУМ», 2008. – С. 15-44, 296-314.
3. Чуриков А.В. Основы формирования выборки: лекции для студентов направления
040100.62 (Социология) – М.: ГУ-ВШЭ, 2005, с. 8-38.
4. Чуриков А.В. Случайные и неслучайные выборки в социологических исследованиях //
Социальная реальность. 2007. №4. С. 89-109.
Семинары 1-2
 Разбор интерфейса пакета SPSS
 Обсуждение правил и принципов создания переменных в SPSS
 Разбор кейсов: оформление в SPSS анкетных вопросов разного типа
Тема 2. Описательная статистика и статистические графики
1. Шкалы измерений (интервальная, порядковая, категориальная). Распределения и их
характеристики. Меры центральной тенденции и разброса. Статистическая
визуализация. График Диаграммы рассеяния. Гистограммы. Столбиковые диаграммы.
Линейные диаграммы. Коробчатые диаграммы. Круговые диаграммы.
2. Два вида оценивания: точечное и интервальное. Понятие стандартной ошибки.
Доверительные интервалы для среднего арифметического и для доли. Уровень
доверительной вероятности, его содержательный смысл. Связь точности исследования
и объема выборки исследования.
Основная литература
1. Bluman A. Elementary statistics. McGraw-Hill, 2012. pp.37-151, 356-392
2. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS :
учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.12-33
5
3. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.:
Питер, 2011.Стр.83-113.
Дополнительная литература
1. Толстова Ю.Н. Математико-статистические модели в социологии. М.: ИД ГУ-ВШЭ,
2007. С.19-70.
2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. – М.: ИД
«ФОРУМ», 2008. – С. 44-58.
3. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. –
М.: ИНФРА-М, 2007. – С.42-60.
4. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson
Prentice Hall, 2009. Pp.31-72.
Семинары 3-5
Практическая работа в пакете SPSS.Решение описательных задач на основе номинальных,
порядковых и интервальных признаков:
 Построение одномерных частотных распределений
 Построение графиков
 Построение и интерпретация доверительных интервалов
 Расчет и интерпретация мер центральной тенденции и разброса
Тема 3. Поиск связи между двумя признаками с помощью таблиц сопряженности
Вопросы:
1. Понятие о двумерной частотной таблице и способах отражения в ее виде
независимости рассматриваемых признаков. Ожидаемые частоты и наблюдаемые
частоты.
2. Введение в проверку статистических гипотез. Базовые понятия: статистическая
гипотеза, нулевая гипотеза, альтернативная гипотеза, направленные и ненаправленные
альтернативные гипотезы, статистика критерия, фиксированный уровень значимости,
минимальный уровень значимости (p-value), критическая область, статистический
вывод. Примеры.
3. Логика проверки гипотезы об отсутствии связи между двумя номинальными (или
рассматриваемыми как номинальные) признаками на основе критерия Хи-квадрат.
Основная модель. Интерпретация остатков. Примеры.
Основная литература
1. Bluman A. Elementary statistics. McGraw-Hill, 2012.pp.399-462, 606-621
2. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS:
учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.39-59.
3. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.:
Питер, 2011.Стр.113-125.
Дополнительная литература
1. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. –
М.: ИНФРА-М, 2007. – С.74-80.
6
2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. – М.: ИД
«ФОРУМ», 2008. – С.240-253, 263-267.
3. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson
Prentice Hall, 2009. Pp.221-255.
Семинары 6-8
Практическая работа в пакете SPSS. Решение практических задач:
 Построение двумерных распределений-таблиц сопряженности
 Расчет разных видов частот и процентов
 Расчет критерия «Хи-квадрат» и проверка статистической гипотезы об отсутствии
связи
 Расчет и интерпретация стандартизованных остатков.
Тема 4. Поиск связи между двумя признаками с помощью коэффициентов
корреляции
Вопросы:
1. Коэффициента линейной корреляции Пирсона (для переменных, измеренных на
уровне шкал высокого порядка), коэффициенты ранговой корреляции Спирмена и
Кендалла (для переменных, измеренных на порядковом уровне).
2. Проверка статистических гипотез о равенстве коэффициентов корреляции 0.
Соотнесение с ограничениями социологических шкал.
Основная литература
1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS:
учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.67-82.
2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.:
Питер, 2011.Стр.125-134.
3. Bluman A. Elementary statistics. McGraw-Hill, 2012.pp..575-591, 740-742.
Дополнительная литература
1. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. –
М.: ИНФРА-М, 2007. – С.104-127.
2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. – М.: ИД
«ФОРУМ», 2008. – С.253-263, 267-269, 208-219, 230-239.
3. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson
Prentice Hall, 2009. Pp.255-300.
Семинары 9-11
Практическая работа в пакете SPSS. Решение практических задач на поиск связи между
двумя признаками:
 Расчет коэффициента корреляции Пирсона для поиска линейной связи между
двумя интервальными признаками
 Расчет коэффициентов ранговой корреляции Спирмена и Кендалла для поиска
монотонной связи между двумя порядковыми признаками
 Рассмотрение практических примеров, где требуется расчет нескольких
коэффициентов связи для установления типа связи между признаками.
7
Тема 5. Сравнение средних значений: т-тесты и дисперсионный анализ
Вопросы:
1. Сравнение средних значений показателя в двух группах и сравнение средних значений
двух показателей в одной группе (параметрические тесты (Т-тесты)).
2. Параметрический дисперсионный анализ: формальная модель, заложенная в методе.
3. Однофакторный дисперсионный анализ.
4. Методы множественных сравнений. Интерпретация результатов.
Основная литература
1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS:
учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.82-115.
2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.:
Питер, 2011.Стр.134-149, 168-179.
3. Bluman A. Elementary statistics. McGraw-Hill, 2012.pp..524-564,669-687.
Дополнительная литература
1. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. –
М.: ИНФРА-М, 2007. – С.42-60.
2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. – М.: ИД
«ФОРУМ», 2008. – С. 44-58.
3. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson
Prentice Hall, 2009. Pp.31-72.
Семинары 12-14
Практическая работа в пакете SPSS. Решение практических задач на сравнение средних
значений показателя в группах:
 Сравнение
среднего
значения
показателя
с
заданным
числом
–
одновыборочный Т-тест
 Сравнение среднего значения показателя в двух группах с помощью Т-тестов для
независимых и парных выборок
 Сравнение среднего значения показателя в более чем в двух группах с помощью
однофакторного дисперсионного анализа с последующим использованием
апостериорных критериев (множественных сравнений).
Тема 6. Поиск связи между несколькими признаками: модели линейной регрессии
Вопросы:
1. Парная линейная регрессия. Оценка регрессионных коэффициентов методом
наименьших
квадратов.
Интерпретация
регрессионных
коэффициентов.
Статистическая значимость коэффициентов.
2. Регрессия с несколькими предикторами. Понятие статистического контроля.
Интерпретация коэффициентов в множественной регрессии.
3. Допущения регерссионных моделей и диагностика моделей. Гетероскедастичность.
Статистические выбросы. Мультиколлинеарность. Регрессия с категориальными
независимыми переменными. Понятие фиктивных переменных.
4. Интерпретация коэффициентов в регрессии с фиктивными переменными.
Коэффициент детерминации R2.
8
Основная литература
1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS:
учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.117-166.
2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.:
Питер, 2011.Стр.221-246.
3. Bluman A. Elementary statistics. McGraw-Hill, 2012.pp..591-624.
Дополнительная литература
1. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS: Учебное пособие. –
М.: ИНФРА-М, 2007. – С.118-127.
2. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson
Prentice Hall, 2009. Pp.301-320.
Семинары 15-17
Практическая работа в пакете SPSS. Решение практических задач на поиск связи между
несколькими признаками с помощью моделей линейной регрессии:
 Построение модели парной линейной регрессии. Обсуждение интерпретации
регрессионных коэффициентов
 Построение модели линейной регрессии с несколькими предикторами. Сравнение
интерпретации регрессионных коэффициентов с моделью парной линейной
регрессии
 Интерпретация коэффициента детерминации для оценки качества модели;
 Проверка
регрессионных
моделей
на
ограничения,
на
примере
мультиколинеарности
 Создание фиктивных переменных
 Построение регрессионной модели с одним и двумя наборами фиктивных
переменных. Сравнение интерпретации регрессионных коэффициентов в модели с
фиктивными переменными с интерпретацией коэффициентов в других пройденных
ранее моделях
Тема 7. Поиск связи между несколькими признаками: модели логистической
регрессии
Вопросы:
1. Регрессионные модели для бинарных зависимых переменных.
2. Модель линейной вероятности.
3. Логистическая регрессия. Интерпретация коэффициентов логистической регрессии.
Шансы и отношения шансов.
Основная литература
1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS:
учебное пособие для вузов. – М.: Изд. дом ГУ ВШЭ, 2007. – С.181-192.
2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.:
Питер, 2011. Стр.318-329.
Дополнительная литература
3. Agresti, A. and Finlay, B. Statistical Methods for the Social Sciences. 4th ed. Pearson
Prentice Hall, 2009. Pp.483-518.
9
Семинар 18-20
Практическая работа в пакете SPSS. Решение практических задач на поиск связи между
несколькими признаками с помощью моделей бинарной логистической регрессии:
 Построение модели парной бинарной логистической регрессии. Обсуждение
интерпретации регрессионных коэффициентов
 Построение модели бинарной логистической регрессии с несколькими
интервальными предикторами
 Построение модели бинарной логистической регрессии с одним и двумя наборами
фиктивных переменных
 Сравнение интерпретации регрессионных коэффициентов в бинарной
логистической регрессии с другими пройденными ранее моделями
 Интерпретация коэффициента детерминации для оценки качества модели
Тема 8. Изучение латентных признаков: факторный анализ
Вопросы:
1. Понятие латентного признака. Различие латентных и наблюдаемых признаков.
2. Метод главных компонент (разведывательный анализ). Модель, заложенная в методе,
требования к исходным данным. Критерии отбора количества факторов.
3. Ортогональное и косоугольное вращение матрицы факторных нагрузок, расчёт
значений факторов.
4. Интерпретация результатов.
Основная литература:
1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. М.:
ИД ГУ ВШЭ, 2006. Стр.191-205.
2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.:
Питер, 2011. Стр.257-273
Дополнительная литература:
1. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 19. Стр. 717-741.
Семинар 21-23
Практическая работа в пакете SPSS. Решение практических задач на измерение
латентных признаков:
 Обсуждение примеров латентных признаков
 Разработка наблюдаемых индикаторов для этих латентных признаков
 Реализация в SPSS факторного анализа для измерения латентного признака
 Сравнение моделей факторного анализа с разным количеством факторов, разными
видами вращений
Тема 9. Построение классификаций объектов: кластерный анализ
Вопросы:
1. Основные задачи, решаемые с помощью кластерного анализа, сфера применения.
2. Кластерный анализ методом k-средних. Понимание кластера и центра кластера, суть
алгоритма.
10
3. Требования к исходным данным. Определение количества кластеров, критерии оценки
качества кластеров. Интерпретация кластеров.
Основная литература:
1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. М.:
ИД ГУ ВШЭ, 2006. Стр.205-2016.
2. Наследов А. SPSS 20: профессиональный статистический анализ данных. – СПб.:
Питер, 2011. Стр.273-289.
Семинар 24-25
Практическая работа в пакете SPSS. Решение практических задач на построение
классификации объектов по нескольким признакам:
 Обсуждение примеров реальных задач, требующих построения классификации
объектов
 Построение классификации объектов в SPSS с помощью алгоритма k- средних
 Сравнение моделей с разным количеством кластеров
 Обсуждение критериев оценки качества полученной классификации
7.Образовательные технологии
В рамках семинаров используются следующие форматы деятельности:
1. Знакомство с примерами исследований (отдельных фрагментов) с обсуждением на
семинаре.
2. Анализ кейсов реальных исследовательских задач на семинаре (ставится задача,
для решения которых студенты подбирают наиболее адекватный методический
инструментарий (самостоятельно, в малых группах или с преподавателем), учатся
его применять, а затем разбирается имеющееся решение в исходном проекте).
8. Оценочные средства для текущего контроля и
аттестации студента
Тематика заданий текущего контроля
Домашние задания
Для
выполнения
домашнего
задания
необходимо
сформулировать
исследовательский вопрос на основе готовых баз данных (ESS, RLMS и пр.). Например:
«Есть ли связь между степенью счастья и оценкой собственного здоровья?», «Какова
средняя величина заработной платы на предприятиях разного размера в изучаемой Вами
стране?», «Есть ли связь между возрастом, уровнем образования и длительностью работы
на предприятии с одной стороны, и величиной заработной платы?», «Какова структуру
ценностных ориентаций жителей изучаемой страны».
В домашних задании необходимо продемонстрировать следующие навыки:
Домашнее задание №1:
 Решение задач на описание признака с помощью методов описательной
статистики.
11


Выявление и описание характера связи между двумя признаками с помощью
парных коэффициентов связи (критерий «Хи-квадрат», коэффициенты корреляции
Спирмена и Пирсона).
Сравнение средних значений показателей в двух и более группах с помощью ттестов и однофакторного дисперсионного анализа.
Домашнее задание №1:
 Анализ связи между несколькими признаками с
помощью основных
регрессионных моделей: множественной линейной регрессии, регрессии с
фиктивными переменными, бинарной логистической регрессии.
 Измерение латентного признака с помощью факторного анализа.
 Построение многомерной классификации объектов с помощью кластерного
анализа.
Вопросы для оценки качества освоения дисциплины (примерный перечень
экзаменационных вопросов)
1. Основные типы шкал и соответствующие им меры средней тенденции и меры
разброса.
2. Коэффициенты парной связи для различных типов шкал. Критерий Хи-квадрат,
коэффициенты ранговой корреляции. Коэффициент корреляции Пирсона.
3. Понятие связных и несвязных выборок. Т-тесты, предназначенные для сравнения
средних значений показателей в связанных и несвязанных выборках;
4. Одномерный (однофакторный) дисперсионный анализ. Формальная модель,
заложенная в методе.
5. Множественный регрессионный анализ. Проверка качества полученной модели,
требования к исходным данным. Интерпретация результатов.
6. Регрессионная модель с использованием фиктивных переменных Проверка качества
полученной модели, требования к исходным данным.
7. Смысл, сходства и различия в интерпретации регрессионных коэффициентов в
моделях линейной регрессии, реверсии с фиктивными переменными и в бинарной
логистической регрессии.
8. Оценка качества различных регрессионных моделей;.
9. Суть алгоритма кластерного анализа методом k-средних. Интерпретация кластерных
центров.
10. Основной смысл процедуры факторного анализа методом главных компонент. Смысл
факторных нагрузок. Способы отбора количества факторов. Интерпретация
факторных нагрузок.
9. Учебно-методическое и информационное обеспечение
дисциплины
Базовые учебники
 Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS:
учебное пособие для вузов. М.: Изд. дом ГУ ВШЭ, 2007.
12

Наследов А. SPSS 20: профессиональный статистический анализ данных. СПб.:
Питер, 2011.
Основная и дополнительная литература приведены отдельно для каждой темы.
10. Материально-техническое обеспечение дисциплины.
Запланирована дистанционная поддержка курса в системе LMS.
Лекции проводятся с применением проектора для демонстрации презентационных
материалов.
Семинарские занятия проводятся в компьютерном классе.
13
Скачать