Программа курса Баз.мет. анализа данных Хавенсон

advertisement
1
Правительство Российской Федерации
Государственное образовательное бюджетное учреждение
высшего профессионального образования
«Государственный университет Высшая школа экономики»
Факультет психологии
Программа дисциплины
Базовые методы анализа данных и работа со статистическими
пакетами
для направления/ специальности 030300.68
Психология (подготовки магистра)
Автор Хавенсон Т.Е., tkhavenson@hse.ru
Рекомендована секцией УМС
____________________________
Председатель
_________________________
«_____» __________________ 200 г.
Одобрена на заседании кафедры
Методов сбора и анализа
социологической информации
Зав. кафедрой
Козина И.М.
«_____» __________________ 20
Утверждена УС факультета
___________________________
Ученый секретарь
___________________________________
«_____» __________________ 200 г.
Москва, 2010
г.
2
Аннотация
Необходимость анализировать разнообразные данные возникает сейчас практически в
любой профессиональной деятельности. К настоящему моменту в арсенале аналитика
существует огромное количество методов, и специалисту практически в любой области
необходимо в них разбираться, уметь грамотно управлять информацией.
В курсе "Базовые методы анализа данных и работа cо статистическими пакетами"
студенты научатся получать обобщенную информацию из "сырых" данных, искать связи
между различными явлениями.
Кроме того, специалисты в области измерения в психологии и педагогике могут
выступать не только в роли исследователей, но и в роли заказчиков или потребителей
исследований, поэтому они должны хорошо себе представлять как теоретические основы
методов, так и получаемые с их помощью результаты. Должны уметь не только
реализовывать тот или иной метод в статистическом пакете, но и уметь грамотно поставить
задачу другим людям, а потом оценить результаты их работы.
Примеры в лекционной части курса и задачи для семинарских занятий построены на
основе баз данных в области образования.
Цель курса
Основная цель курса – сформировать у студентов теоретические представления об
основных современных методах анализа данных в социальных науках; выработать навыки
практического применения методов, как к самостоятельно собираемым данным, так и к
базам данных.
Задачи курса
Выработать у студентов представления о том, какие модели заложены в различных
методах анализа данных. Сформировать умение сопоставлять эти модели с задачами
конкретного исследования и правильно выбирать метод в соответствии с его целями,
задачами, гипотезами и имеющимися данными.
Основные темы курса:
Место и логика разных видов анализа в работе с данными: связь с целями и
гипотезами исследования. Переменные. Шкалы измерения. Подготовка и оценка данных для
анализа. Дискриптивная статистика и проверка статистических гипотез. Дисперсионный
анализ. Множественные сравнения. Корреляции. Регрессионный анализ (парная и
множественная регрессия). Регрессия при нелинейных связях. Факторный анализ.
Кластерный анализ.
3
В результате прослушивания курса студенты:
узнают, какими методами необходимо пользоваться в той или иной ситуации в
зависимости от типа данных и от исследовательской задачи;
узнают, что представляет собой изучаемые в рамках курса метод одномерного и
многомерного анализа данных с теоретической точки зрения и алгоритм их работы;
познакомятся с основными источниками информации, необходимых для реализации
исследований (базы данных, тематические веб-сайты, главные научные журналы по данной
тематике)
научаться представлять результаты исследований для разных аудиторий.
4
Тематический план учебной дисциплины
Название темы
№
1.
2.
3.
4.
Общие представления об анализе
данных
Основы работы с пакетом SPSS.
Работа с переменными в пакете
SPSS.
Повторение теории вероятностей
и математической статистики
Методы описательной
статистики.
Визуализация данных
Всего часов по
дисциплине
Аудиторные часы
Лекции
Сем. и
практ.
занятия
Самостоятельн
ая работа
8
2
0
6
12
0
2
10
24
4
4
16
19
2
3
14
5.
Анализ двумерной связи
22
4
6
12
6.
Общие принципы проверки
статистических гипотез
(параметричекие критерии)
18
3
3
12
7.
Линейный регрессионный анализ 17
5
4
8
8.
Логистическая регрессия
10
2
2
6
9.
Дисперсионный анализ
16
4
2
10
10.
Основы непараметрической
статистики
14
4
4
6
20
4
4
12
4
4
12
2
2
12
40
40
136
11. Факторный анализ
Методы классификации
12. признаков. Кластерный анализ и 20
деревья классификации
Написание отчета по
13.
16
проведенному анализу данных
Итого:
216
5
Базовые учебники:
1. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001
2. Наследов А.Д. Математические методы психологического исследования. Анализ и
интерпретация данных. Изд-во «Речь». СПб., 2006
3. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston,
MA. 2007
Основная литература:
1. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003
2. Толстова Ю.Н. Математико-статистические модели в социологии. М.: ИД ГУ-ВШЭ,
2007
3. Bluman A. Elementary statistics. McGraw-Hill, 2008
4. Gay, L. R., Mills G.E., Airasian, P. Educational research: Competencies for analysis and
applications. Upper Saddle River, NJ: Merrill Prentice Hall, 2009
5. Vogt W. P. Quantitative Research Methods for Professionals in Education and Other Fields.
Allyn & Bacon, 2006
Дополнительная литература:
1. Агабекян Р.Л., Кириченко М.М., Усатиков С.В. Математические методы в
социологии. Анализ данных и логика вывода в эмпирическом исследовании. Ростов
н/Д.: Феникс, 2005
2. Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика, ч.1. М.:
Юнити, 2001
3. Гуц А.К., Фролова Ю.В. Математические методы в социологии. М.: Изд-во ЛКИ, 2007
4. Желязны Дж. Говори на языке диаграмм: Пособие по визуальным коммуникациям.
М., Манн, Иванов и Фербер, 2007
5. Интерпретация и анализ данных в социологических исследованиях. ред. Андреенков
В.Г., Толстова Ю.Н. М.: Наука, 1987
6. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. М.:
ИД ГУ ВШЭ, 2006
7. Толстова Ю.Н. Анализ социологических данных. М.: Научный мир, 2000
8. Толстова Ю.Н. Измерение в социологии. Москва: КДУ, 2009
9. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: ИД Форум, 2008
6
10. Тюрин Ю.Н., Макаров А.А., Симонова Г.И. Теория вероятностей: учебник для
экономических и гуманитарных специальностей. М.: МЦНМО, 2009
11. Хили Дж. Статистика. Социологические и маркетинговые исследования. СПб.: Питер,
2005
12. http://betterexplained.com/articles/how-to-analyze-data-using-the-average/
13. Hair J.F. Jr, Black W.C., Babin B.J., Anderson R.E. Multivariate Data Analysis. Pearson.
2009
14. McMillan J.H., Wergin J.F. Understanding and Evaluating Educational Research. Pearson
Education. 2009
15. PISA 2003 Data Analysis Manual. SPSS Users
16. Thorkildsen T.A. Fundamentals of Measurement in Applied Research. Allyn & Bacon, 2004
17. Thorndike, R. M., Christ, T.M. Measurement and evaluation in psychology and education.
Pearson, 2009
18. Vogt W. P. Dictionary of Statistics & Methodology: A Nontechnical Guide for the Social
Sciences. Sage Publications. 2005
7
Формы контроля знаний студентов
Текущий контроль осуществляется на семинарских занятиях, в первую очередь
учитывается выполнение домашних и семинарских заданий. Также на лекциях студенты
пишут небольшие самостоятельные работы по теоретическим вопросам.
Итоговая оценка за первый год (зачет) складывается из оценки за работу на
семинарских занятиях, за выполнение домашних и контрольной работ и итоговой зачетной
работы.
Вид деятельности
Баллы
Зачет
5
Контрольная работа
1,5
Домашние работы
2,5
Чтение (написание рецензии на
статью, доклад по статье)
1
Таким образом, формула для расчета итоговой оценки:
E = eчтен.*0,1 + едр*0,25+ екр*0,15 + езач*0,5
Итоговая оценка за второй год (экзамен) будет формироваться из оценок за написание
домашних и контрольных работ, подготовку и презентацию стратегии анализа данных для
исследования в рамках магистерской диссертации, участии в обсуждениях работ коллег
(работа на семинарах).
8
Содержание программы
Тема 1.
Общие представления об анализе данных
Вводная тема, целью которой является общее погружение студентов в проблематику
исследований в социальных науках в общем, и в психологии и образовании в частности.
Обсуждаются
основные
типы
исследований,
цели
анализа
данных.
Соответствие
определенных методов анализа данных целям и задачам исследования. Разработка стратегии
анализа данных. Процесс анализа данных в исследовании.
Основная литература
1. Gay L. R., Mills G.E., Airasian, P. Educational research: Competencies for analysis and
applications. Upper Saddle River, NJ: Merrill Prentice Hall, 2009. Ch.1, 7-11
2. Tabachnick B.G. & Fidell L.S Using Multivariate Statistics. Pearson Education. Inc
Boston, MA. 2007, ch.1,2
Тема 2.
Основы работы с пакетом SPSS
Начало работы в SPSS. Правила создания макета анкеты (опросного документа). Ввод
данных.
Работа с переменными – кодирование, автоматическое и ручное, вычисление новых
переменных, свойства переменных.
Работа с данными – сортировка, отбор случаев, извлечение случайной выборки,
агрегирование, чистка данных.
Работа с файлами – слияние нескольких файлов, экспорт и импорт данных.
Основная литература
1. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc
Boston, MA. 2007. Ch.1,2
2. Беликова А. Очистка персональных данных часть 1 // BaseGroup Labs
http://www.basegroup.ru/library/cleaning/person_data_part1/
3. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Главы 1,
3, 4. Стр. 14-18, 26-81.
Дополнительная литература
9
Беликова
А.
Очистка
персональных
данных
часть
2
//
BaseGroup
Labs
http://www.basegroup.ru/library/cleaning/person_data_part2/
Тема 3.
Повторение теории вероятностей и математической статистики
Случайные величины и операции с ними. Правила сложения и умножения. Основные
типы распределений в ТВ и МС. Нормальное, распределение Бернулли, распределение
Стьюдента, распределение хи-квадрат, распределение Фишера.
Точечное и интервальное оценивание.
Основная литература
1. Bluman A. Elementary statistics. McGraw-Hill, 2008
2. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc
Boston, MA. 2007. Appendix A
3. Толстова Ю.Н. Математико-статистические модели в социологии. М.: ИД ГУВШЭ, 2007. Стр. 51-64, 71-94
4. Kalid Azad An Intuitive Guide To Exponential Functions & e //
http://betterexplained.com/articles/an-intuitive-guide-to-exponential-functions-e/
5. Kalid Azad Easy Permutations and Combinations //
http://betterexplained.com/articles/easy-permutations-and-combinations/
Дополнительная литература
1. Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика, ч.1.
М.: Юнити, 2001
2. Тюрин Ю.Н., Макаров А.А., Симонова Г.И. Теория вероятностей: учебник для
экономических и гуманитарных специальностей. М.: МЦНМО, 2009
Тема 4.
Методы описательной статистики. Визуализация данных
Одномерные частотные таблицы, абсолютные и относительные частоты (процент,
доля), накопленная частота. Основные типы шкал и соответствующие им меры средней
тенденции и меры разброса.
Принципы графического представления данных. Наиболее популярные виды
графиков: гистограмма, диаграмма рассеивания, диаграмма «ящик с усами» и др.
10
Основная литература
1. Thorkildsen T.A. Fundamentals of Measurement in Applied Research. Allyn & Bacon,
2004
2. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Главы
6,9. Стр. 91-103, 164-169
3. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 8. Стр. 317323; глава 15, стр. 552-561
4. Наследов А.Д. Математические методы психологического исследования. Анализ и
интерпретация данных. Изд-во «Речь». СПб., 2006
5. Толстова Ю.Н. Измерение в социологии. Москва: КДУ, 2009
6. Kalid
Azad
How
To
Analyze
Data
Using
the
Average
//
http://betterexplained.com/articles/how-to-analyze-data-using-the-average/
Тема 5.
Анализ двумерной связи
Таблицы сопряженности. Возможное содержание ячеек таблицы. Условные и
безусловные частоты.
Коэффициенты парной связи для различных типов шкал. Критерий Хи-квадрат и
основанные на нем коэффициенты. Прогнозные коэффициенты λ. Коэффициенты
корреляции. Проверка значимости корреляционной связи.
Работа с таблицами множественных ответов.
Основная литература
1. Gay L. R., Mills G.E., Airasian, P. Educational research: Competencies for analysis and
applications. Upper Saddle River, NJ: Merrill Prentice Hall, 2009. Ch.12
2. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc
Boston, MA. 2007. Ch.3
3. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Главы
11,12,15. Стр. 180-200, 207-219, 256-260
4. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Главы 15, 17, стр.
562-599, 640-648.
5. Наследов А.Д. Математические методы психологического исследования. Анализ и
интерпретация данных. Изд-во «Речь». СПб., 2006
11
Тема 6.
Общие
принципы
проверки
статистических
гипотез
(параметричекие критерии)
Общие правила проверки статистических гипотез.
Алгоритмы проверки наиболее важных гипотез. Гипотезы о равенстве средних: тесты
для одной выборки (z-test, t-test) и двух выборок (зависимые и независимые). Гипотеза о
равенстве долей. Проверка значимости коэффициента корреляции. Доверительный интервал
и уровень значимости.
Основная литература
1. Bluman A.G. Elementary statistics. Brown Publishers, 2008, pp.300-337, 344-372, 419422
2. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc
Boston, MA. 2007. Ch.3
3. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Гл.15
4. Наследов А.Д. Математические методы психологического исследования. Анализ и
интерпретация данных. Изд-во «Речь». СПб., 2006
5. Толстова Ю.Н. Математико-статистические модели в социологии. М.: ИД ГУВШЭ, 2007. С.101-144
Дополнительная литература
Vogt W. P. Quantitative Research Methods for Professionals in Education and Other
Fields. Allyn & Bacon, 2006
Тема 7.
Регрессионный анализ
Цели применения регрессионных моделей. Парный и множественный линейный
регрессионный анализ. Выбор зависимых и независимых признаков и оценка качества
построенной модели. Интерпретация коэффициентов регрессии. Регрессия с фиктивными
переменными. Ограничения линейной регрессии.
Основная литература
12
1. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc
Boston, MA. 2007. Ch.5
2. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Гл.17, стр. 648-678.
3. Наследов А.Д. Математические методы психологического исследования. Анализ и
интерпретация данных. Изд-во «Речь». СПб., 2006
4. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Глава 16.
Стр. 269-302.
Дополнительная литература:
Stanton J.M. Galton, Pearson, and the Peas: A Brief History of Linear Regression for Statistics
Instructors // Journal of Statistics Education Volume 9, Number 3 (2001) – история изобретения
регрессионного анализа.
Второй год
Тема 8.
Логистическая регрессия
Логистическая регрессия. Оценка качества полученной модели. Интерпретация
полученных результатов.
Основная литература
1. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc
Boston, MA. 2007. Ch.12
2. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001
3. Petersen T, A Comment on Presenting Results from Logit and Probit Models. American
Sociological Review, Vol. 50, No. 1 (Feb., 1985), pp. 130-131
Дополнительная литература
Garson G. D., Logistic Regression, http://faculty.chass.ncsu.edu/garson/PA765/logistic.htm
(Рекомендации по использованию регрессионных моделей. Девид Гарсон. Библиотека
Университета Северной Каролины).
Тема 9.
Формальная
Дисперсионный анализ
модель
заложенная
в
методе.
Одномерный
и
многомерный
дисперсионный анализ. Множественные сравнения. Интерпретация результатов.
13
Дисперсионный
анализ
Краскела-Уоллиса
как
непараметрический
аналог
дисперсионного анализа.
Основная литература:
1. Bluman A.G. Elementary statistics. Wm. C. Brown Publishers, 2008
2. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc
Boston, MA. 2007. Ch.3
3. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Глава
17, стр. 323-346
4. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 16, стр.
604-640.
5. Наследов А.Д. Математические методы психологического исследования.
Анализ и интерпретация данных. Изд-во «Речь». СПб., 2006
Тема 10. Основы непараметрической статистики
Цели применения непараметрических методов. Работа с малыми выборками.
Непараметрические критерии: критерии и-тест Манна-Уитни, W-тест Уилкоксона.
Основная литература
1. Наследов А.Д. Математические методы психологического исследования. Анализ и
интерпретация данных. Изд-во «Речь». СПб., 2006
2. Bluman A.G. Elementary statistics. Brown Publishers, 2008
3. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001
Тема 11. Факторный анализ
Метод главных компонент. Цели применения метода. Алгоритм проведения анализа,
требования к исходным данным, факторные нагрузки, вращение осей. Интерпретация
результатов.
Основная литература
1. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 19. Стр. 717741.
14
2. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Глава 19.
Стр. 368-384.
3. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc
Boston, MA. 2007. Ch.5
4. Наследов А.Д. Математические методы психологического исследования. Анализ и
интерпретация данных. Изд-во «Речь». СПб., 2006
Тема 12. Методы классификации признаков. Кластерный анализ и деревья
классификации.
Основные цели, решаемые кластерным анализом, сфера применения. Иерархический
кластерный анализ. Способы вычисления расстояний между объектами. Способы
кластеризации.
Неиерархический кластерный анализ, метод k-средних. Совместное применение
иерархических и неиерархических методов кластеризации.
Задачи, решаемые с помощью деревьев классификации. Алгоритмы CaRT, Chaid и
Quest. Построение моделей, проверка их качества. Использование тестовых и обучающих
выборок. Получение дополнительной информации из деревьев.
Основная литература
Кластерный анализ
1. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Глава 20.
Стр. 385-409
2. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 20. Стр. 747771
3. Наследов А.Д. Математические методы психологического исследования. Анализ и
интерпретация данных. Изд-во «Речь». СПб., 2006
Деревья классификации
4. Интерпретация и анализ данных в социологических исследованиях. ред.
Андреенков В.Г., Толстова Ю.Н. М.: Наука, 1987. Глава 6, стр. 136
5. Толстова Ю.Н. Анализ социологических данных. М.: Научный мир, 2000. Глава
2.5, стр. 256-269
6. Деревья
решений
-
CART
математический
http://www.basegroup.ru/library/analysis/tree/math_cart_part1/
аппарат.
Часть
1.
15
7. Андреев И. Деревья решений - CART математический аппарат. Часть 2.
http://www.basegroup.ru/library/analysis/tree/math_cart_part2/
8. Шахиди
И.
Деревья
решений
-
общие
принципы
работы.
http://www.basegroup.ru/library/analysis/tree/description/
Тема 13. Составление отчета.
Работа с окном выдачи результатов – SPSS Viewer. Редактирование таблиц, графиков.
Экспорт объектов в приложения MS Office.
Общие принципы представления результатов применения статистических методов
анализа данных. Отбор релевантной информации. Визуализация информации.
Основная литература
1. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Главы
7,8,10, стр. 104-144, 170-179.
2. Желязны Дж. Говори на языке диаграмм: Пособие по визуальным коммуникациям.
М., Манн, Иванов и Фербер, 2007
3. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 14. Стр.519551
4. Bluman A.G. Elementary statistics. Brown Publishers, 2008
5. Gay L. R., Mills G.E., Airasian, P. Educational research: Competencies for analysis and
applications. Upper Saddle River, NJ: Merrill Prentice Hall, 2009. Ch.21
16
Сайты наиболее известных исследований в области измерения знаний и
информационные порталы.
http://timss.bc.edu/ TIMSS (IEA BC College)
http://pirls.bc.edu/ PIRLS (IEA BC College)
http://www.centeroko.ru/ Центр оценки качества образования Института содержания и
методов обучения Российской академии образования
http://eacea.ec.europa.eu/education/eurydice/eurybase_en.php Eurybase - Descriptions of
National Education Systems and Policies
http://cshe.berkeley.edu/ The Center for Studies in Higher Education at UC Berkeley
http://www.eric.ed.gov/ Education Resources Information Center
http://www.pisa.oecd.org PISA (The Programme for International Student Assessment),
OECD
Список наиболее известных научных журналов по теме тестирования и
измерения:
1. Applied Measurement in Education
2. Applied Psychological Measurement
3. Educational and Psychological Measurement
4. Educational Measurement: Issues and Practice
5. Educational Researcher
6. Journal of Educational Measurement
7. Psychometrica
8. Journal of Personnel Evaluation in Education
9. The International Journal of Testing
10. Practical Assessment Research & Evaluation
11. Assessment and Evaluation in Higher Education
Автор программы
Хавенсон Т.Е.
Download