1 Правительство Российской Федерации Государственное образовательное бюджетное учреждение высшего профессионального образования «Государственный университет Высшая школа экономики» Факультет психологии Программа дисциплины Базовые методы анализа данных и работа со статистическими пакетами для направления/ специальности 030300.68 Психология (подготовки магистра) Автор Хавенсон Т.Е., [email protected] Рекомендована секцией УМС ____________________________ Председатель _________________________ «_____» __________________ 200 г. Одобрена на заседании кафедры Методов сбора и анализа социологической информации Зав. кафедрой Козина И.М. «_____» __________________ 20 Утверждена УС факультета ___________________________ Ученый секретарь ___________________________________ «_____» __________________ 200 г. Москва, 2010 г. 2 Аннотация Необходимость анализировать разнообразные данные возникает сейчас практически в любой профессиональной деятельности. К настоящему моменту в арсенале аналитика существует огромное количество методов, и специалисту практически в любой области необходимо в них разбираться, уметь грамотно управлять информацией. В курсе "Базовые методы анализа данных и работа cо статистическими пакетами" студенты научатся получать обобщенную информацию из "сырых" данных, искать связи между различными явлениями. Кроме того, специалисты в области измерения в психологии и педагогике могут выступать не только в роли исследователей, но и в роли заказчиков или потребителей исследований, поэтому они должны хорошо себе представлять как теоретические основы методов, так и получаемые с их помощью результаты. Должны уметь не только реализовывать тот или иной метод в статистическом пакете, но и уметь грамотно поставить задачу другим людям, а потом оценить результаты их работы. Примеры в лекционной части курса и задачи для семинарских занятий построены на основе баз данных в области образования. Цель курса Основная цель курса – сформировать у студентов теоретические представления об основных современных методах анализа данных в социальных науках; выработать навыки практического применения методов, как к самостоятельно собираемым данным, так и к базам данных. Задачи курса Выработать у студентов представления о том, какие модели заложены в различных методах анализа данных. Сформировать умение сопоставлять эти модели с задачами конкретного исследования и правильно выбирать метод в соответствии с его целями, задачами, гипотезами и имеющимися данными. Основные темы курса: Место и логика разных видов анализа в работе с данными: связь с целями и гипотезами исследования. Переменные. Шкалы измерения. Подготовка и оценка данных для анализа. Дискриптивная статистика и проверка статистических гипотез. Дисперсионный анализ. Множественные сравнения. Корреляции. Регрессионный анализ (парная и множественная регрессия). Регрессия при нелинейных связях. Факторный анализ. Кластерный анализ. 3 В результате прослушивания курса студенты: узнают, какими методами необходимо пользоваться в той или иной ситуации в зависимости от типа данных и от исследовательской задачи; узнают, что представляет собой изучаемые в рамках курса метод одномерного и многомерного анализа данных с теоретической точки зрения и алгоритм их работы; познакомятся с основными источниками информации, необходимых для реализации исследований (базы данных, тематические веб-сайты, главные научные журналы по данной тематике) научаться представлять результаты исследований для разных аудиторий. 4 Тематический план учебной дисциплины Название темы № 1. 2. 3. 4. Общие представления об анализе данных Основы работы с пакетом SPSS. Работа с переменными в пакете SPSS. Повторение теории вероятностей и математической статистики Методы описательной статистики. Визуализация данных Всего часов по дисциплине Аудиторные часы Лекции Сем. и практ. занятия Самостоятельн ая работа 8 2 0 6 12 0 2 10 24 4 4 16 19 2 3 14 5. Анализ двумерной связи 22 4 6 12 6. Общие принципы проверки статистических гипотез (параметричекие критерии) 18 3 3 12 7. Линейный регрессионный анализ 17 5 4 8 8. Логистическая регрессия 10 2 2 6 9. Дисперсионный анализ 16 4 2 10 10. Основы непараметрической статистики 14 4 4 6 20 4 4 12 4 4 12 2 2 12 40 40 136 11. Факторный анализ Методы классификации 12. признаков. Кластерный анализ и 20 деревья классификации Написание отчета по 13. 16 проведенному анализу данных Итого: 216 5 Базовые учебники: 1. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001 2. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Изд-во «Речь». СПб., 2006 3. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston, MA. 2007 Основная литература: 1. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003 2. Толстова Ю.Н. Математико-статистические модели в социологии. М.: ИД ГУ-ВШЭ, 2007 3. Bluman A. Elementary statistics. McGraw-Hill, 2008 4. Gay, L. R., Mills G.E., Airasian, P. Educational research: Competencies for analysis and applications. Upper Saddle River, NJ: Merrill Prentice Hall, 2009 5. Vogt W. P. Quantitative Research Methods for Professionals in Education and Other Fields. Allyn & Bacon, 2006 Дополнительная литература: 1. Агабекян Р.Л., Кириченко М.М., Усатиков С.В. Математические методы в социологии. Анализ данных и логика вывода в эмпирическом исследовании. Ростов н/Д.: Феникс, 2005 2. Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика, ч.1. М.: Юнити, 2001 3. Гуц А.К., Фролова Ю.В. Математические методы в социологии. М.: Изд-во ЛКИ, 2007 4. Желязны Дж. Говори на языке диаграмм: Пособие по визуальным коммуникациям. М., Манн, Иванов и Фербер, 2007 5. Интерпретация и анализ данных в социологических исследованиях. ред. Андреенков В.Г., Толстова Ю.Н. М.: Наука, 1987 6. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. М.: ИД ГУ ВШЭ, 2006 7. Толстова Ю.Н. Анализ социологических данных. М.: Научный мир, 2000 8. Толстова Ю.Н. Измерение в социологии. Москва: КДУ, 2009 9. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: ИД Форум, 2008 6 10. Тюрин Ю.Н., Макаров А.А., Симонова Г.И. Теория вероятностей: учебник для экономических и гуманитарных специальностей. М.: МЦНМО, 2009 11. Хили Дж. Статистика. Социологические и маркетинговые исследования. СПб.: Питер, 2005 12. http://betterexplained.com/articles/how-to-analyze-data-using-the-average/ 13. Hair J.F. Jr, Black W.C., Babin B.J., Anderson R.E. Multivariate Data Analysis. Pearson. 2009 14. McMillan J.H., Wergin J.F. Understanding and Evaluating Educational Research. Pearson Education. 2009 15. PISA 2003 Data Analysis Manual. SPSS Users 16. Thorkildsen T.A. Fundamentals of Measurement in Applied Research. Allyn & Bacon, 2004 17. Thorndike, R. M., Christ, T.M. Measurement and evaluation in psychology and education. Pearson, 2009 18. Vogt W. P. Dictionary of Statistics & Methodology: A Nontechnical Guide for the Social Sciences. Sage Publications. 2005 7 Формы контроля знаний студентов Текущий контроль осуществляется на семинарских занятиях, в первую очередь учитывается выполнение домашних и семинарских заданий. Также на лекциях студенты пишут небольшие самостоятельные работы по теоретическим вопросам. Итоговая оценка за первый год (зачет) складывается из оценки за работу на семинарских занятиях, за выполнение домашних и контрольной работ и итоговой зачетной работы. Вид деятельности Баллы Зачет 5 Контрольная работа 1,5 Домашние работы 2,5 Чтение (написание рецензии на статью, доклад по статье) 1 Таким образом, формула для расчета итоговой оценки: E = eчтен.*0,1 + едр*0,25+ екр*0,15 + езач*0,5 Итоговая оценка за второй год (экзамен) будет формироваться из оценок за написание домашних и контрольных работ, подготовку и презентацию стратегии анализа данных для исследования в рамках магистерской диссертации, участии в обсуждениях работ коллег (работа на семинарах). 8 Содержание программы Тема 1. Общие представления об анализе данных Вводная тема, целью которой является общее погружение студентов в проблематику исследований в социальных науках в общем, и в психологии и образовании в частности. Обсуждаются основные типы исследований, цели анализа данных. Соответствие определенных методов анализа данных целям и задачам исследования. Разработка стратегии анализа данных. Процесс анализа данных в исследовании. Основная литература 1. Gay L. R., Mills G.E., Airasian, P. Educational research: Competencies for analysis and applications. Upper Saddle River, NJ: Merrill Prentice Hall, 2009. Ch.1, 7-11 2. Tabachnick B.G. & Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston, MA. 2007, ch.1,2 Тема 2. Основы работы с пакетом SPSS Начало работы в SPSS. Правила создания макета анкеты (опросного документа). Ввод данных. Работа с переменными – кодирование, автоматическое и ручное, вычисление новых переменных, свойства переменных. Работа с данными – сортировка, отбор случаев, извлечение случайной выборки, агрегирование, чистка данных. Работа с файлами – слияние нескольких файлов, экспорт и импорт данных. Основная литература 1. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston, MA. 2007. Ch.1,2 2. Беликова А. Очистка персональных данных часть 1 // BaseGroup Labs http://www.basegroup.ru/library/cleaning/person_data_part1/ 3. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Главы 1, 3, 4. Стр. 14-18, 26-81. Дополнительная литература 9 Беликова А. Очистка персональных данных часть 2 // BaseGroup Labs http://www.basegroup.ru/library/cleaning/person_data_part2/ Тема 3. Повторение теории вероятностей и математической статистики Случайные величины и операции с ними. Правила сложения и умножения. Основные типы распределений в ТВ и МС. Нормальное, распределение Бернулли, распределение Стьюдента, распределение хи-квадрат, распределение Фишера. Точечное и интервальное оценивание. Основная литература 1. Bluman A. Elementary statistics. McGraw-Hill, 2008 2. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston, MA. 2007. Appendix A 3. Толстова Ю.Н. Математико-статистические модели в социологии. М.: ИД ГУВШЭ, 2007. Стр. 51-64, 71-94 4. Kalid Azad An Intuitive Guide To Exponential Functions & e // http://betterexplained.com/articles/an-intuitive-guide-to-exponential-functions-e/ 5. Kalid Azad Easy Permutations and Combinations // http://betterexplained.com/articles/easy-permutations-and-combinations/ Дополнительная литература 1. Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика, ч.1. М.: Юнити, 2001 2. Тюрин Ю.Н., Макаров А.А., Симонова Г.И. Теория вероятностей: учебник для экономических и гуманитарных специальностей. М.: МЦНМО, 2009 Тема 4. Методы описательной статистики. Визуализация данных Одномерные частотные таблицы, абсолютные и относительные частоты (процент, доля), накопленная частота. Основные типы шкал и соответствующие им меры средней тенденции и меры разброса. Принципы графического представления данных. Наиболее популярные виды графиков: гистограмма, диаграмма рассеивания, диаграмма «ящик с усами» и др. 10 Основная литература 1. Thorkildsen T.A. Fundamentals of Measurement in Applied Research. Allyn & Bacon, 2004 2. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Главы 6,9. Стр. 91-103, 164-169 3. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 8. Стр. 317323; глава 15, стр. 552-561 4. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Изд-во «Речь». СПб., 2006 5. Толстова Ю.Н. Измерение в социологии. Москва: КДУ, 2009 6. Kalid Azad How To Analyze Data Using the Average // http://betterexplained.com/articles/how-to-analyze-data-using-the-average/ Тема 5. Анализ двумерной связи Таблицы сопряженности. Возможное содержание ячеек таблицы. Условные и безусловные частоты. Коэффициенты парной связи для различных типов шкал. Критерий Хи-квадрат и основанные на нем коэффициенты. Прогнозные коэффициенты λ. Коэффициенты корреляции. Проверка значимости корреляционной связи. Работа с таблицами множественных ответов. Основная литература 1. Gay L. R., Mills G.E., Airasian, P. Educational research: Competencies for analysis and applications. Upper Saddle River, NJ: Merrill Prentice Hall, 2009. Ch.12 2. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston, MA. 2007. Ch.3 3. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Главы 11,12,15. Стр. 180-200, 207-219, 256-260 4. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Главы 15, 17, стр. 562-599, 640-648. 5. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Изд-во «Речь». СПб., 2006 11 Тема 6. Общие принципы проверки статистических гипотез (параметричекие критерии) Общие правила проверки статистических гипотез. Алгоритмы проверки наиболее важных гипотез. Гипотезы о равенстве средних: тесты для одной выборки (z-test, t-test) и двух выборок (зависимые и независимые). Гипотеза о равенстве долей. Проверка значимости коэффициента корреляции. Доверительный интервал и уровень значимости. Основная литература 1. Bluman A.G. Elementary statistics. Brown Publishers, 2008, pp.300-337, 344-372, 419422 2. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston, MA. 2007. Ch.3 3. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Гл.15 4. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Изд-во «Речь». СПб., 2006 5. Толстова Ю.Н. Математико-статистические модели в социологии. М.: ИД ГУВШЭ, 2007. С.101-144 Дополнительная литература Vogt W. P. Quantitative Research Methods for Professionals in Education and Other Fields. Allyn & Bacon, 2006 Тема 7. Регрессионный анализ Цели применения регрессионных моделей. Парный и множественный линейный регрессионный анализ. Выбор зависимых и независимых признаков и оценка качества построенной модели. Интерпретация коэффициентов регрессии. Регрессия с фиктивными переменными. Ограничения линейной регрессии. Основная литература 12 1. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston, MA. 2007. Ch.5 2. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Гл.17, стр. 648-678. 3. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Изд-во «Речь». СПб., 2006 4. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Глава 16. Стр. 269-302. Дополнительная литература: Stanton J.M. Galton, Pearson, and the Peas: A Brief History of Linear Regression for Statistics Instructors // Journal of Statistics Education Volume 9, Number 3 (2001) – история изобретения регрессионного анализа. Второй год Тема 8. Логистическая регрессия Логистическая регрессия. Оценка качества полученной модели. Интерпретация полученных результатов. Основная литература 1. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston, MA. 2007. Ch.12 2. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001 3. Petersen T, A Comment on Presenting Results from Logit and Probit Models. American Sociological Review, Vol. 50, No. 1 (Feb., 1985), pp. 130-131 Дополнительная литература Garson G. D., Logistic Regression, http://faculty.chass.ncsu.edu/garson/PA765/logistic.htm (Рекомендации по использованию регрессионных моделей. Девид Гарсон. Библиотека Университета Северной Каролины). Тема 9. Формальная Дисперсионный анализ модель заложенная в методе. Одномерный и многомерный дисперсионный анализ. Множественные сравнения. Интерпретация результатов. 13 Дисперсионный анализ Краскела-Уоллиса как непараметрический аналог дисперсионного анализа. Основная литература: 1. Bluman A.G. Elementary statistics. Wm. C. Brown Publishers, 2008 2. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston, MA. 2007. Ch.3 3. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Глава 17, стр. 323-346 4. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 16, стр. 604-640. 5. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Изд-во «Речь». СПб., 2006 Тема 10. Основы непараметрической статистики Цели применения непараметрических методов. Работа с малыми выборками. Непараметрические критерии: критерии и-тест Манна-Уитни, W-тест Уилкоксона. Основная литература 1. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Изд-во «Речь». СПб., 2006 2. Bluman A.G. Elementary statistics. Brown Publishers, 2008 3. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001 Тема 11. Факторный анализ Метод главных компонент. Цели применения метода. Алгоритм проведения анализа, требования к исходным данным, факторные нагрузки, вращение осей. Интерпретация результатов. Основная литература 1. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 19. Стр. 717741. 14 2. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Глава 19. Стр. 368-384. 3. Tabachnick B.G., Fidell L.S Using Multivariate Statistics. Pearson Education. Inc Boston, MA. 2007. Ch.5 4. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Изд-во «Речь». СПб., 2006 Тема 12. Методы классификации признаков. Кластерный анализ и деревья классификации. Основные цели, решаемые кластерным анализом, сфера применения. Иерархический кластерный анализ. Способы вычисления расстояний между объектами. Способы кластеризации. Неиерархический кластерный анализ, метод k-средних. Совместное применение иерархических и неиерархических методов кластеризации. Задачи, решаемые с помощью деревьев классификации. Алгоритмы CaRT, Chaid и Quest. Построение моделей, проверка их качества. Использование тестовых и обучающих выборок. Получение дополнительной информации из деревьев. Основная литература Кластерный анализ 1. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Глава 20. Стр. 385-409 2. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 20. Стр. 747771 3. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Изд-во «Речь». СПб., 2006 Деревья классификации 4. Интерпретация и анализ данных в социологических исследованиях. ред. Андреенков В.Г., Толстова Ю.Н. М.: Наука, 1987. Глава 6, стр. 136 5. Толстова Ю.Н. Анализ социологических данных. М.: Научный мир, 2000. Глава 2.5, стр. 256-269 6. Деревья решений - CART математический http://www.basegroup.ru/library/analysis/tree/math_cart_part1/ аппарат. Часть 1. 15 7. Андреев И. Деревья решений - CART математический аппарат. Часть 2. http://www.basegroup.ru/library/analysis/tree/math_cart_part2/ 8. Шахиди И. Деревья решений - общие принципы работы. http://www.basegroup.ru/library/analysis/tree/description/ Тема 13. Составление отчета. Работа с окном выдачи результатов – SPSS Viewer. Редактирование таблиц, графиков. Экспорт объектов в приложения MS Office. Общие принципы представления результатов применения статистических методов анализа данных. Отбор релевантной информации. Визуализация информации. Основная литература 1. Бююль А., Цёфель П., SPSS версия 10. СПб.: ООО "ДиаСофтЮП", 2001. Главы 7,8,10, стр. 104-144, 170-179. 2. Желязны Дж. Говори на языке диаграмм: Пособие по визуальным коммуникациям. М., Манн, Иванов и Фербер, 2007 3. Малхотра Н. Маркетинговые исследования. М.: Вилямс, 2003. Глава 14. Стр.519551 4. Bluman A.G. Elementary statistics. Brown Publishers, 2008 5. Gay L. R., Mills G.E., Airasian, P. Educational research: Competencies for analysis and applications. Upper Saddle River, NJ: Merrill Prentice Hall, 2009. Ch.21 16 Сайты наиболее известных исследований в области измерения знаний и информационные порталы. http://timss.bc.edu/ TIMSS (IEA BC College) http://pirls.bc.edu/ PIRLS (IEA BC College) http://www.centeroko.ru/ Центр оценки качества образования Института содержания и методов обучения Российской академии образования http://eacea.ec.europa.eu/education/eurydice/eurybase_en.php Eurybase - Descriptions of National Education Systems and Policies http://cshe.berkeley.edu/ The Center for Studies in Higher Education at UC Berkeley http://www.eric.ed.gov/ Education Resources Information Center http://www.pisa.oecd.org PISA (The Programme for International Student Assessment), OECD Список наиболее известных научных журналов по теме тестирования и измерения: 1. Applied Measurement in Education 2. Applied Psychological Measurement 3. Educational and Psychological Measurement 4. Educational Measurement: Issues and Practice 5. Educational Researcher 6. Journal of Educational Measurement 7. Psychometrica 8. Journal of Personnel Evaluation in Education 9. The International Journal of Testing 10. Practical Assessment Research & Evaluation 11. Assessment and Evaluation in Higher Education Автор программы Хавенсон Т.Е.