Правительство Российской Федерации Государственное образовательное бюджетное учреждение высшего профессионального образования «Государственный университет – Высшая школа экономики» Факультет Прикладной политологии Программа дисциплины Компьютерные технологии в политической науке и образовании для направления 0300200.68 «Политология» подготовки магистра магистерская программа «Политический анализ и публичная политика» Авторы программы: доцент Белоусова С.Н. [email protected] и к.т.н. доцент Бессонова И.А. [email protected] Рекомендована секцией УМС Председатель Ю.В. Таратухина ______________________________ «_____» _________________ 2009 г. Одобрена на заседании кафедры Архитектуры программных систем Зав. кафедрой С.В. Назаров _________________________________ «____»_____________________ 2009 г Утверждена Ученым Советом факультета ______________ Ученый секретарь ______________________________ «_____» ________________ 2009 г. Москва I. Пояснительная записка Авторы программы: доцент Белоусова С.Н., к.т.н., доцент Бессонова И.А. Общие сведения об учебном курсе: дисциплина читается студентам магистерской программы «Политический анализ и публичная политика» факультета политологии ГУ-ВШЭ. Она входит в блок специальных дисциплин, определяющих магистерскую программу, и читается в первом и втором модулях первого года обучения. Количество кредитов – 4. Продолжительность курса составляет 60 аудиторных учебных часов (15 недель), в том числе: 20 часов лекционных занятий, 40 часов практических занятий, и 84 часа самостоятельной работы. Рубежный контроль – эссе, и экзамен в виде электронного теста по окончанию второго модуля. Аннотация Предлагаемый курс построен на многолетнем опыте преподавания информатики в ГУ ВШЭ. Курс ориентирован на овладение приемами анализа статистических данных с помощью пакета SPSS для решения задач политологии. Специфика данного курса заключается в том, что учебный материал излагается на основе данных из областей политологии, социологии и статистики, опубликованных в зарубежных или российских изданиях или размещенных на Web-страницах в Интернете. Построение курса отвечает требованиям отечественных профессиональных стандартов в области применения информационных технологий. Требования к студентам Приступая к изучению дисциплины, слушатель должен быть знаком с основами математической статистики и теории вероятностей. Данный курс не заменяет стандартного курса статистики. Цель изучения дисциплины: 1) познакомить слушателей с основными понятиями и областью применения системы SPSS; 2) дать слушателям целостное представление о возможностях анализа данных в системе SPSS; 3) научить основам работы с различными типами исходной информации, исследованию взаимосвязей между данными и проведению анализа данных. Учебная задача дисциплины В результате изучения дисциплины слушатель должен 1) иметь представление о возможностях пакета SPSS в части решения задач с использованием различных методов статистического анализа; 2) знать способы анализа статистических данных с помощью регрессионного, кластерного и факторного анализа данных; 3) уметь самостоятельно проводить обработку информации для дальнейшей работы с ней в SPSS и анализировать скрытые закономерности в данных; 2 4) обладать навыками работы в SPSS для решения проблем, возникающих при проведении анализа информации. II. Тематический план учебной дисциплины Аудиторные занятия Всего Практическ. Лекции учебных занятия часов 1 11 Номера и наименования тем Всего часов Тема 1. Системы анализа политических данных. Характеристика SPSS. 11 Тема 2. Подготовка данных к анализу. Редактирование данных. 11 3 4 7 4 Тема 3. Описательные статистики.* 20 3 7 10 10 Тема 4. Исследование взаимосвязей между данными. Проверка гипотез. Тема 5. Регрессионный анализ данных. 20 3 7 10 10 46 4 10 14 32 Тема 6. Факторный анализ данных. 19 3 6 9 10 Тема 7. Кластерный анализ данных. 19 3 6 9 10 Итого часов 146 20 40 60 86 III. Самост. работа 10 Базовый учебник (и) основная литература Базовой учебник 1. SPSS: искусство обработки информации. Анализ статичстических данных и восстановление скрытых закономерностей: Пер. с нем./ Ахим Бююль, Петер Цефель – СПб.: ООО «ДиаСофтЮП», 2002. Основная литература 1. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS - М.: Изд.дом ГУ ВШЭ, 2006. 2. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы – М.: Финансы и статистика, 2000. 3. Макаров А.А., Тюрин Ю.Н. Статистический анализ на компьютере.- М.: Наука, 1997. 3 IV. Формы контроля Текущий контроль - Работа на практических занятиях (выполнение заданий на компьютере) Промежуточный контроль - промежуточное тестирование по завершении первой части -25 мин. - эссе (30 часов самостоятельных занятий) Итоговый контроль экзамен. Структура итоговой оценки по учебной дисциплине: Формы работы Вклад в итоговую оценку (%) Работа на практических занятиях 20 Контрольная работа 20 Эссе 30 экзамен 30 Таблица соответствия оценок по десятибалльной и пятибалльной системам По десятибалльной шкале По пятибалльной шкале 1 – неудовлетворительно 2 – очень плохо неудовлетворительно – 2 3 – плохо 4 – удовлетворительно удовлетворительно – 3 5 – весьма удовлетворительно 6 – хорошо хорошо – 4 7 – очень хорошо 8 – почти отлично 9 – отлично отлично – 5 10 – блестяще V. Содержание программы Тема 1. Системы анализа данных. Характеристика SPSS. ♦ Содержание темы: Обзор существующих систем хранения и анализа данных. Назначение и оболочка SPSS. Состав пакета, учебник, система помощи. Содержание и разделы главного меню. Окна вывода, окно редактирования данных. Панели инструментов. Характеристика диалоговых окон. Набор статистических методов, типы графиков. 4 ♦ Базовая литература SPSS: искусство обработки информации. Анализ статичстических данных и восстановление скрытых закономерностей: Пер. с нем./ Ахим Бююль, Петер Цефель – СПб.: ООО «ДиаСофтЮП», 2002. ♦ Основная литература Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS - М.: Изд.дом ГУ ВШЭ, 2006. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы – М.: Финансы и статистика, 2000. Тема 2. Подготовка данных к анализу. Редактирование данных.. ♦ Содержание темы: Сбор данных. Выборка. Влияние объемов выборки на точность оценки. Подготовка данных к обработке: rодирование и кодировочные таблицы, создание матриц данных. Типы переменных. Загрузка данных в систему. Ввод данных, экспорт данных их других систем. Обнаружение ошибок ввода. Проверка данных на состоятельность. Модификация данных: вычисление переменных, аггрегирование данных, ранговые преобразования. ♦ Базовая литература SPSS: искусство обработки информации. Анализ статичстических данных и восстановление скрытых закономерностей: Пер. с нем./ Ахим Бююль, Петер Цефель – СПб.: ООО «ДиаСофтЮП», 2002. ♦ Основная литература Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS - М.: Изд.дом ГУ ВШЭ, 2006. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы – М.: Финансы и статистика, 2000. Тема 3. Описательные статистики ♦ Содержание темы: Исследование данных и их свойств: математическое ожидание, дисперсия и стандартное отклонение, вариации и формы распределения. Медиана. Вычисление описательных статистик для генеральной совокупности. Правило Бьенамэ-Чебышева. ♦ Базовая литература SPSS: искусство обработки информации. Анализ статичстических данных и восстановление скрытых закономерностей: Пер. с нем./ Ахим Бююль, Петер Цефель – СПб.: ООО «ДиаСофтЮП», 2002. ♦ Основная литература Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS - М.: Изд.дом ГУ ВШЭ, 2006. 5 Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы – М.: Финансы и статистика, 2000. Тема 4. Исследование взаимосвязей между данными. Проверка гипотез. ♦ Содержание темы: Разведочный анализ. Сравнение средних. Таблица сопряженности. Анализ множественных ответов. Непараметрические тесты. Измерение линейных связей, парная и частная корреляция. ♦ Базовая литература SPSS: искусство обработки информации. Анализ статичстических данных и восстановление скрытых закономерностей: Пер. с нем./ Ахим Бююль, Петер Цефель – СПб.: ООО «ДиаСофтЮП», 2002. ♦ Основная литература Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS - М.: Изд.дом ГУ ВШЭ, 2006. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы – М.: Финансы и статистика, 2000. Тема 5. Регрессионный анализ данных ♦ Содержание темы: Простая линейная регрессия. Множественная регрессия. Бинарная логистическая регрессия Мультиномиальная логистическая регрессия Порядковая регрессия. ♦ Базовая литература SPSS: искусство обработки информации. Анализ статичстических данных и восстановление скрытых закономерностей: Пер. с нем./ Ахим Бююль, Петер Цефель – СПб.: ООО «ДиаСофтЮП», 2002. ♦ Основная литература Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS - М.: Изд.дом ГУ ВШЭ, 2006. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы – М.: Финансы и статистика, 2000. Тема 6. Факторный анализ данных. ♦ Содержание темы: Метод главных компонент. Метод главных факторов. Интерпретация факторов. ♦ Базовая литература SPSS: искусство обработки информации. Анализ статичстических данных и восстановление скрытых закономерностей: Пер. с нем./ Ахим Бююль, Петер Цефель – СПб.: ООО «ДиаСофтЮП», 2002. 6 ♦ Основная литература Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS - М.: Изд.дом ГУ ВШЭ, 2006. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы – М.: Финансы и статистика, 2000. Тема 7. Кластерный анализ данных. ♦ Содержание темы: Кластеризация наблюдений. Иерархические методы кластерного анализа. Партиционные методы кластерного анализа. ♦ Базовая литература SPSS: искусство обработки информации. Анализ статичстических данных и восстановление скрытых закономерностей: Пер. с нем./ Ахим Бююль, Петер Цефель – СПб.: ООО «ДиаСофтЮП», 2002. ♦ Основная литература Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS - М.: Изд.дом ГУ ВШЭ, 2006. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы – М.: Финансы и статистика, 2000. VI. Тематика заданий по различным формам текущего контроля Примерное содержание заданий 1) Построить диаграмму Steam and Leaf, 2) Проанализировать основные характеристики распределения (мода, смещение и т.д.); 3) Построить и проанализировать ящичковую диаграмму, определить наличие выбросов и экстремумов; 4) Оценить близость распределения к нормальному на основе графика Normal Q-Q Plot, Q-Q Plot Detrended, критерия Колмогорова-Смирнова и следующих характеристик распределения: остроты пика, смещения и соотношения их величин и ошибок; 5) Оценить гетероскедастичность на основе графика Spread-versus-level и статистики Ливиня; 6) Построить таблицу сопряженности и определить наличие зависимости между переменными, тесноту и направление связи. 7) Построить уравнение регрессии и оценить параметры уравнения. 8) Найти факторы наиболее полно объясняющие наблюдаемые связи между перменными, имеющимися в наличии. 9) Сформировать группы наблюдений с помощью кластерного анализа. 7 Тема эссе: 1. База данных может быть взята из любых открытых источников (или закрытых, но у автора эссе должно быть право на ее использование). Одним из источников данных может быть Единый архив социологических данных (http://sofist.socpol.ru/). 2. На основе найденных в Интернет социологических данных по конкретному региону и проведенного по ним статистического анализа провести политический анализ этого региона. 3. При выполнении исследовательского эссе, студенты должны продемонстрировать самостоятельную реализацию одного из изучаемых методов в пакете SPSS и умение проинтерпретировать полученные результаты Вопросы для подготовки к экзамену 1) Как представляются данные в окне SPSS (переменные, наблюдения)? 2) Что такое метка переменной, значение переменной, метка значения? 3) Как выравниваются значения символьных переменных и значения числовых переменных? 4) Как прочитать данные из электронных таблиц MS Excel: 5) Как определяется тип переменной при чтении электронных таблиц? 6) При помощи какой команды можно рассчитать моду, квартили, процентили ? 7) При помощи каких команд можно рассчитать среднее, медиану, стандартное отклонение? 8) В каких шкалах должны быть измерены переменные, для которых можно рассчитать описательную статистику ? 9) Для каких переменных можно построить частотную таблицу? 10) Что характеризуют показатели Std.Deviation, Range, Sum 11) Назовите показатель, который характеризует высоту пика кривой частотного распределения 12) Назовите показатель, который характеризует асимметрию кривой частотного распределения 13) Если Kurtosis >0, то кривая частотного распределения имеет более крутой пик, чем кривая нормального распределения с тем же средним значением и стандартным отклонением. Верно ли это утверждение? Какое соотношение дополнительно необходимо проверить? 14) Если Skewness >0, то кривая частотного распределения имеет более длинный правый хвост, чем кривая нормального распределения с тем же средним 8 значением и стандартным отклонением. Верно ли это утверждение? Какое соотношение дополнительно необходимо проверить? 15) Какая команда позволяет отфильтровать наблюдения? 16) Как отобрать наблюдения, имеющие ненулевые значения числовой переменной? 17) Как рассчитать описательную статистику только для тех наблюдений, в которых значения переменной удовлетворяют некоторому условию. 18) Можно ли проанализировать отдельно группы наблюдений и каким образом разбить на группы всю совокупность данных? 19) Как показать на экране наблюдение с максимальным или минимальным значением некоторой переменной? 20) Что такое системно-пропущенные значения и значения, пропущенные пользователем? 21) Как правильно сформировать статистическую совокупность, если необходимо исключить из рассмотрения некоторые значения переменной 22) Можно ли строковую переменную преобразовать в числовую? 23) Можно ли объединять несколько критериев отбора 24) Какая команда позволяет вычислить новую переменную? 25) Как создать переменную, которая принимает случайные целочисленные значения? 26) Какие диаграммы показывают скошенность распределения? 27) Как графически определить моду распределения? 28) Как графически найти выбросы и экстремальные значения? 29) Как графически сравнить дисперсии в разных группах? 30) Как графически сравнить средние в разных группах? 31) Как осуществить проверку гипотезы о симметричности распределения? 32) При проверке статистических гипотез нулевая гипотеза отвергается или принимается, альтернативная гипотеза отвергается или принимается? 33) Как осуществить проверку гипотезы о нормальности распределения 34) На основании каких статистик и графиков проверяется гипотеза о нормальности распределения 35) На основании каких статистик и графиков проверяется гипотеза об однородности дисперсии 36) Какие преобразования можно выбрать для стабилизации дисперсии 9 37) При каких обстоятельствах невозможна проверка однородности дисперсии? 38) Когда обязательно задание переменной в списке Factor List диалога Explore 39) Какая команда используется для сравнения средних значений переменных? 40) Какие статистики рассчитываются в одновыборочном тесте, в парном тесте и в тесте для независимых выборок? 41) Для чего используется тест Ливиня при сравнении средних? 42) На основании значимости какого теста принимается решение о равенстве/неравенстве средних? 43) При сравнении средних доверительные интервалы строятся для среднего значения или для разности средних значений? 44) Какие проценты можно рассчитать в таблице сопряженности? 45) Чем отличаются наблюдаемые и ожидаемые значения в таблице сопряженности? 46) Как посчитать количество степеней свободы при анализе таблицы сопряженности из трех строк и четырех столбцов? 47) Зависимая и независимая переменная в таблице сопряженности. Как располагаются эти переменные – какая из них располагается по строкам, а какая по столбцам? Принципиален ли порядок расположения переменных? 48) Какой тест применяется при анализе таблиц сопряженности? 49) Какова нулевая гипотеза при применении теста chi-квадрат? 50) Каковы условия применимости теста chi-квадрат? 51) На основании чего принимается решение при анализе теста chi-квадрат? 52) Какой график показывает зависимость переменных? 53) Нулевая гипотеза при расчете коэффициентов корреляции. 54) Линейная зависимость переменных. Оценка коэффициентов уравнения регрессии. 55) Оценка остатков. 56) Зависимость переменных какой шкалы можно исследовать с помощью метода бинарной логистической регрессии? 57) Как оценивается качество приближения бинарной логистической регрессионной модели? 58) Какой из двух кодировок зависимых переменных соответствует рассчитанная вероятность р? 10 59) Чем отличается модель бинарной логистической регрессии от модели мультиномиальной логистической регрессии? 60) Кластерный анализ-цель? 61) Чем должны обладать члены одной группы (одного кластера)? 62) Для определения, какое количество кластеров следовало бы считать оптимальным, решающее значение имеет показатель, выводимый под заголовком? 63) Факторный анализ это процедура, с помощью которой …..? 64) Какой смысл имеет значение, показанное в столбце «% Дисперсии» таблицы «Полная объясненная дисперсия»? VII. Методические указания студентам: Методические указания студентам приводятся в вариантах классных заданий и задания эссе. Автор программы: _____________________________/Белоусова С.Н../ Автор программы: _____________________________/Бессонова И.А./ 11