КАФЕДРА МАТЕМАТИЧЕСКИХ МЕТОДОВ ИССЛЕДОВАНИЯ ЭКОНОМИКИ Курсовая работа по дисциплине “Эконометрика” Тема: Эконометрическая модель уровня образования РФ и её анализ. Выполнила студентка 130- 2 группы 2 курса факультета очно-заочного обучения Утимишева Анна Геннадьевна _________________________________ (подпись) Научный руководитель: старший преподаватель Анисифоров Б. А. _____________________ (оценка) _____________________ (дата защиты) _____________________ (подпись) Санкт-Петербург 2015 г. СОДЕРЖАНИЕ Введение ........................................................................................................... 3 Глава 1. эконометрические модели образования РФ .................................... 1.1 ..................................................................................................................... 1.2. ................................................................................................................... 1.3. ................................................................................................................... ЗАКЛЮЧЕНИЕ ................................................................................................. Библиография .................................................................................................... Приложение А ................................................................................................... Приложение Б .................................................................................................... Приложение В.................................................................................................... Введение. Для составления модели уровня жизни населения выбрана модель множественной линейной регрессии с тремя факторами y – число студентов, обучающихся по программам бакалавриат, специалитета, магистратуры (тыс. человек) x1 – ВРП, млн. руб. x2 – число образовательных организаций высшего образования x3 – численность профессорского-преподавательского персонала в высшем образовании х4 - число персональных компьютеров используемых в учебных целях (на 1000 студентов) х5 -численность занятых в экономике с высшим и средним проф. образованием Глава 1. Выбор экономических факторов, построение модели. 1.1. Построение выборочных парных линейных регрессий результативного признака y для каждого из k = 3 факторов, yi a1 b1 xi1 , yi a2 b2 xi 2 , …, yi ak bk xik . Построение выборочных парных линейных регрессий выполняется для предварительного отбора наиболее существенных факторов, с помощью функции «ЛИНЕЙН», а также с помощью анализа данных (Данные - анализ данных – регрессия) (см. приложение 1. П. 1.1) Регрессия y на x1: y = 0,0353·x1 + 22021, R² = 0,1012, ryx1 0,3181, F = 8,44 Регрессия y на x2 y = 0,21,171·x2 + 172136, R² = 0,8786, ryx2 0,93734, F=542.9 Регрессия y на x3 у = 10.992х3 + 486405 R² = 0,71 𝑟𝑦𝑥3 =0,8425, F = 183.5 В каждом случае выполнено построение поля корреляции, вычислены коэффициенты уравнения выборочной парной линейной регрессии, вычислены коэффициенты детерминации и корреляции, вычислены значеня F статистики, проверка статистической значимости коэффициентов регрессии a j , b j , j 1, k и уравнения регрессии в целом; Вывод. Частные парные регрессии показывают – что не все три фактора могут быть включены в модель множественной регрессии, т.к. коэффициент детерминации у одного из них меньше 0,3. (см. приложение 1, п.1.1) 1.2. Проверка мультиколлинеарности факторов. Для дальнейшей работы с данными, нам нужно убедиться в том, что в модели отсутствует мультиколлинеарность. Мультиколлинеарность — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами xi , совместно воздействующими на результирующий признак y, которая затрудняет оценивание регрессионных параметров и разделение влияния объясняющих факторов на поведение зависимой переменной. Оценки параметров регрессии a, bi и коэффициентов корреляции ryxi , rxi y j оказываются нестабильными как в отношении статистической значимости, так и по величине и знаку (например, коэффициентов корреляции). Следовательно, они ненадежны. При этом значение коэффициента детерминации R2 может быть высоким, свидетельствуя об адекватности модели. Для проверки появления мультиколлинеарности вычисляются матрицы коэффициентов корреляции (частной) для всех объясняющих переменных. Если коэффициенты корреляции между отдельными объясняющими переменными велики rxi y j 0, 7 , то они коллинеарны. Признаком мультиколлинеарности может быть близость к нулю матрицы X T X 0 . Однако не существует точных критериев, в соответствии с которыми можно установить наличие или отсутствие мультиколлинеарности отрицательно влияющей на качество выбранной модели регрессии. (см. приложение 1 п.1.2) 1.3. Построение корреляции. матрицы Q выборочных коэффициентов Для выявления коррелированных факторных переменных с помощью функции КОРРЕЛЯЦИЯ Пакета Анализа составляется расширенная корреляционная матрицу Q . Расширенная матрица выборочных коэффициентов корреляции для результативного признака y и трех переменных x1 , x2 , x3 имеет вид: 1 ryx1 Q ryx2 r yx3 ryx1 ryx2 ryx3 1 rx1x2 rx1x3 rx2 x1 1 rx2 x3 rx3x1 1 rx3x1 Матрица выборочных межфакторных коэффициентов корреляции имеет вид: 1 rx1x2 rx1x3 Q rx2 x1 1 rx2 x3 rx x rx x 1 3 2 31 Вывод. После выполнения пунктов 1.1, 1.2, 1.3 можно сделать анализ результатов и предварительный отбор факторов для включения их в модели множественной регрессии. (см. приложение 1, п.1.3) 1.4. регрессии Вычисление коэффициентов выборочной множественной yi a b1 xi1 b2 xi 2 ... bk xik . С помощью функции «ЛИНЕЙН» с двумя факторными переменными. (см. приложение 1, п.1.4) Глава 2. Проверка качества модели. 2.1. Вычисление множественного коэффициента детерминации R2 и скорректированного (исправленного) коэффициента детерминации R2 , сделать вывод об адекватности модели. Множественный коэф. Детерминации и скорректированный коэф. Детерминации имеют значения, близкие к единице, что говорит об адекватной модели. (см. приложение 1 п.2.1) 2.2. Вычисление остатков ei yi yi и проверка гипотезы о нормальном законе распределения остатков. (см. приложение 1. П.2.2) 2.3. Вычисление средней ошибки аппроксимации A 1 n yi yi 100% n i 1 yi A . (в п.1.4) =0,26% Ошибка аппроксимации имеет очень низкое значение, что говорит о хорошо подобранной модели уравнения. (см. приложение 1, п.2.3) 2.4. Проверка статистической значимости коэффициентов множественной регрессии и уравнения регрессии в целом пройдена. Все коэф. Регрессии статистически значимы (см. приложение 1, п.2.4) 2.5. Построение доверительных интервалов для статистически значимых коэффициентов регрессии. Доверительные интервалы для параметров a и b с заданным уровнем доверия, в качестве которого на практике обычно выбирают вероятность 0,95 (соответствующую уровню значимости 0.05 или 5%). I a (a matтабл ; a matтабл ) ma – стандартная ошибка коэффициента регрессии a; tтабл – критическое значение для заданного уровня значимости и заданного числа степеней свободы n 2. I b (b mbtтабл ; b mbtтабл ) ; mb – стандартная ошибка коэффициента регрессии b. 2.6. Построение расширенной матрицы выборочных коэффициентов корреляции Q . Вычисление частных коэффициентов корреляции между факторами rxi x j |x1...xi 1xi 1...x j 1x j 1...xk Вычисление выборочных коэффициентом частной корреляции между зависимой переменной y и объясняющей переменной xj – ryxi |x1... xi 1xi 1... xk . (Выполнено в п.1.3) Вывод. На основании анализа пунктов 4 – 10 можно сделать выводы о том, что модель адекватна, но присутствовала мультиколлинеарность, вследствие чего пришлось выполнить отбор факторов исключением одного из них (с сильной межфакторной корреляционной зависимостью). 2.7. Пошагоый отбор наиболее существенных переменных в модели множественной линейной регрессии с использованием скорректированных коэффициентов детерминации R2 и частных F- статистики. Т.к. в исследовании осталось всего 2 факторных переменных, и в первую очередь была включена та, которая имеет наибольшую корреляцию с результирующим признаком, проводить отбор нецелесообразно, потому что. в любом случае, второй фактор, который в наименьшей степени влияет на результирующий, будет включён после включения первого. (см. приложение 1, п.2.7) 2.8. Проверка гипотезы о гомоскедастичности наблюдений по методу Голдфелда-Квандта и теста Спирмена. Теоретические предпосылки. Постоянство дисперсии случайных ошибок регрессионной модели независимо от наблюдения называется гомоскедастичностью. Гетероскедастичность свойство дисперсии случайных ошибок регрессионной модели противоположное гомоскедастичности. Гетероскедастичность означает неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность неизвестных параметров. существенно снижает качество оценок Теста Голдфелда-Квандта предполагает: - возмущения i являются нормально распределенными случайными величинами; - отсутствует автокорреляция возмущений; - средние квадратические отклонения возмущений пропорциональны значениям объясняющей переменной ( i ) прямо xi , что часто встречается на практике и означает постоянство относительного разброса возмущений (а не абсолютного, как предполагается в классической модели). Тест состоит в следующем. 1. Все наблюдения упорядочиваются в порядке возрастания значения объясняющей переменной. 2. Полученная упорядоченная выборка разбивается на три части: первая и последняя части содержат по l наблюдений, средняя часть состоит из m = n - 2l наблюдений. Далее рассматриваются только две части: первая часть l наблюдений (с небольшими значениями объясняющей переменной) и третья часть l последних наблюдений (с большими значениями объясняющей переменной), а m центральных наблюдений исключаются из рассмотрения. 3. Оцениваются отдельные регрессии для первой ( l первых наблюдений) и второй ( l последних наблюдений) частей. В этом случае гипотеза гомоскедастичности равносильна тому, что значения остатков для первых и последних наблюдений представляют выборку значений нормально распределенных случайных величин, имеющих одинаковые дисперсии. Но, если верно предположение о пропорциональности дисперсий значениям объясняющей переменной (т.е. предположение о гетероскедастичности), то дисперсия (сумма квадратов остатков) для первой части будет существенно меньше дисперсии (суммы квадратов остатков) для второй части наблюдений. 4. Для сравнения дисперсий строится статистика l F ( yi yi )2 i 1 l i n l 1 ( yi yi ) 2 2 Sост 1 2 Sост 2 5. Если гипотеза гомоскедастичности верна, то распределение Фишера со F – статистика имеет степенями свободы 1 2 l k 1. Для заданного уровня значимости по таблицам распределения ФишераСнедекора определяется значение как критическая точка, Fтабл ( Fкр ) соответствующая 1 2 l k 1 степеням свободы (k – число факторов). Тогда: 1. Если F Fтабл , то гипотеза об отсутствии гетероскедастичности отклоняется; 2. Если F Fтабл , то гипотеза об отсутствии гетероскедастичности не отклоняется. Для парной регрессии обычно предлагаются следующие размеры подвыборок: для n = 30 значение l = 11; для n = 60 значение l = 22 . Тест Голдфелда-Квандта может использоваться и в случае предположения об обратной пропорциональности между дисперсией возмущений и значениями объясняющей переменной, при этом статистика F имеет вид n ( yi yi ) 2 S2 2 F i nl l 1 ост 2 Sост 2 1 ( y y ) i i i 1 В случае множественной регрессии данный тест может проводиться для каждой объясняющей переменной по отдельности. Проверка гипотезы о гомоскедастичности с помощью теста Спирмена. Идея теста состоит в том, что в случае гетероскедастичности ei абсолютные величины остатков возмущений) переменной будут (которые являются оценками коррелировать со значениями объясняющей xi . xi Для проверки этого факта значения и ei , упорядочиваются по величине (ранжируются) и для каждого значения определяется ранг — его номер в ранжированном ряде. Далее находится коэффициент ранговой корреляции rx e . Вычислите коэффициент ранговой корреляции Спирмена по формуле n rxe 1 где 6 di2 i 1 3 n n , di rang ( xi ) rang (ei ) Проверьте статистическую значимость корреляции с помощью выборочной статистики trxe коэффициента ранговой rxe n 2 1 rxe2 Статистика trxe распределена по закону Стьюдента с n – 2 степенями свободы. Для выбранного уровня значимости распределения Стьюдента с n – 2 = 0,05 степенями свободы определяется по таблице tтабл , критическая точка, соответствующая двусторонней критической области. Тогда: как 1) Если trxe tтабл , то гипотезу о равенстве нулю коэффициента ранговой корреляции отклоняется, коэффициент корреляции статистически значим и, следовательно, отклоняется гипотеза об отсутствии гетероскедастичности, наблюдения гетероскедастичны; 2) Если trxe tтабл , то гипотеза об отсутствии гетероскедастичности не отклоняется, коэффициент корреляции статистически отличается от нуля, наблюдения гомоскедастичны. незначимо Если в модели несколько объясняющих переменных, то проверка гипотезы может осуществляться для каждой из них по отдельности. (см. приложение 1, п.2.8) Глава 3. Анализ результатов эконометрического исследования и построение прогноза. 3.1. Вычисление стандартизованных коэффициентов регрессии и частных коэффициентов эластичности. bi' bi S xi Sy , Эi bi xi , i 1, k y (см. приложение 1, п.3.1) 3.2. Построение точечного прогноза y p для значений переменных на 30% превышающих их средние значения. (см. приложение 1, п.3.2) 3.3. Результаты множественного регрессионного помощью Пакета Анализа. (см. приложение 1, п.3.3) анализа с Отчет должен быть представлен в печатном и электронном виде. Электронный вариант должен включать два файла – WORD и EXCEL. Используемая литература: 1. . 2. Гмурман В.Е. Рук к реш зад по теор верей и мат стат. М. Высшая школа. 2003. – 405 с. 3. Разгуляева Л.Н., Панкратова Я.Б. Теория вероятностей и математическая статистика. СПб, МБИ. – 2010. – 259 с. 4. Электронный учебно-методический комплекс по дисциплине «Теория вероятностей и математическая статистика». 5. Конспект лекций. Задание принял к исполнению ……………………………………… года Студент ……… ………………………………………..………….. Приложение 1. Исходные данные: С помощью пакета анализа, находим регрессии по 3 факторным переменным: Регрессия x1 на y Регрессия x2 на y Регрессия x3 на y Регрессия x4, х5 на y Вывод. Частные парные регрессии показывают - факторы х1,х2 и х3 могут быть включены в модель множественной регрессии, т.к. коэф. детерминации > 0,9, а факторы х4 и х5 имеют очень маленький коэф. Детерминации <0,9, поэтому мы их не будем включать в модель множественной регрессии. 1.2 …. 1.3 1.4 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 3.1 3.3 .