Тема 3. Множественная регрессия и корреляция 1 Спецификация модели • Цель множественной регрессии: – Построить модель с большим числом факторов, определив влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый фактор. • Спецификация модели включает в себя два круга вопросов: - отбор факторов; - выбор вида уравнения регрессии. 2 1 Отбор факторов • Требования к включаемым факторам: – количественно измеримы; – не находиться в точной функциональной связи или быть сильно коррелированы. • Пример • y - себестоимость единицы продукции • x – заработная плата работника • z – производительность труда rxz 0,95 y 22600 5 x 10 z 3 • Два этапа отбора факторов: – подбираются факторы исходя из сущности проблемы; – на основе корреляционной матрицы производится исключение части факторов • 1) Проверка парной корреляции. Принцип исключения факторов: – Если две переменные явно коллинеарны ( rxi x j 0,7 ), то одну из них исключаем. – Включаем фактор, имеющий наименьшую тесноту связи с другими факторами • 2) Оценка мультиколлинеарности факторов: – Проверка гипотезы H0: Det r=1, r11 r21 Det r ... r12 r22 ... ... r1 p ... r2 p ... ... rp1 rp 2 ... rpp 4 Пример • Дана матрица парных коэффициентов корреляции: y- зависимая переменная, x, z, u - независимые. y x z u y 1 0,8 0,7 0,6 x 0,8 1 0,9 0,5 z 0,7 0,9 1 0,2 u 0,6 0,5 0,2 1 5 2 Выбор формы уравнения регрессии • Линейная регрессия y a b1 x1 b2 x2 ... b p x p • Линеаризуемые регрессии – Степенная регрессия b1 b2 1 2 y ax x ...x bp p – Экспоненциальная регрессия a b1 x1 b2 x2 ... b p x p ye – Гиперболическая регрессия 1 y a b1 x1 b2 x2 ...bp x p 6 МНК для уравнения в обычном масштабе • Модель y a b1 x1 b2 x2 ... b p x p • Система нормальных уравнений y na b x 1 yx 1 1 b2 x2 ... bp x p a x1 b1 x b2 x1 x2 ...bp x p x1 2 1 ……………………… ……………… yx p a x p b1 x1 x p b2 x2 x p ...bp x 7 2 p МНК для уравнения регрессии в стандартизованном масштабе • Модель t y 1t x1 2t x2 ... pt x p t xi xi xi ty 2 x xi • Система нормальных уравнений 2 i y y y y 2 2 ryx 1 2 rx x 3rx x ... p rx x ryx 1rx x 2 3rx x ... p rx x 1 2 2 1 2 1 3 1 p 1 3 2 p 2 ……………………………………….. ryx 1rx p p x1 2 rx p x2 3rx p x3 ... p 8 Переход от стандартизованного уравнения к обычному • Связь между «чистыми» и «стандартизованными» коэффициентами регрессии i bi x xi 2 y2 y 2 2 i . a y b1 x1 b2 x2 ... bp x p . • Достоинство стандартизованных коэффициентов регрессии: сравнивая i , их можно ранжировать по силе воздействия на результат 9 Пример • y –издержки производства • x1- основные производственные фонды • x2- численность занятых в производстве y 200 1,2x1 1,1x2 • В стандартизованном виде t y 0,5t x1 0,8t x2 10 Частные уравнения регрессии • Частное уравнение регрессии связывает результативный фактор с фактором xi при фиксировании остальных экзогенных переменных yxi x1 , x2 ,..., xi 1 , xi 1 ,..., x p f ( xi ) • Вид частного уравнения для множественной линейной регрессии y x x , x ,..., x i 1 2 i 1 , xi 1 ,..., xp a b1 x1 b2 x2 ... bi 1 xi 1 bi xi bi 1 xi 1 ... bp x p 11 Частные уравнения регрессии yˆ x x , x ,..., x , x ,..., x Ai bi xi i 1 2 i 1 i 1 p • где Ai a b1 x1 ... bi 1 xi 1 bi 1 xi 1 ... bp x p • Частные уравнения регрессии характеризуют изолированное влияние фактора на результат при закрепленных остальных факторах на определенном уровне. 12 Средние показатели эластичности Э y xi xi bi y • Показывают на сколько % изменится в среднем y при изменении xi на 1 % от своего среднего уровня и неизменных (средних)значениях остальных факторов. 13 Частный коэффициент эластичности Эy bi xi xi yˆ x x , x ,..., x i 1 2 i 1 , xi 1 ,..., xp • Показывают на сколько % изменится y при изменении xi на 1 % от заданного значения, и средних значениях остальных факторов. 14 Пример • По ряду регионов величина импорта y на определенный товар относительно отечественного производства x1, изменения запасов x2 и потребления на внутреннем рынке х3 yˆ 66,028 0,135x1 0,476 x2 0,343x3 y 31,5 yˆ x x , x 1 2 3 x1 245,7 x2 3,7 x3 182,5 a b1 x1 b2 x2 b3 x3 1,669 0,135 x1 yˆ x x , x a b1 x1 b2 x2 b3 x3 29,739 0,476 x2 2 1 3 yˆ x x , x a b1 x1 b2 x2 b3 x3 31,097 0,343 x3 3 1 2 15 Частные коэффициенты эластичности Если, например, x1 160,2 ; x2 4,0; коэффициенты эластичности составят Эy b1 x1 x1 yˆ x x , x 1 Эy b2 x2 2 x2 yˆ x x , x 2 Эy b3 x3 3 1 3 x3 yˆ x x , x 3 1 2 x3 190,5 , то частные 160,2 0,135 1,084 1,669 0,135 160,2 4,0 0,476 0,06 29,739 0,476 4,0 190,5 0,343 1,908 31,097 0,343 190,5 16 Средние по совокупности эластичности Эy x1 x1 245,7 b1 0,135 1,053 y 31,5 Э y x2 x2 3,7 b2 0,476 0,056 y 31,5 Э y x3 x3 182,5 b3 0,343 1,987 y 31,5 17 Коэффициент множественной детерминации 2 ˆ y y x , x ,..., x 2 Ryx , x ,..., x 1 2 y y 1 1 2 2 p p y yˆ x , x ,..., x (n 1) n 1 2 1 1 (1 R ) 2 n p 1 y y (n p 1) 2 R 2 yx1 , x2 ,..., x p 1 2 p скорректированный коэффициент детерминации n число наблюдений p число параметров при переменных x 18 Коэффициент множественной детерминации для линейной зависимости R 2 yx1 , x2 ,..., x p i ryxi • Или Ryx1x2xP 1 r , r11 • где 1 ryx1 ryx1 1 ryx2 rx1x2 ryx p rx1x p r ryx1 rx2 x1 1 rx2 x p ryx p rx p x1 rx p x2 1 rx2 x1 rx1x2 1 rx1x3 rx2 x3 rx1x p rx2 x p r11 rx3 x1 rx3 x2 1 rx3 x p rx p x1 rx p x2 rx p x3 1 1 19 Частные коэффициенты корреляция Характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии ryxi x1x2 ... xi 1xi 1 ... x p ryxi x1x2 ... xi 1xi 1 ... x p 1 ryx p x1x2 ... xi 1xi 1 ... x p 1 rxi x p x1x2 ... xi 1xi 1 ... x p 1 (1 ryx2 p x1x2 ... xi 1xi 1 ... x p 1 )(1 rx2i x p x1x2 ... xi 1xi 1 ... x p 1 ) - рекуррентная формула. При p=2 ryx1x2 ryx1 ryx2 rx1x2 1 r 1 r 2 yx2 2 x1x2 ryx2 x1 ryx2 ryx1 rx1x2 1 r 1 r 2 yx1 2 x1x2 • Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. 21 Оценка надежности результатов множественной регрессии F- критерий F Dфакт Dост R n p 1 2 1 R p 2 . Мерой для оценки включения фактора в модель служит частный F -критерий Ryx2 1. .. xi ... x p Ryx2 1. .. xi 1xi 1 ... x p n p 1 Fxi 2 1 Ryx1. .. xi ... x p 1 22 F- критерий • Фактическое значение частного F-критерия сравнивается с табличным при уровне значимости и числе степеней свободы: 1 и n-p-1. Если фактическое значение Fx превышает Fтаб ( ,1, n p 1), то дополнительное включение фактора i xi в модель статистически оправданно и коэффициент bi чистой регрессии статистически значим. Если Fx Fтаб ( ,1, n p 1) , то дополнительное включение в модель фактора xi не увеличивает существенно долю объясненной вариации признака y , следовательно, нецелесообразно его включение в модель; коэффициент регрессии при данном факторе в этом случае статистически незначим. i 23 F- критерий • Для двухфакторного уравнения частные F -критерии имеют вид: Fx1 Ryx2 1x2 ryx2 2 1 R 2 yx1x2 n 3 Fx2 Ryx2 1x2 ryx21 1 R 2 yx1x2 n 3 24 t-критерий Стьюдента bi tbi mbi mbi y 1 Ryx2 1. .. x p x 1 Rx2 x i i 1. .. x p 1 n p 1 tbi Fxi 25 Пример • По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов x1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих x 2 (%). № предприятия y x2 x1 № предприятия y x2 x1 1 7 3,9 10 11 9 6 21 2 7 3,9 14 12 11 6,4 22 3 7 3,7 15 13 9 6,8 22 4 7 4 16 14 11 7,2 25 5 7 3,8 17 15 12 8 28 6 7 4,8 19 16 12 8,2 29 7 8 5,4 19 17 12 8,1 30 8 8 4,4 20 18 12 8,5 31 9 8 5,3 20 19 14 9,6 32 10 10 6,8 20 20 14 9 36 26 Пример • 1. 2. 3. 4. 5. Требуется Проанализировать линейные коэффициенты парной и частной корреляции. Написать уравнение множественной регрессии, оценить значимость его параметров, пояснить их экономический смысл. С помощью F – критерия Фишера оценить статистическую надежность уравнения регрессии и сравнить значения скорректированного и нескорректированного линейных коэффициентов множественной детерминации. С помощью F – критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора x1 после x 2 и фактора x 2 после x1. Рассчитать средние частные коэффициенты эластичности и дать на их основе сравнительную оценку силы влияния факторов на результат. 27 1. Проанализировать линейные коэффициенты парной и частной корреляции. Корреляция (матрица парных коэффициентов корреляции) y ryx2 x1 ryx1 x2 x1 y 1 x1 0,969881436 1 x2 0,940800036 0,942838898 ryx2 ryx1 rx1x2 (1 r )(1 r 2 yx1 2 x1 x2 (1 r )(1 r 1 0,324719298 ) ryx1 ryx2 rx1x2 2 yx2 x2 2 x1 x2 0,733529541 ) Следует исключить фактор x2 28 2. Написать уравнение множественной регрессии, оценить значимость его параметров, пояснить их экономический смысл. Коэффициенты Стандартная ошибка t-статистика 1,83530694 0,471064997 Переменная X 1 0,945947723 Переменная X 2 0,085617787 Y-пересечение Нижние 95% Верхние 95% 3,896080054 0,84144668 2,8291672 0,212576487 4,449917001 0,497450544 1,394444902 0,060483309 1,415560577 -0,041990838 0,213226413 у 1,835 0,946x1 0,086 x2 t=2,1 (СТЬЮДРАСПОБР(0,05;17)) 29 3. С помощью F – критерия Фишера оценить статистическую надежность уравнения регрессии и сравнить значения скорректированного и нескорректированного линейных коэффициентов множественной детерминации. Дисперсионный анализ Регрессионная статистика Множественный R R-квадрат Нормированный Rквадрат Наблюдения df SS MS F 0,973101182 0,94692591 0,9406819 20 Регрессия 2 108,7070945 54,35354726 Остаток 17 6,092905478 0,358406205 Итого 19 114,8 151,6534774 F=3,59 (FРАСПОБР(0,05;2;17)) 30 4. С помощью F – критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора x1 после x 2 и фактора x 2 после x1 . Fчаст x1 Ryx2 1x2 ryx2 2 1 Ryx2 1x2 (n 3) 19,8. Fчаст x2 Ryx2 1x2 ryx2 1 1 Ryx2 1x2 (n 3) 2. Ryx2 1x2 - нескорректированный коэффициент множественной регрессии («R-квадрат»). F=4,45 (FРАСПОБР(0,05;1;17)) 31 5. Рассчитать средние частные коэффициенты эластичности и дать на их основе сравнительную оценку силы влияния факторов на результат. Э yx j bj x y j . x1 0,9459. Э yx1 b1 y x 2 0,1989. b Э yx2 2 y 32