Множественный линейный корреляционно-регрессионный анализ ПРОДОЛЖЕНИЕ Корреляционный анализ, разработанный К. Пирсоном и Дж. Юлом, является одним методов статистического анализа взаимозависимости нескольких признаков (случайных величин). Одним из основных показателей взаимозависимости двух случайных величин является парный коэффициент корреляции, служащий мерой линейной статистической зависимости между этими величинами. Следовательно, этот показатель соответствует своему прямому назначению, когда статистическая связь между соответствующими признаками в генеральной совокупности линейна. То же самое касается частных и совокупных коэффициентов корреляции. Одним из требований, определяющий корреляционный метод, является требование линейности статистической связи и нормальность. Множественная линейная регрессия В случае, когда коэффициент детерминации мал (степень этого определяется самим исследователем) возникает вопрос об улучшении качества модели за счет введения новых регулируемых переменных, приходя к линейной модели вида y=b0+b1x1+b2x2+…+akxk, где x1,x2, …, xk – входные переменные, либо за счет усложнения модели, делая ее квадратичной, логарифмической, показательной, то есть, выбирая ее в виде: y a 0 a 1x , 2 либо y a 0 loga 1 x, либо a1 y a0 x , Рассмотрим случай двух независимых переменных. Предположим что, зависимость между переменными имеет вид y=b0+b1x1+b2x2 (1) где переменные x1 и x2 принимают заданные фиксированные значения, причём между переменными x1 и x2 нет линейной зависимости. Результаты наблюдений (x1i, x2i, yi), i=1, 2, …, n, представляются в виде yi=b0+b1x1i+b2x2i+εi . Оценки параметров модели (1) могут быть найдены по формуле b A A AT Y T 1 y1 где Y= y 2 - вектор наблюдений yn b0 b= b1 b n — вектор МНК — оценок параметров модели (1); 1 x 11 x 21 1 x 12 x 22 A= 1 x 1n x 2n Регрессивная матрица Предположим, что ошибки наблюдений εi независимы, имеют равные дисперсии и нормально распределены. В этом случае можно проверить гипотезу H0: b1=b2=0. Эта гипотеза позволяет установить, находятся ли переменные x1 и x2 во взаимосвязи с y. Статистикой критерия для проверки гипотезы H0 является отношение SS D / 2 F SS R /( n 3) Если выборочное значение этой статистики Fв> F1 (2, n 3) , то гипотеза H0 отклоняется; в противном случае следует считать, что взаимосвязи y с переменными x1 и x2 нет. Мультиколлинеарность входных переменных Рассмотрим такое неприятное явление для регрессионного анализа, как мультиколлинеарность независимых переменных. Мультиколлинеарностью называется наличие линейной связи между независимыми переменными, в нашем случае между X1 и X2. Мультиколлинеарность может проявляться в двух видах: в функциональной зависимости между X1 и X2, например X2=b0+b1X1, либо, наоборот. Определитель информационной матрицы равен нулю, т.е. матрица вырожденная. Такой вид мультиколлинеарности, как правило, встречается крайне редко. Гораздо чаще мультиколлинеарность наблюдается в стохастической форме. Оценку силы мультиколлинеарности можно произвести, вычислив коэффициенты корреляции между коэффициентами bi и bj .Для того, чтобы оценки коэффициентов были независимыми, необходимо, чтобы в матрице Фишера (XTX) только диагональные элементы были отличны от нуля. Пример. Данные, полученные из годовых отчетов десяти предприятий: Y – себестоимость товарной продукции (млн. руб.), X1 – объём валовой продукции (млн. руб.) и X2 производительность труда (тыс. руб. на чел.). Таблица 1. Данные по 10 предприятиям Y 2,1 2,8 3,2 4,5 4,8 4,9 5,5 6,5 12,1 15,0 X1 3 4 5 5 5 5 6 7 15 20 X2 1.8 1,5 1,4 1,3 1,3 1,5 1,6 1,2 1,3 1,2 Проведём корреляционный анализ Раскрываем окно электронной таблицы и вводим числовые данные. Для обозначения переменных последовательно маркируем колонки и щелчком правой кнопки мышки вызываем меню, из которого выбираем пункт Modify column, где вводим нужные имена столбцов (колонок). Сохраняем файл под именем, например, factory (в нашей демоверсии нет такой возможности). Получаем таблицу 1, представленную на рис.1. Появляется рабочее поле анализа множества переменных со сводкой, в которой подтверждается, что три переменные (по 10 наблюдений в каждой) приняты к обработке. Нажимаем кнопку табличных опций (вторая слева в нижнем ряду) и выбираем Correlations. На экране выдаётся таблица корреляций. В данной таблице первое число является коэффициентом корреляции Пирсона, второе (под первым) представляет количество наблюдений, третий уровень значимости Таблица 2. Таблица корреляций (Correlations) X1 X1 X2 Y -0.5650 (10) 0.0888 0.9872 (10) 0.0000 X2 -0.565 (10) 0.0888 -0.6050 (10) 0.0639 Y 0.9872 (10) 0.0000 -0.6050 (10) 0.0639 Correlation Из полученных данных следует, что очень сильная положительная связь наблюдается между переменными Y (себестоимость товарной продукции) и X1 (объём валовой продукции). Степень доверия к этой связи, исходя из уровня значимости, почти 100%. Другие связи менее выражены, но, однако заслуживают внимания, т.к. доверие к ним более 90% (р<0.1). Это отрицательная связь Y c X2 (производительность труда) и отрицательная связь X1 и X2. Можно построить диаграммы рассеивания на плоскости, образуемых различными парами переменных. Для этого нажимаем кнопку графических опций (третья слева в нижнем ряду) и устанавливаем флажок Scatterplot Matrix (матрица рассеивания) (см. рис 1.). Получаем графическое отображение (см. рис. 2). Рис. 1. Устанавливаем флажок Scatterplot Matrix Рис. 2. Диаграммы рассеивания на плоскости Multiple Regression Analysis Множественный регрессионный анализ Зависимая переменная: Y Parameter Estimat Standard T Statistic (T – (Параметры) (Оценки) Error статистика) CONSTANT 0,367639 0,388886 0,945365 X1 0,818195 0,065241 12,5411 X2 -0,146225 0,107285 -1,36296 P-Value (P –значение) 0,3760 0,0000 0,2151 Analysis of Variance (Дисперсионный анализ) Source (источник) Model Residual Sum of Df Mean Squares Square 153,555 2 76,7775 3,14905 7 0,449864 F-Ratio P-Value 170,67 0,0000 Total (Corr.) 156,704 9 R-squared = 97,9904 percent R-squared (adjusted for d.f.) = 97,4163 percent Standard Error of Est. = 0,670719 Mean absolute error = 0,496893 Durbin-Watson statistic = 0,963907 R-squared = 97,9904 процента R-squared (откорректированный для d.f.) = 97,4163 процента Стандартная Ошибка Оценки. = 0,670719 Средняя{Скупая} абсолютная погрешность = 0,496893 Durbin-Уотсон, статистический = 0,963907 The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between Y and 2 independent variables. The equation of the fitted model is Y = 0,367639 + 0,818195*X1 - 0,146225*X2 Since the P-value in the ANOVA table is less than 0.01, there is a statistically significant relationship between the variables at the 99% confidence level. The R-Squared statistic indicates that the model as fitted explains 97,9904% of the variability in Y. The adjusted Rsquared statistic, which is more suitable for comparing models with different numbers of independent variables, is 97,4163%. The standard error of the estimate shows the standard deviation of the residuals to be 0,670719. This value can be used to construct prediction limits for new observations by selecting the Reports option from the text menu. The mean absolute error (MAE) of 0,496893 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the DW value is less than 1.4, there may be some indication of serial correlation. Plot the residuals versus row order to see if there is any pattern which can be seen. In determining whether the model can be simplified, notice that the highest P-value on the independent variables is 0,2151, belonging to X2. Since the P-value is greater or equal to 0.10, that term is not statistically significant at the 90% or higher confidence level. Consequently, you should consider removing X2 from the model. 95,0% confidence intervals for coefficient estimates. СтатКонсультант Консультант показывает результаты построения множественной линейной регрессии, чтобы описать отношения между Y и 2 - мя независимыми переменными. Уравнение регрессионной модели имеет вид Y = 0,367639 + 0,818195*X1 - 0,146225*X2. Так как P-значение в ANOVA таблице меньше чем 0.01, есть a статистически существенные отношения между переменными в 99% - ый уровень надёжности. R-Squared статистический указывает долю дисперсии зависимой переменной, обусловленную изменением независимых переменных, т.е. 97,9904 % изменчивости в Y. Отрегулированный R-squared статистический, который является более подходящим для того, чтобы сравнить модели с различным числом независимых переменных, являются 97,4163 %. Стандартная ошибка оценка показывает стандартное отклонение ошибок, чтобы быть 0,670719. Эта ценность может использоваться, чтобы строить пределы предсказания для новых наблюдений, выбирая опцию Сообщений отменю текста. Средняя абсолютная ошибка (БОЛЬШЕ) 0,496893 средняя ценность остатков. Durbin-Уотсон (СОБСТВЕННЫЙ ВЕС) статистические испытания остатков к определите, есть ли любая существенная корреляция, основанная на заказе {порядке} в котором они происходят в вашем файле данных. Так как ценность СОБСТВЕННОГО ВЕСА – меньше чем 1.4, может быть некоторый признак последовательной корреляции. График остатков против ряда заказывают, чтобы видеть, есть ли любой образец который может быть замечен. Заметим, что построенная модель может быть упрощена, так как самое большое P-значение для независимых переменных – 0,2151, принадлежит X2. Если P-значение больше или равна 0.10, то элемент – статистически несущественный в 90%-ом или более высокий уровень надёжности. Следовательно, Вы должны рассмотреть удаление X2 из модели. доверительные интервалы на 95,0 % для оценок коэффициента. Lower Parameter Standard Error Upper Limit Estimate Limit CONSTANT 0,367639 0,388886 -0,551933 1,28721 X1 0,818195 0,065241 0,663924 0,972466 X2 0,146225 0,107285 -0,399915 0,107465 Мультиколлинеарность Матрица корреляции для оценок коэффициентов модели CONSTANT X1 X2 CONSTANT 1,0000 -0,7208 0,2975 X1 -0,7208 1,0000 -0,7824 X2 0,2975 -0,7824 1,0000 СтатКонсультант Эта таблица показывает оцененные корреляции между коэффициентами в построенной модели. Эти корреляции могут использоваться, чтобы обнаружить присутствие серьезной мультиколлинеарности, то есть, корреляция среди переменных. В этом случае, есть одна корреляция с абсолютное значение больше чем 0.5 (исключая постоянный элемент CONSTANT). ПРОДОЛЖЕНИЕ СЛЕДУЕТ