ЛЕКЦИЯ 2 ТЕМА: НАЧАЛА РЕГРЕССИОННОГО АНАЛИЗА. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ. МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ. УСЛОВИЯ ГАУССА-МАРКОВА Понятие регрессии Регрессией в теории вероятностей и математической статистике называется зависимость среднего значения величины Y от значения другой величины X (или нескольких величин). Пусть изучается взаимозависимость двух количественных признаков. В результате n опытов или наблюдений получены пары чисел: (xi, yi), где i = 1, 2, ..., n. На основе предварительного анализа этих данных и с учётом самой природы признаков мы можем сделать предположение о некоторой линии связи y x f ( x, ) где под y x подразумевается среднее значение признака Y, соответствующее значению X = x, а под – совокупность варьируемых параметров. Например, если диаграмма рассеивания свидетельствует о линейной форме корреляции, то в качестве линии связи можно выбрать прямую y x ax b Вопрос состоит в том, как получить оценки коэффициентов a и b. 2 Метод наименьших квадратов Метод наименьших квадратов (МНК) состоит в минимизации суммы квадратов отклонений наблюдаемых значений количественного признака от теоретических значений того же признака, соответствующих некоторой гипотетической формуле. Например, для случая, когда в качестве линии связи выбирается прямая, минимизируется функция двух переменных: y y x ax b yi ax i b x n S (a, b) ( y i axi b) 2 min i 1 xi 3 Уравнение парной линейной регрессии Уравнение вида y x a * x b* в котором оценки коэффициентов a* и b* вычислены по статистическим данным методом наименьших квадратов, называется выборочным уравнением линейной регрессии Y по X. Эти оценки определяются формулами a* или xy x y x 2 ( x) 2 , b* y x 2 x xy x 2 ( x) 2 b* y a* x 4 Связь между коэффициентами корреляции и регрессии Сравнивая формулы для выборочных коэффициентов корреляции и регрессии, нетрудно убедиться, что a * xy x y 2 x y x rxy !!! Легко показать, что yx y y x rxy ( x x) Таким образом, линия регрессии проходит через точку ( x, y ) с угловым коэффициентом (коэффициентом регрессии), прямо пропорциональным коэффициенту корреляции. 5 Модель парной линейной регрессии Модель парной линейной регрессии имеет вид y i ax i b i (i 1, ..., n) где xi – детерминированная (неслучайная) величина; i – случайная величина (ошибка регрессии), вызывающая отклонение значения yi от точной линейной функции; a и b – неизвестные параметры линейной функции регрессии. 6 Предположения относительно ошибки регрессии 1-ое условие Гаусса-Маркова Относительно ошибки регрессии i принимаются следующие допущения. Во-первых, считается, что эта величина имеет нормальное распределение, причём её математическое ожидание равно нулю: M ( i ) 0 Иначе говоря, ошибка регрессии считается случайной (не систематической) ошибкой. 7 2-ое условие Гаусса-Маркова Дисперсия ошибки во всех наблюдениях считается одинаковой: Y D ( i ) M ( i2 ) 2 Это свойство называется гомоскедастичностью. (верхний рисунок) Противоположное свойство называется гетероскедастичностью (нижний рисунок) X Рис.3 а Y X Рис.3 б 8 3-е условие Гаусса-Маркова Считается, что ошибки разных наблюдений некоррелированы: ( i , j ) M ( i j ) M ( i )M ( j ) M ( i j ) 0, i j Если свойство некоррелированности ошибок не выполняется, то говорят об автокорреляции остатков. Y X Рис.3 в На рисунке представлен случай автокорреляции остатков. Здесь ковариация ( i , i 1 ) 0 и ошибки регрессии в соседних (по Х) точках, как правило, имеют одинаковый знак. 9 Свойства оценок МНК Выборочные коэффициенты a* и b*, получаемые методом наименьших квадратов, являются несмещёнными, состоятельными и эффективными оценками параметров линейной регрессии (при выполнении условий Гаусса-Маркова). Несмещённая оценка имеет такое же математическое ожидание, как и сама оцениваемая величина. Состоятельная оценка улучшает свою точность с увеличением объёма выборки. Эффективной считается оценка, имеющая наименьшую дисперсию. 10