ЛЕКЦИЯ 10 y = ax+b РЕГРЕССИОННЫЙ АНАЛИЗ 10.1. Общее представление о регрессии Основные типы зависимостей в Природе: Функциональные 2 (например, S = πr ); Корреляционные (=статистические) Корреляционная зависимость: одному значению Х соответствуют несколько значений Y -1 R +1 Зная коэффициент корреляции, исследователь не может предсказать, чему в среднем будет равен признак y при заданном значении признака x Для предсказания средних значений признака y необходимо знать вид его функциональной зависимости от x: y f (x) Простейший случай функциональной зависимости: y=x ЧИСЛО ГОДОВЫХ КОЛЕЦ ВОЗРАСТ Более сложный вариант зависимости: y = bx ДЛИНА СТВОЛА Y = 1.5X Y = 0.5X ВОЗРАСТ Еще более сложный вариант зависимости: y = a + bx A → (P) y = 20 + 15x АРТЕРИАЛЬНОЕ ДАВЛЕНИЕ y = 40 + 7.5x B → (Q) 40 y = 20 + 7.5x B → (P) 20 ДОЗА, мкг Общий вид прямолинейной зависимости (уравнение регрессии) y = а +bx a=0 y = bx y=x a = 0, b=1 b – коэффициент регрессии Термин «регрессия» ввел Ф. Гальтон При изучении наследования количественных признаков обнаружил, что у потомства и низкорослых, и высокорослых родителей эти признаки отклоняются (регрессируют) на 1/3 в сторону от среднего уровня у родителей. Обозначения: х – независимая переменная (independent variable); – зависимая переменная (dependent variable) y у|х - набор значений у, соответствующих определенному значению x Необходимо запомнить! Независимая переменная не обязательно полностью и однозначно определяет другую, зависимую переменную. Задачи регрессионного анализа: Выразить любую форму корреляционной связи функционально; Рассчитать коэффициенты регрессионного уравнения и оценить их статистическую значимость. 10.2. Оценка параметров регрессионного уравнения по выборке Распределение марсиан по росту Распределение по весу: μ = 12 г σ = 2,5 г Гланц, 1999 Гланц, 1999 Связь между ростом и весом марсиан Средний вес марсиан определенного роста связан с последним линейной зависимостью. μy|x = α + βх β = 0,5 α = -8,0 μy|x= -8,0 + 0,5х Гланц, 1999 Значения веса при любом заданном значении роста распределены нормально (со средним μy|x и стандартным отклонением σy|x) μy|x σy|x = 1 г Гланц, 1999 Рассматриваемая регрессионная модель требует выполнения следующих условий: среднее значение μy|x линейно зависит от х для любого х значения у|х распределены нормально стандартное отклонение σy|x одинаково при всех значениях х. Случайная выборка объемом 10 из совокупности в 200 особей. Гланц, 1999 Такой эта выборка представляется исследователю, который не может наблюдать всю совокупность. Какова вероятность ошибочного заключения о наличии связи? Гланц, 1999 Обозначения выборочных оценок коэффициентов уравнения: a→α b→β уравнение регрессии: у = а + bх Какую прямую считать «наилучшей»??? Гланц, 1999 Как оценить разброс точек? Раньше для оценки разброса мы рассчитывали стандартное отклонение: s (x x) i n 1 2 Найдем вертикальные расстояния от каждой точки до прямой и возведем их в квадрат: (y i y y| x ) 2 Гланц, 1999 Сумма квадратов таких же отклонение от прямой IV меньше, чем от прямой III. Следовательно, прямая IV лучше описывает связь между признаками. Гланц, 1999 Метод наименьших квадратов (МНК): позволяет найти регрессионную прямую, сумма квадратов расстояний от которой до всех точек выборки минимальна. Расчет коэффициента регрессии по МНК: by| x ( y y )( x x ) i i 2 ( x x ) i Свободный член уравнения можно рассчитать проще: a y | x y by | x x Поскольку регрессионная прямая всегда проходит через точку с координатами ( x; y ) Для нашей выборки из 10 марсиан получаем: yˆ 6,0 0,44 x Гланц, 1999 10.3. Разброс значений вокруг регрессионной прямой Выборочная оценка разброса точек – остаточное стандартное отклонение: s y| x [ y ( a bx )] i i n2 2 Для выборки из 10 марсиан разброс равен ± 1,02 г 10.4. Стандартные ошибки коэффициентов регрессионного уравнения Еще одна выборка в 10 особей Гланц, 1999 Так вторую выборку видит исследователь. Тонкой линией показана прямая для генеральной совокупности. Гланц, 1999 Стандартная ошибка коэффициента регрессии y|x: [ ( yi y )( xi x )] ( yi y ) 2 ( xi x ) 2 (n 2) ( xi x ) 2 sby|x !!!! 2 Стандартные ошибки коэффициентов регрессионного уравнения легко рассчитываются с помощью статистических программ: Стандартные ошибки коэффициентов уравнения для первой выборки из 10 особей: sb = 0,068 sa = 2,53 10.5. Оценка статистической значимости регрессии Связь между признаками отсутствует: y b=0 x Случайная выборка может показать наличие связи: y H0 : β = 0 x Проверка гипотезы H0: β = 0 b t sb b t sb «Потренируемся» на марсианах… b = 0.44, а sb = 0,068 Тогда t = 0.44/0.068 = 6.47 Примем уровень значимости 0.001 (=0.1%) Для α = 0.001 и df = n – 2 = 8 критическое значение tα,df = 5.041 Поскольку t > tα,df , нулевую гипотезу об отсутствии связи следует отклонить. Гланц, 1999