Lect10

advertisement
ЛЕКЦИЯ 10
y = ax+b
РЕГРЕССИОННЫЙ
АНАЛИЗ
10.1. Общее представление
о регрессии
Основные типы зависимостей
в Природе:
Функциональные
2
(например, S = πr );
 Корреляционные
(=статистические)

Корреляционная зависимость:
одному значению Х соответствуют
несколько значений Y
-1  R  +1
Зная коэффициент
корреляции, исследователь
не может предсказать, чему в
среднем будет равен признак
y при заданном значении
признака x
Для предсказания средних
значений признака y необходимо
знать вид его функциональной
зависимости от x:
y  f (x)
Простейший случай
функциональной зависимости:
y=x
ЧИСЛО
ГОДОВЫХ
КОЛЕЦ
ВОЗРАСТ
Более сложный вариант
зависимости:
y = bx
ДЛИНА
СТВОЛА
Y = 1.5X
Y = 0.5X
ВОЗРАСТ
Еще более сложный вариант зависимости:
y = a + bx
A → (P)
y = 20 + 15x
АРТЕРИАЛЬНОЕ
ДАВЛЕНИЕ
y = 40 + 7.5x
B → (Q)
40
y = 20 + 7.5x
B → (P)
20
ДОЗА, мкг
Общий вид прямолинейной
зависимости (уравнение
регрессии)
y = а +bx
a=0
y = bx
y=x
a = 0,
b=1
b – коэффициент регрессии
Термин «регрессия»
ввел Ф. Гальтон
При изучении наследования
количественных признаков
обнаружил, что у потомства
и низкорослых, и высокорослых родителей эти
признаки отклоняются
(регрессируют) на 1/3 в
сторону от среднего уровня
у родителей.
Обозначения:
 х – независимая переменная
(independent variable);
– зависимая переменная
(dependent variable)
y
 у|х
- набор значений у,
соответствующих определенному
значению x
Необходимо запомнить!
Независимая переменная
не обязательно полностью
и однозначно определяет
другую, зависимую
переменную.
Задачи
регрессионного анализа:
 Выразить
любую форму
корреляционной связи
функционально;
 Рассчитать коэффициенты
регрессионного уравнения и
оценить их статистическую
значимость.
10.2. Оценка параметров
регрессионного уравнения
по выборке
Распределение марсиан по росту
Распределение
по весу:
μ = 12 г
σ = 2,5 г
Гланц, 1999
Гланц, 1999
Связь между
ростом и весом
марсиан
Средний вес
марсиан
определенного
роста связан с
последним
линейной
зависимостью.
μy|x = α + βх
β = 0,5
α = -8,0
μy|x= -8,0 + 0,5х
Гланц, 1999
Значения веса
при любом
заданном
значении роста
распределены
нормально
(со средним μy|x
и стандартным
отклонением σy|x)
μy|x
σy|x = 1 г
Гланц, 1999
Рассматриваемая регрессионная
модель требует выполнения
следующих условий:
 среднее
значение μy|x линейно
зависит от х
 для любого х значения у|х
распределены нормально
 стандартное отклонение σy|x
одинаково при всех значениях х.
Случайная
выборка
объемом 10 из
совокупности
в 200 особей.
Гланц, 1999
Такой эта
выборка
представляется
исследователю,
который
не может
наблюдать всю
совокупность.
Какова
вероятность
ошибочного
заключения о
наличии связи?
Гланц, 1999
Обозначения выборочных оценок
коэффициентов уравнения:
a→α
b→β
 уравнение регрессии:

у = а + bх
Какую прямую
считать
«наилучшей»???
Гланц, 1999
Как оценить разброс точек?

Раньше для оценки
разброса мы
рассчитывали
стандартное
отклонение:
s
 (x  x)
i
n 1
2
Найдем
вертикальные
расстояния от
каждой точки до
прямой и
возведем их в
квадрат:
(y
i
 y y| x )
2
Гланц, 1999
Сумма квадратов
таких же
отклонение от
прямой IV меньше,
чем от прямой III.
Следовательно,
прямая IV лучше
описывает связь
между признаками.
Гланц, 1999
Метод наименьших квадратов
(МНК):
позволяет найти регрессионную
прямую, сумма квадратов
расстояний от которой до всех
точек выборки минимальна.
Расчет коэффициента регрессии
по МНК:
by| x
(
y

y
)(
x

x
)

i
i

2
(
x

x
)
 i
Свободный член уравнения
можно рассчитать проще:
a y | x  y  by | x x
Поскольку регрессионная прямая всегда
проходит через точку с координатами
( x; y )
Для нашей выборки из 10
марсиан получаем:
yˆ  6,0  0,44 x
Гланц, 1999
10.3. Разброс значений
вокруг регрессионной прямой
Выборочная оценка разброса точек –
остаточное стандартное
отклонение:
s y| x 
[
y

(
a

bx
)]
 i
i
n2
2
Для выборки из 10 марсиан разброс равен ± 1,02 г
10.4. Стандартные ошибки
коэффициентов
регрессионного уравнения
Еще одна выборка
в 10 особей
Гланц, 1999
Так вторую
выборку видит
исследователь.
Тонкой линией
показана прямая для
генеральной
совокупности.
Гланц, 1999
Стандартная ошибка
коэффициента регрессии y|x:
[ ( yi  y )( xi  x )]
 ( yi  y ) 
2
( xi  x )


2
(n  2) ( xi  x )
2
sby|x
!!!!
2
Стандартные ошибки коэффициентов
регрессионного уравнения легко
рассчитываются с помощью
статистических программ:
Стандартные ошибки коэффициентов
уравнения для первой выборки
из 10 особей:
sb = 0,068
sa = 2,53
10.5. Оценка статистической
значимости регрессии
Связь между признаками
отсутствует:
y
b=0
x
Случайная выборка может
показать наличие связи:
y
H0 : β = 0
x
Проверка гипотезы H0: β = 0
b
t
sb
b
t
sb
«Потренируемся» на марсианах…
b = 0.44, а sb = 0,068
 Тогда t = 0.44/0.068 = 6.47
 Примем уровень значимости 0.001
(=0.1%)
 Для α = 0.001 и df = n – 2 = 8
критическое значение tα,df = 5.041
 Поскольку t > tα,df , нулевую гипотезу
об отсутствии связи следует
отклонить.

Гланц, 1999
Download