КЛАССИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ

advertisement
КЛАССИЧЕСКИЙ
РЕГРЕССИОННЫЙ АНАЛИЗ
ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ
Представление в матричном
виде
Матрица регрессоров
Матрица- столбец параметров модели
bT = ( b1, b2, … bk)
Вектор – столбец оценки измеряемой величины
• Основные предположения
Оценки параметров модели
методом наименьших квадратов
Введем обозначения
Свойства оценок параметров
Дисперсии предсказанного значения
Где fx – вектор регрессоров
Несмещенная оценка дисперсии
Статистический анализ качества
регрессионной модели
Последствия ошибок
• При недоборе параметров оценки
оказываются смещенными и
несостоятельными
• При переборе – оценки остаются
несмещенными, но при этом теряется
точность
Последствия ошибок
Истинная модель –
многочлен
3-го порядка
2.3710
 104.855 
6.644 
B
 38.716 
 4.804 


 100 
6 
b 
 40 
 5 


3
yi
H x i
 2.68310
3
5
xi
9.992
Линейная оценка
(недобор параметров)
2.3710
 259.468 

 65.268 
B
 100 
6 
b 
 40 
 5 


3
yi
Yi
 2.68310
3
5
xi
9.992
Квадратичная оценка
(недобор параметров)
2.3710
 225.117 
B   78.967 


 2.744 
 100 
6 
b 
 40 
 5 


3
yi
Yi
 2.68310
3
5
xi
9.992
Аппроксимация
многочленом 4-го
порядка – перебор
2.3710
 105.445 
 17.604 


B   39.381 
 4.19 


 0.061 
 100 
6 
b 
 40 
 5 


3
yi
Yi
 2.68310
3
5
xi
9.992
Сравнение моделей
3
3
2.3710
2.3710
yi
yi
Yi
Yi
3
2.3710
3
 2.68310
5
xi
3
 2.68310
5
9.992
yi
Yi
3
 2.68310
5
xi
9.992
xi
9.992
Статистический анализ
регрессионной модели
• Проверка гипотезы об адекватности
модели
• Проверка гипотезы о значимости
параметров модели
• Анализ остатков
• Построение доверительных интервалов
Проверка адекватности
модели
• Независимая оценка
дисперсии
Ìîäåëèðóåì âñïîìîãàòåëüíóþ âûáîðêó
N

n  round 
2
u  0  n  1
n  1  10
3
V  H( 0 )  s  w( rnd( 1 )  rnd( 1 ) )
u
Ïîëó÷èì íåçàâèñèìóþ îöåíêó äèñïåðñèè
sN  Stdev( V )
sN  984.657
Оценка остаточной дисперсии
Îñòàòêè
Îñòàòî÷íàÿ ñóììà êâàäðàòîâ
e  y  Y
i
i
Qост 
i
  ei 
i
×èñëî ñòåïåíåé ñâîáîäû
Îöåíêà äèñïåðñèè (îñòàòî÷íàÿ
äèñïåðñèÿ)
r  N  k
d 
Qост
r
2
Суммы квадратов отклонений
Ñóììà êâàäðàòîâ, îáóñëîâëåííàÿ óðàâíåíèåì ðåãðåññèè
QR 


Y  Yср
i
2
i
Äèñïåðñèÿ, îáóñëîâëåííàÿ ðåãðåññèåé
QR
Ïîëíàÿ ñóììà êâàäðàòîâ
Q 


y  yср
i
2
DR 
k1
Q  2.421  10
9
i
Ïðîâåðêà
QR  Qост  2.421  10
9
• Полная сумма квадратов равна
сумме квадратов,
обусловленных регрессией
плюс
сумма квадратов относительно
регрессии (остаточная сумма
квадратов)
Дисперсионное отношение
Фишера
2
sN  9.695  10
Íåçàâèñèìàÿ îöåíêà äèñïåðñèè
Äèñïåðñèîííîå îòíîøåíèå
Ôèøåðà
F 
d
5
F  1.085
2
sN
L  if  F  1  F 

1

F
L  1.085
Êðèòè÷åñêàÿ òî÷êà
Fc  qF( 0.95  N  k  n  1 )
Fc  1.095
Ôóíêöèÿ ïðèíÿòèÿ
ðåøåíèÿ
f  if L  Fc  "ADEQU"  "NO_ADEQU"

f  "ADEQU"

Проверка гипотезы о значимости
коэффициента детерминации
• Коэффициент детерминации
(множественной корреляции) в случае парной
регрессии (функция одной переменной)
равен квадрату коэффициента корреляции
между наблюдаемыми и предсказанными
значениями определяемой переменной.
• Он показывает, насколько лучше наша
модель описывает эксперимент по сравнению
со средним значением
3
4.08510
yi
Yi
y ср
3
 3.96610
5
xi
9.992
R  corr ( y  Y)
QR
2
R  0.365
R  0.133
Q
 0.133
Ñòàòèñòèêà êðèòåðèÿ -- îòíîøåíèå äèñïåðñèè, îáóñëîâëåííîé
ðåãðåññèåé ê îñòàòî÷íîé äèñïåðñèè:
2
F 
R (N  k)
1  R2 (k  1)
L  if  F  1  F 

1

F
Êðèòè÷åñêàÿ òî÷êà
Ôóíêöèÿ ïðèíÿòèÿ
ðåøåíèÿ
F  101.974
èëè
DR
d
 101.974
L  101.974
Ft  qF( 0.95  k  1  N  k )

Ft  2.609
f  if L  Ft  "NE_ZNATHIM"  "ZNATHIM"
f  "ZNATHIM"

Проверка гипотезы о значимости
коэффициентов модели
SB
Äèñïåðñèè îöåíîê
T
SB
 ( 39.047
9.942
m

2.945
C
m m
d
0.351 )
Çàäàåì óðîâåíü çíà÷èìîñòè è íàõîäèì êðèòè÷åñêóþ òî÷êó



tkr  qt  1 
 N  k
2


  0.05
tkr  1.961
Ðàññ÷èòûâàåì ñòàòèñòèêó êðèòåðèÿ äëÿ êàæäîãî
êîýôôèöèåíòà ìîäåëè
B
T
m

m
SB
m
T
T
 ( 3.72
2.515
15.903
17.962 )
Вв одим функцию принятия решения и находим ее
значение, на основании которой делаем выводы о
значимости коэффициентов. Если коэффициент
незначим, то соответс твующий член в модели
надо исключить.
Kr
m

 i f T
m

 tkr  "NeZnathi n" "Zn ath im"
 "Zn ath im"
"Zn ath im"

Kr 
 "Zn ath im"
 "Zn ath im"


Анализ остатков
Анализ остатков
3.25
1.92
ei
0.6
d
0.72
2.04
 3.367
3
 1.68810
3.37
Yi
Предсказанные значения
Анализ остатков
3
1.50310
3.247
Нормированные остатки
Нормированные остатки
3.247
3.25
1.92
ei
0.6
d
0.72
2.04
 3.367
5
3.37
xi
независимая переменная
9.992
Анализ остатков
1.92
ei
0.6
d
0.72
2.04
 3.367
3
 1.68810
3.37
Yi
Предсказанные значения
Анализ остатков
3.247
3.25
Нормированные остатки
Нормированные остатки
3.247
3
1.50310
3.25
1.92
ei
0.6
d
0.72
2.04
 3.367
5
3.37
xi
независимая переменная
9.992
Анализ остатков
Нормированные остатки
3.247
3.25
1.92
ei
0.6
d
0.72
2.04
 3.367
5
3.37
xi
независимая переменная
9.992
Неадекватная модель
Анализ остатков
Нормированные остатки
3.398
3.4
2.06
ei
0.73
d
0.61
1.94
 3.279
 628.073
3.28
Yi
Предсказанные значения
443.345
Доверительные интервалы для
предсказанного значения

1 


 
x 
2
 f ( x)   2 
3
x 

 x3 
 

Y2  Y  tkr 
i
i
 d f x T  C  f x 
 i  0  0
   i
Y1  Y  tkr 
i
i
 d  f  x  T  C  f  x  
i
i 0 0

2.59510
Доверительные интервалы для Y
3
4000
yi
2000
 Y1 i  0
Yi
Y2 i  0
6
4
2
0
2
4
6
8
10
H x i
2000
 3.14210
3
4000
5
xi
9.925
2.70210
Доверительные интервалы для Y
3
3000
2000
yi
 Y1 i  0
1000
Yi
Y2 i  0
6
H x i
4
2
0
2
4
6
8
10
1000
2000
 2.36210
3
3000
5
2.59510
xi
Доверительные интервалы для Y
3
4000
9.85
yi
2000
 Y1 i  0
Yi
Y2 i  0
6
4
2
0
2
4
6
8
10
H x i
2000
 3.14210
3
4000
5
xi
9.925
50 ТОЧЕК
1.57310
Доверительные интервалы для Y
3
2000
1000
yi
 Y1 i  0
Yi
6
4
2
0
2
4
6
8
10
Y2 i  0
1000
H x i
2000
 2.67810
3
3000
5
xi
9.7
Непараметрический
РЕГРЕССИОННЫЙ АНАЛИЗ
• Сглаживание РЕЗУЛЬТАТОВ
ПРЕСЛЕДУЕТ 4 ЦЕЛИ
ОСНОВНАЯ ИДЕЯ СГЛАЖИВАНИЯ
• Процедура локального усреднения
Здесь Wni
последовательность весов,
зависящих от всех
xi
Методы сглаживания
• Сглаживание с помощью
«регрессограммы»
• Ядерное сглаживание
• Сглаживание по k ближайшим соседям
Ядерное сглаживание
• Задаем функцию «ядра» K(x)
Ядро Епанечникова
Сглаживание по k ближайшим
соседям
Download