коэффициент множественной детерминации

advertisement
Проверка качества уравнения регрессии
Коэффициент множественной корреляции:
n
Dîñò
R  1
 1
Dy
2
ˆ
(
y

y
)

i
i 1
n
2
(
y

y
)
 i
i 1
принимает значения в диапазоне 0 ≤ R ≤ 1. Чем ближе он к 1, тем
теснее связь результативного признака со всем набором исследуемых
факторов.
Линейный коэффициент
множественной
корреляции (совокупный):
R
yx1 x2 ,..., x p


r
хi yxi
Нелинейный квази-коэффициент
детерминации:
квазиR 2  1 
2
(
y

anti
(ln
y
))

2
(
y

y
)

Скорректированный (улучшенный) коэффициент
множественной детерминации
2
ˆ
 ( y  y) : (n  m 1)
n 1
R  1
 1  (1  R ) 
2
n  m 1
 ( y  y) : (n 1)
2
2
где n – число наблюдений,
m – число параметров при переменных х.
Чем больше величина m, тем больше различия
между коэффициентом множественной
детерминации и скорректированным
коэффициентом.
Чем больше объем совокупности, по которой
исчислена регрессия, тем меньше различия между
данными коэффициентами.
Оценка значимости уравнения
множественной регрессии (F-критерий):
Н0: уравнение статистически не значимо
2
R
n  m 1
F 

m
1  R2
где m – число независимых переменных в
уравнении регрессии;
n – число единиц совокупности.
Если Fфакт > Fтабл, то Н0 о случайной природе связи
отклоняется и признается статистическая значимость и
надежность уравнения.
Если Fфакт < Fтабл, то Н0 не отклоняется и признается
статистическая незначимость уравнения регрессии.
Частный F-критерий:
оценивает статистическую значимость присутствия
каждого из факторов в уравнении
2
2
R
R
yx ...x ...x
yx ...x
x
...x
1 i p
1 i 1 i 1 p n  m 1
F


частx
2
1
1

R
i
yx ...x ...x
1 i p
R
2
yx1 x2 ... x p - коэффициент множественной детерминации для
R
модели с полным набором факторов;
2
yx2 ... x p - тот же показатель, но без включения в модель
фактора х1;
n – число наблюдений;
m – число параметров при переменных х.
t-критерий Стьюдента:
t
b
i
 F
x
i
,
или
b
t  i ,
b
i mb
i
где mbi – средняя квадратическая ошибка
коэффициента регрессии bi, она может быть
определена по формуле:
  1  R2
y
yx ...x
1 p
1
m 

b
n  m 1
i   1  R2
x
x x ...x
i
i 1 p
Частная корреляция
Частные
коэффициенты
(или
индексы)
корреляции характеризуют тесноту связи между
результатом
и
соответствующим
фактором
при
устранении влияния других факторов, включенных в
модель:
1 R2
yx  x ...x ...x
1 2 i p
r
 1
yx  x x ...x x ...x
1 R2
i 1 2 i 1 i 1 p
yx  x ...x x ...x
1 2 i 1 i 1 p
При i=1 формула примет вид:
ryx1  x2 ... x p  1 
1 R
2
yx1  x2 ... x p
1  R yx2 2 ... x p
• Частная корреляция первого порядка – когда
фиксируется теснота связи двух переменных при
устранении влияния одного фактора: ryx1  x 2
(точка отделяет фактор, значение которого
элиминируется (закрепляется на неизменном
уровне)).
• Частная корреляция второго и т.д. порядка –
когда фиксируется теснота связи двух переменных
при устранении влияния двух и более факторов,
например:
r
yx1  x2 x3 - частная корреляция второго порядка при
постоянном действии факторов х2 и х3;
r
yx1  x 2 x3 х 4 х5 - частная корреляция четвертого порядка
при постоянном действии факторов х2, х3, х4, х5.
Коэффициенты частной корреляции более высоких
порядков можно найти через коэффициенты частной
корреляции более низких порядков
по рекуррентной формуле:
r
r
yx  x x ...x
i 12 p

yx  x x ...x
i 1 2 p 1
r
r
yx  x x ...x
x x  x x ...x
p 1 2 p 1 1 p 1 2 p 1
(1  r 2
)(1  r 2
)
yx  x x ...x
x x  x x ...x
p 1 2 p 1
i p 1 2 p 1
• При i=1 и двух факторах формула примет вид:
ryx1 x2 
ryx1  ryx2 rx1x2
(1  r )(1  r
2
yx2
2
x1 x2
)
• При i=2 и двух факторах:
ryx 2  x1 
ryx 2  ryx1 rx1 x2
(1  r )(1  r
2
yx1
2
x1 x 2
)
Предпосылки метода наименьших квадратов
2

  min
Требования, предъявляемые к ε:
1. Несмещенность – означает, что математическое ожидание
остатков равно нулю:
М ( i )  0
т.е. при большом числе наблюдений остатки не будут
накапливаться и найденный параметр регрессии b можно
рассматривать как среднее значение из возможного
большого количества несмещенных оценок. Если оценки
обладают свойством несмещенности, то их можно
сравнивать по разным выборкам.
2.Эффективность – оценки считаются эффективными,
если они характеризуются наименьшей дисперсией.
3.Состоятельность – характеризует увеличение точности
оценок с увеличением объема выборки.
Предпосылки метода наименьших
квадратов:
• случайный характер остатков;
• нулевая средняя величина остатков,
не зависящая от х;
• гомоскедастичность;
• отсутствие автокорреляции
остатков;
• нормальное распределение остатков.
1. Случайный характер остатков
Если на графике нет направленности в
расположении точек, то остатки представляют
собой случайные величины и МНК оправдан.
Остатки не случайны:
Остатки не имеют
постоянной дисперсии:
Остатки носят
систематический
характер:
2. Нулевая средняя величина остатков, не
зависящая от х:
 y  y
x
0
Если расположение остатков на графике не
имеет направленности, то они независимы от
значений х. Если же график показывает наличие
зависимости, то модель неадекватна.
3. Гомоскедастичность
Гомоскедастичность – это однородность относительно
дисперсии, т.е. дисперсия остатков одинакова для каждого
значения х. Если это условие применения МНК не соблюдается,
то имеет место гетероскедастичность (неоднородность
относительно дисперсии).
Дисперсия остатков
Дисперсия остатков
достигает максимальной
растёет по мере
величины при средних
увеличения х:
значениях х
Максимальная
дисперсия остатков
при малых
значениях х
Методы проверки предпосылки МНК о
гомоскедастичности остатков:
•
•
•
•
Тест Гольдфельда-Квандта
Тест ранговой корреляции Спирмена
Тест Глейзера
и другие.
4. Отсутствие автокорреляции остатков
Под
автокорреляцией
остатков
понимают зависимость распределения значений
остатков друг от друга. Это означает наличие
корреляции между остатками текущих и
предыдущих (последующих) наблюдений.
r i  j
 i j   i   j

 i  j
Если этот коэффициент окажется
существенно отличным от нуля, то остатки
автокоррелированны.
Обобщенный метод наименьших квадратов
(ОМНК)
 2i   2  Ki
Download