Адекватность регрессионной модели Иткина Анна Яковлевна, ст. преподаватель кафедры ЭНиГП

реклама
РГУ нефти и газа имени И.М. Губкина
Адекватность
регрессионной модели
Иткина Анна Яковлевна,
ст. преподаватель кафедры ЭНиГП
Список лекций
Метод наименьших квадратов и его
применение
Проверка гипотез о качестве уравнения
регрессии
Адекватность регрессионной модели
Проблемы автокорреляции и
гетероскедастичности. Методы обнаружения
Коррекция гетероскедастичности. Метод
взвешенных наименьших квадратов
Адекватность модели
Правильно описывает выборку
Правильно описывает совокупность, из
которой извлечена выборка
Может использоваться для прогнозирования
Может использоваться для анализа
Наши предположения
Предполагаем, что зависимость
имеет вид
y
f ( x1 , x2 ,..., xn )
Оцениваем ее: y
где f ( x1 , x2 ,..., xn )
f ( x1 , x2 ,..., xn )
M ( y | x1, x2 ,..., xn )
нам неизвестны!
Теорема Гаусса-Маркова
1. Математическое ожидание случайного
отклонения i равно нулю для всех наблюдений.
20
2. Дисперсия случайных
отклонений i одинакова
для всех наблюдений.
10
0
0
10
но
20
i
нам неизвестны!
Теорема Гаусса-Маркова
3. Случайные отклонения
друг от друга для всех
20
i
i
и
j
независимы
j.
4. Случайные отклонения
i
независимы от
10
объясняющих переменных.
0
0
10
но
20
i
нам неизвестны!
Теорема Гаусса-Маркова
5. Модель линейна относительно
параметров (коэффициентов).
6. Дополнительные условия:
• случайные отклонения i имеют нормальное
распределение;
• число наблюдений значительно больше
числа объясняющих переменных;
• отсутствует линейная зависимость между
объясняющими переменными.
Теорема Гаусса-Маркова
Если выполнены все
условия, то оценки
модели будут
Несмещенные
Состоятельные
Эффективные
Качества адекватной модели
Несмещенность
M (k i )
ki , где k i оценки коэффициентов модели
60
40
20
смещенная линия регрессии
0
0
5
10
15
Качества адекватной модели
Состоятельность
ki
n
ki , где k i параметры модели,
n – объем выборки
дисперсия оценок
параметров стремится к 0
при росте объема выборки
Качества адекватной модели
Эффективность
D( k i ) min среди других
линейных оценок
наиболее точные оценки
коэффициентов модели
узкие доверительные
интервалы для
коэффициентов
Качества адекватной модели
BLUE
Наилучшие
Best
Линейные
Linear
Unbiased
Estimators
Несмещенные
Оценки
коэффициентов модели
Остатки модели
Случайные отклонения
неизвестны
теоретическая регрессия
y f ( x1, x2 ,..., xn )
неизвестна
60
ei
40
ej
остатки моделируют
случайные отклонения
20
0
0
5
10
15
Теория и практика
Много выборок из одной
совокупности
Одна выборка
Много наблюдений при
Немного наблюдений
одних и тех же х
при одних и тех же х
По всем выборкам
построены одинаковые
модели
Одна модель
Математическое ожидание
остатков равно нулю
ei
0 по построению
i
+
+
+
M ( e) 0
0
–
График остатков
M ( e)
0
–
График остатков
0
Причины нарушения условия M (e) 0
Наличие выброса часто
приводит к смещению
линии регрессии
+
–
y
30
20
10
0
0
2
4
6
8
10
x
неверный вид
зависимости –
причина смещения
Способы обнаружения
графический
y
30
хорош для парной
регрессии
20
10
0
0
0
2
4
6
8
анализ остатков
модели
10
x
Способы обнаружения
метод знаков
+-++-+----+--+-
1) считаем количество
положительных
остатков – Gрасч = 6
2) выдвигаем гипотезу,
что P(ε>0) = 1/2, находим
критическое значение
Gкрит (0.05;15) = 3
3) сравниваем
Gрасч > Gкрит
Вывод: положительных остатков меньше,
чем отрицательных за счет случайности
Предпосылки МНК
• M (е) = 0
• D (e) = const
• corr (ei, ej) = 0, i ≠ j
• e независимы от объясняющих переменных
• модель линейна относительно параметров
Дополнительные условия
6. Дополнительные условия
– остатки имеют нормальное распределение;
– число наблюдений значительно больше
числа объясняющих переменных;
– отсутствует линейная зависимость между
объясняющими переменными.
Нормальное распределение
Нужно, чтобы можно
было доверять тестам
Нужно, чтобы строить
доверительные интервалы
Нужно, чтобы оправдать
качество построенной модели
Нормальное распределение ?
Если отсутствует
много замеров y
для каждого x
20
10
0
0
10
10
20
20
Исследуем
все остатки
модели
Как проверить нормальность?
Гистограмма выборки, имеющей нормальное
распределение
Асимметрия
n
14
ei
12
10
As
8
6
3
n
i 1
3
Эксцесс
4
2
0
1 -3 2
-2 3
-14
50
61
72
8 3
Больших остатков мало,
маленьких - много
n
9 4 10
ei
Ex
4
i 1
4
n
3
6. Дополнительные условия
– остатки имеют нормальное распределение;
– число наблюдений значительно больше числа
объясняющих переменных;
– отсутствует линейная зависимость
объясняющими переменными.
между
Число наблюдений
Чтобы определить
коэффициенты модели
20
10
0
0
10
20
решаем систему из
(k+1) нормальных
уравнений с (k+1)
неизвестными
6. Дополнительные условия
– остатки имеют нормальное распределение;
– число наблюдений значительно больше
числа объясняющих переменных;
– отсутствует линейная зависимость между
объясняющими переменными.
Мультиколлинеарность
Если два уравнения системы линейно
зависимы, то нельзя однозначно
определить коэффициенты модели
Предпосылки МНК
•
•
•
•
M (е) = 0
D (e) = const
corr (ei, ej) = 0, i ≠ j
e независимы от объясняющих переменных
• модель линейна относительно параметров
• e имеют нормальное распределение
• наблюдений >> объясняющих переменных
• нет линейной зависимости между
объясняющими переменными
СПАСИБО ЗА ВНИМАНИЕ!
Скачать