лекция 5(нов)

реклама
Фиктивные переменные
Лекция 5
1
Опр. Фиктивная переменная – сконструированная
количественная переменная, описывающая
качественные факторы
• Примеры качественных факторов:
–
–
–
–
–
пол
профессия
образование
климатические условия
принадлежность к какой-либо группе
• Возможные пути учета качественного фактора:
– оценивание отдельных регрессий для каждой категории с
последующим выяснением значимо ли отличаются
коэффициенты;
– оценивание единой регрессии с введенной фиктивной
переменной и измерением степени влияния качественного
фактора.
2
Пример 1. Анализ зависимости урожайности пшеницы
от вида вспашки и количества внесенного
органического удобрения
•
Пусть y – урожайность пшеницы,
x – количество внесенного удобрения,
z – вид вспашки.
z=1 – для зяблевой вспашки,
z=0 – для весенней вспашки.
1) Результаты регрессионного анализа без учета вида вспашки
yˆ  11,46  0,326 x
rxy=0,5246
3
2) Результаты регрессионного анализа по отдельным видам вспашки
yˆ  12,678  0,349 x
yˆ  10,148  0,300 x
3) Результаты регрессионного анализа с учетом вида вспашки путем
введения фиктивной переменной z
y    x  z  u
yˆ  9,908  0,331x  2,908 z
rxz=-0,016
yˆ z 1  12,816  0,331x
yˆ z 0  9,908  0,331x
4
Общий случай
• Пусть качественный фактор имеет число градаций больше двух:
– тогда в модель вводим несколько фиктивных переменных, число
которых меньше числа качественных градаций;
– одна из градаций выбирается как эталонная (для нее значения
фиктивных переменных равны 0) и определяются значения фиктивных
переменных для всех остальных градаций.
Пример 2. Анализ зависимости цены двухкомнатной квартиры от
полезной площади с учетом качества (типа) дома.
Тип дома: «хрущевка», панельный, кирпичный.
Решение. Введем две фиктивные переменные: z1 и z2.
Эталонная категория – «хрущевка».
панельный
1
z1  
0 " хрущевка" , кирпичный
кирпичный
1
z2  
0 " хрущевка" , панельный
yˆ  320  500x  2200z1  1600z2
5
Множественные совокупности фиктивных
переменных
• Если имеются данные, собранные как по ряду
количественных факторов, так и по ряду качественных
факторов, то в уравнение регрессии включаются более
одной совокупности фиктивных переменных.
Пример 3. Исследуется зависимость веса новорожденного
от интенсивности курения матери с учетом семейного
положения и первый ли ребенок или нет.
y - вес новорожденного
x - количество сигарет, выкуриваемых в день будущей матерью
d –первый ребенок, не первый ребенок
s - семейное положение
6
ПРИМЕР 3
•
•
•
•
1) Замужняя мать, первый ребенок
2) Одинокая мать, первый ребенок
3) Замужняя мать, не первый ребенок
4) Одинокая мать, не первый ребенок
s=0, d=0
s=1, d=0
s=0, d=1
s=1, d=1
Результат исследования данных (США):
yˆ  3386  7,2 x  109d  132 s
7
Фиктивные переменные для
коэффициента наклона
• Пример 4. Исследуется зависимость веса новорожденного от
интенсивности курения матери и фиктивной переменной числа
родов в прошлом.
Рассмотрим две модели:
а)
y   d  xu
 

воздействие курения матери на вес новорожденного не зависит
от номера родов;
б)
y    d  x  dx  u    d  (   d ) x  u
воздействие курения матери на вес новорожденного зависит от
номера родов
yˆ  3363  143d  4,0 x  8,1dx
d=0
yˆ  3363  4,0 x
d=1
yˆ  3506  12,1x
8
Взаимодействие между
фиктивными переменными
• Вернемся к примеру .
Введем фиктивную переменную взаимодействия (sd),
которую определим как произведение s и d.
(sd)=1
для одиноких матерей, не первый ребенок
(sd)=0
в остальных случаях
Модель y    d  s  sd  x  u

или
Результат
y    (  s )d  s  x  u
y    d  (  d ) s  x  u
yˆ  3,385  113d  117 s  72sd  7,3x
9
Совместная объясняющая способность
фиктивных переменных
H0 – коэффициенты при фиктивных переменных равны
нулю
F-статистика:
RSS  RSS / k
f
RSS f / n  p 
- число параметров при фиктивных переменных,
p - число параметров в регрессии с фиктивными
переменными,
RSS - остаточная сумма квадратов для регрессии без
фиктивных переменных,
RSS f - остаточная сумма квадратов для регрессии с
фиктивными переменными.
k
Вывод: если F>Fтабл (k;n-p)- уравнение с фиктивными
переменными лучше.
10
Скачать