лек-9

advertisement
Фиктивные переменные
Опр. Фиктивная переменная – сконструированная
количественная переменная, описывающая
качественные факторы
• Примеры качественных факторов:
–
–
–
–
–
пол
профессия
образование
климатические условия
принадлежность к какой-либо группе
• Возможные пути учета качественного фактора:
– оценивание отдельных регрессий для каждой категории с
последующим выяснением значимо ли отличаются
коэффициенты;
– оценивание единой регрессии с введенной фиктивной
переменной и измерением степени влияния качественного
фактора.
Пример 1. Анализ зависимости урожайности пшеницы
от вида вспашки и количества внесенного
органического удобрения
•
Пусть y – урожайность пшеницы,
x – количество внесенного удобрения,
z – вид вспашки.
z=1 – для зяблевой вспашки,
z=0 – для весенней вспашки.
1) Результаты регрессионного анализа без учета вида вспашки
yˆ  11,46  0,326 x
F=8,7
ta=11,9
tb=2,95
rxy=0,5246
Вывод: уравнение регрессии статистически значимо.
2) Результаты регрессионного анализа по отдельным видам вспашки
yˆ  12,678  0,349 x
yˆ  10,148  0,300 x
3) Результаты регрессионного анализа с учетом вида вспашки путем
введения фиктивной переменной z
y    x  z  u
yˆ  9,908  0,331x  2,908 z
F=15,6
R=0,766
ta=11,8
yˆ z 1  12,816  0,331x
tb=3,9
td=4,1
rxz=-0,016
yˆ z 0  9,908  0,331x
Общий случай
• Пусть качественный фактор имеет число градаций больше двух:
– тогда в модель вводим несколько фиктивных переменных, число
которых меньше числа качественных градаций;
– одна из градаций выбирается как эталонная (для нее значения
фиктивных переменных равны 0) и определяются значения фиктивных
переменных для всех остальных градаций.
Пример 2. Анализ зависимости цены двухкомнатной квартиры от
полезной площади с учетом качества (типа) дома.
Тип дома: «хрущевка», панельный, кирпичный.
Решение. Введем две фиктивные переменные: z1 и z2.
Эталонная категория – «хрущевка».
панельный
1
z1  
0 " хрущевка" , кирпичный
кирпичный
1
z2  
0 " хрущевка" , панельный
yˆ  320  500x  2200z1  1600z2
Замечание 1: параметры при фиктивных переменных
представляют собой разность между
средними уровнями результативного
признака для соответствующей группы и
эталонной группы.
Замечание 2: целью включения фиктивной переменной
может быть желание отразить в модели
неоднородность данных.
Замечание 3: рассмотренный метод фиктивной
переменной предполагает равенство
коэффициентов регрессии при x по частным
совокупностям и возможность их замены
общим коэффициентом регрессии.
Множественные совокупности фиктивных
переменных
• Если имеются данные, собранные как по ряду
количественных факторов, так и по ряду качественных
факторов, то в уравнение регрессии включаются более
одной совокупности фиктивных переменных.
Пример 3. Исследуется зависимость веса новорожденного
от интенсивности курения матери с учетом семейного
положения и рожала ли ранее или нет.
y - вес новорожденного
x - количество сигарет, выкуриваемых в день будущей матерью
d - рожала ли в прошлом
s - семейное положение
• 1) Замужняя мать, первые роды
• 2) Одинокая мать, первые роды
• 3) Замужняя мать, не первые роды
• 4) Одинокая мать, не первые роды
Эталонная категория – первая.
Результат исследования данных (США):
s=0, d=0
s=1, d=0
s=0, d=1
s=1, d=1
yˆ  3386  109d  132 s  7,2 x
Фиктивные переменные для
коэффициента наклона
• Пример 4. Исследуется зависимость веса новорожденного от
интенсивности курения матери и фиктивной переменной числа
родов в прошлом.
Рассмотрим две модели:
а)
y   d  xu
 

воздействие курения матери на вес новорожденного не зависит
от номера родов;
б)
y    d  x  dx  u    d  (   d ) x  u
воздействие курения матери на вес новорожденного зависит от
того, рожала раньше или нет
yˆ  3363  143d  4,0 x  8,1dx
d=0
yˆ  3363  4,0 x
d=1
yˆ  3506  12,1x
Взаимодействие между
фиктивными переменными
• Вернемся к примеру 3.
Введем фиктивную переменную взаимодействия (sd),
которую определим как произведение s и d.
(sd)=1
для одиноких матерей, рожавших ранее
(sd)=0
в остальных случаях
Модель y    d  s  sd  x  u

или
Результат
y    (  s)d  s   x  u
y    d  (  d ) s  x  u
yˆ  3,385  113d  117 s  72sd  7,3x
с.о.
(18)
(28)
(52)
(115) (2,1)
Тест Чоу
• Пусть имеется выборка, состоящая из двух подвыборок.
Вопрос: следует ли их объединить для оценивания
общей регрессии P или оценить отдельные регрессии A
и B?
Обозначим: UA – сумма квадратов остатков выборки A
UB – сумма квадратов остатков выборки B
UP – сумма квадратов остатков
объединенной выборки
F-статистика:
U U U / k 1
 P A B  
U A  U B  / n  2k  2
Вывод: если F>Fтабл - не следует оценивать
объединенную выборку
Что делать?
Ввести фиктивные переменные,
позволяющие не задавать заранее какой-либо
коэффициент одинаковым для обеих подвыборок.
Download