Фиктивные переменные Лекция 5 1 Опр. Фиктивная переменная – сконструированная количественная переменная, описывающая качественные факторы • Примеры качественных факторов: – – – – – пол профессия образование климатические условия принадлежность к какой-либо группе • Возможные пути учета качественного фактора: – оценивание отдельных регрессий для каждой категории с последующим выяснением значимо ли отличаются коэффициенты; – оценивание единой регрессии с введенной фиктивной переменной и измерением степени влияния качественного фактора. 2 Пример 1. Анализ зависимости урожайности пшеницы от вида вспашки и количества внесенного органического удобрения • Пусть y – урожайность пшеницы, x – количество внесенного удобрения, z – вид вспашки. z=1 – для зяблевой вспашки, z=0 – для весенней вспашки. 1) Результаты регрессионного анализа без учета вида вспашки yˆ 11,46 0,326 x rxy=0,5246 3 2) Результаты регрессионного анализа по отдельным видам вспашки yˆ 12,678 0,349 x yˆ 10,148 0,300 x 3) Результаты регрессионного анализа с учетом вида вспашки путем введения фиктивной переменной z y x z u yˆ 9,908 0,331x 2,908 z rxz=-0,016 yˆ z 1 12,816 0,331x yˆ z 0 9,908 0,331x 4 Общий случай • Пусть качественный фактор имеет число градаций больше двух: – тогда в модель вводим несколько фиктивных переменных, число которых меньше числа качественных градаций; – одна из градаций выбирается как эталонная (для нее значения фиктивных переменных равны 0) и определяются значения фиктивных переменных для всех остальных градаций. Пример 2. Анализ зависимости цены двухкомнатной квартиры от полезной площади с учетом качества (типа) дома. Тип дома: «хрущевка», панельный, кирпичный. Решение. Введем две фиктивные переменные: z1 и z2. Эталонная категория – «хрущевка». панельный 1 z1 0 " хрущевка" , кирпичный кирпичный 1 z2 0 " хрущевка" , панельный yˆ 320 500x 2200z1 1600z2 5 Множественные совокупности фиктивных переменных • Если имеются данные, собранные как по ряду количественных факторов, так и по ряду качественных факторов, то в уравнение регрессии включаются более одной совокупности фиктивных переменных. Пример 3. Исследуется зависимость веса новорожденного от интенсивности курения матери с учетом семейного положения и первый ли ребенок или нет. y - вес новорожденного x - количество сигарет, выкуриваемых в день будущей матерью d –первый ребенок, не первый ребенок s - семейное положение 6 ПРИМЕР 3 • • • • 1) Замужняя мать, первый ребенок 2) Одинокая мать, первый ребенок 3) Замужняя мать, не первый ребенок 4) Одинокая мать, не первый ребенок s=0, d=0 s=1, d=0 s=0, d=1 s=1, d=1 Результат исследования данных (США): yˆ 3386 7,2 x 109d 132 s 7 Фиктивные переменные для коэффициента наклона • Пример 4. Исследуется зависимость веса новорожденного от интенсивности курения матери и фиктивной переменной числа родов в прошлом. Рассмотрим две модели: а) y d xu воздействие курения матери на вес новорожденного не зависит от номера родов; б) y d x dx u d ( d ) x u воздействие курения матери на вес новорожденного зависит от номера родов yˆ 3363 143d 4,0 x 8,1dx d=0 yˆ 3363 4,0 x d=1 yˆ 3506 12,1x 8 Взаимодействие между фиктивными переменными • Вернемся к примеру . Введем фиктивную переменную взаимодействия (sd), которую определим как произведение s и d. (sd)=1 для одиноких матерей, не первый ребенок (sd)=0 в остальных случаях Модель y d s sd x u или Результат y ( s )d s x u y d ( d ) s x u yˆ 3,385 113d 117 s 72sd 7,3x 9 Совместная объясняющая способность фиктивных переменных H0 – коэффициенты при фиктивных переменных равны нулю F-статистика: RSS RSS / k f RSS f / n p - число параметров при фиктивных переменных, p - число параметров в регрессии с фиктивными переменными, RSS - остаточная сумма квадратов для регрессии без фиктивных переменных, RSS f - остаточная сумма квадратов для регрессии с фиктивными переменными. k Вывод: если F>Fтабл (k;n-p)- уравнение с фиктивными переменными лучше. 10