лекция 8 (нов)

advertisement
Модели с дискретной
зависимой переменной
Дискретные зависимые
переменные
•
1.
2.
3.
Типичные ситуации:
Выбор из нескольких альтернатив: голосование;
решение учиться/не учиться, покупать/не покупать;
выбор профессии и т.п. (номинальная переменная)
Ранжированный выбор: доход семь, уровень
образования, успеваемость и т. п. (ординальная,
порядковая, ранговая переменная).
Количественная целочисленная характеристика:
количество прибыльных организаций, количество
университетов, количество отличников и т. п.
Линейная модель вероятности
Пусть
yi  xi    i
i – номер наблюдения,
 1 
 
 2 
  

 
k 
- набор неизвестных параметров,
 i - случайная ошибка,
xi  ( xi1 , xi2 ,, xik ) - набор независимых переменных, т.е.
yi   0  x   x  2    x  k   i
1
i 1
2
i
k
i
Линейная бинарная модель
вероятности
Так как yi принимает значения 0 или 1 и E ( i )  0 , то
E ( yi )  1  P( yi  1)  0  P( yi  0)  P( yi  1)  xi 
P( yi  1)  xi 
Недостатки линейной
вероятностной модели
• Нарушение условия нормальности
распределения случайного члена.
• Гетероскедастичность.
• Прогнозное значение может выходить за
пределы [0;1].
Бинарные модели
yt  F ( xt  )   t ,
P( yt  1)  F ( xt  )
Свойства функции F(z):
1. F(z) – монотонно возрастает.
2. F(z)  [0;1].
3. F(z)→0 при z →−∞.
4. F(z)→1 при z →+∞.
Logit и Probit модели
eu
F (u )  (u ) 
- функция логистического распределения,
1  eu
1
F (u )  (u ) 
2
где
u
e

u  xt 

z2
2
dz -функция нормального
распределения,
Метод максимального
правдоподобия
• Пусть y1, y2 ,, yn выборка, полученная в результате
проведения n независимых наблюдений с.в. Y.
Пусть вид закона распределения, например, вид
плотности f ( y ,  ) , известен, но неизвестен параметр
 , которым определяется этот закон. Требуется по
выборке оценить параметр  .
Метод максимального
правдоподобия
Функцией правдоподобия, построенной по выборке y1 , y2 ,, yn ,
называется функция вида
n
L( y1 , y2 ,, yn )   f ( yi ,  )
i 1
где
f ( yi ,  )
- плотность распределения с.в. Y, если Y – непрерывная,
f ( yi ,  )  p( yi ,  )  p{Y  yi ,  }
, если Y – дискретная с.в.
За точечную оценку параметра β, согласно ММП, берут значение,
при котором функция правдоподобия достигает максимума.
9
Метод максимального
правдоподобия
Оценка максимального правдоподобия является решением уравнения
dL( y ,  )
0
d
или
d ln L( y,  ) 
 0.
d
10
Оценивание бинарной
вероятностной модели
L   (1  F ( xi  ))  F ( xi  )
yi 0
-функция правдоподобия
yi 1
После логарифмирования и дифференцирования по вектору β
получим векторное уравнение правдоподобия
 ( yi   ( xi  )) xi  0
- для Logit - модели
i
 i
i
 1    xi     xi  0 - для Probit – модели,
yi  0
yi 1
i
i

1
i 
e
2 
( yi  xi  )' ( yi  xi  )
2 2
xi 
,
 i    (u )du

11
Тест отношения правдоподобия
(LR-статистика)
• H0:β1=β2=…=βk=0

~
ˆ
LR  2 ln L(  )  ln L(  )

- имеет распределение χ2 с k
степенями свободы, где k-число
объясняющих переменных
LR   ( , k ) -H0 отклоняется, признается
2
статистическая значимость модели,
LR   2 ( , k )
- H0 не отклоняется, признается
статистическая незначимость модели
12
Пример
• Необходимо проверить, правда ли,
что стаж работы помогает
программистам в написании
сложных программ, если на
написание отпущен ограниченный
промежуток времени. Для
исследования были выбраны
двадцать пять программистов с
различным стажем работы
(выраженным в месяцах). Их
попросили написать сложную
компьютерную программу за
определенный промежуток времени.
Бинарная переменная отклика
принимала значение 1, если
программист справился с
поставленной задачей, и 0, если нет.
• Исходные данные: файл program.sta
( STATISTICA)
Пример
• Построим логит регрессионную модель.
• Действие 1. Выберете пункт меню Анализ -> Углубленные
методы анализа -> Нелинейное оценивание. В появившемся
окне выберете Логит регрессия. Стартовая панель модуля
выглядит следующим образом:
Пример
• Действие 2. Выберем переменную SUCCESS(успех) как зависимую и
EXPERNCE(опыт) как независимую. Для этого нажмите на кнопку
Переменные.
• Программа автоматически выберет коды зависимой переменной.
Пример
• Действие 3. После нажатия на кнопку ОК на стартовой панели будет
отображен диалог определения оценивания модели. . На вкладке
Дополнительно выберете Метод оценивания - Квази- Ньютоновский.
Установите опцию Асимптотические стандартные ошибки на Вкл. Нажмите
на кнопку ОК, чтобы начать вычисления. При этом будут отображаться
результаты итераций.
Пример
• Действие 4
• После проведения вычислений будет отображена панель диалога просмотра
результатов. Здесь собрана вся информация, касающаяся построенной модели
и результатов оценивания. Для данного примера окно выглядит следующим
образом.
Пример
• На панели диалога отображения результатов содержится р-уровень
гипотезы. Если этот р-уровень менее 5%, то модель значима.
• В данном случае р-уровень гипотезы оказался ниже 5% - значение
статистики χ2 для разницы между текущей моделью и моделью,
содержащей лишь свободный член, высоко значимо. Поэтому можно
заключить, что стаж работы влияет на успехи программиста в выполнении
поставленной задачи. Результаты работы собраны в виде нескольких
таблиц.
Пример
• Выберем опцию Параметры и стандартные ошибки. Рассмотрим таблицу, в
которой содержатся данные об оценках регрессионных коэффициентов. В
таблице результатов ниже оба параметра имеют уровень значимости p<0.05.
Пример
• Действие 5. На вкладке Быстрый выберите опцию Наблюдаемые,
предсказанные и значения остатков.
Пример
• На вкладке Дополнительно нажмите на кнопку Классификация. Будет
отображена таблица с результатами классификации.
• Оценить качество построенной модели можно, если оценить параметр
Отношение несогласия.
• Все наблюдения с предсказанными значениями (вероятностью) меньше
или равными 0.5 классифицируются как неудача - Failure, остальные, с
предсказываемыми значениями больше 0.5, классифицируются как успех Success. Отношение несогласия вычисляется как отношение произведения
чисел правильно расклассифицированных наблюдений к произведению
чисел неправильно расклассифицированных.
Download