модели времени жизни_2маг_13-14

advertisement
Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Факультет Экономики
Программа дисциплины Модели времени жизни
для направления/ специальности 080100.68 «Экономика» подготовки магистра
для магистерской программы «Математические методы анализа экономики»
Авторы программы: Фурманов К.К., к.э.н., Чернышева И.К.
Одобрена на заседании кафедры Математической экономики и эконометрики «___»____________ 20 г
Зав. кафедрой Канторович Г.Г.
Рекомендована секцией УМС [Введите название секции УМС] «___»____________ 20 г
Председатель [Введите И.О. Фамилия]
Утверждена УС факультета [Введите название факультета] «___»_____________20 г.
Ученый секретарь [Введите И.О. Фамилия] ________________________ [подпись]
Москва, 2012
Настоящая программа не может быть использована другими подразделениями университета и другими
вузами без разрешения кафедры-разработчика программы.
Пояснительная записка
Аннотация.
Курс «Модели времени жизни» рассчитан на магистров второго года обучения
магистерской программы «Математические методы анализа экономики», магистерских
специализаций «Экономика труда» и «Управление рисками и актуарные методы» и
предполагает обучение в течение одного семестра. В ходе курса рассматриваются
наиболее распространённые в экономических исследованиях подходы к моделированию
данных о времени жизни и длительности состояний (безработицы, забастовок и т.п.)
Изучаемый материал соприкасается со знаниями, получаемыми студентами в ходе
изучения таких дисциплин как «Актуарные расчёты», «Эконометрический анализ
качественных и панельных данных», «Непараметрические методы оценивания», и
дополняет их.
Модели времени жизни используются в различных областях науки в тех случаях,
когда для исследователя представляет интерес наступление тех или иных событий в
течение времени или длительность пребывания изучаемого объекта в некотором
состоянии. Иногда слова «время жизни» можно понимать буквально – это касается задач
моделирования смертности, неразрывно связанных с изучением пенсионных схем и схем
страхования жизни, а также с исследованиями в области демографии. В других случаях
«время жизни» - условный термин, означающий время до наступления некоторого
события. Так, специалистов по рынку труда может интересовать продолжительность
периодов безработицы (т.е. время от начала поиска работы до выхода из безработного
состояния), исследователей здравоохранения – длительность периодов госпитализации
или возраст начала курения. В последнее время растёт число работ, посвящённых
применению моделей времени жизни для анализа политических процессов и
международных отношений. В центре внимания оказывается продолжительность
вооружённых конфликтов, время участия кандидата в предвыборной гонке. Особенно
широка сфера применения этих моделей в демографии, где они используются при анализе
рождаемости, миграции, вступления в брак.
Программа курса предусматривает наличие как лекционных, так и практических
занятий, а также самостоятельной работы студентов. Изложение теоретического
материала на лекциях сопровождается множеством примеров из различных научных
дисциплин. Практические занятия предусматривают как работу с реальными данными в
статистическом пакете Stata, так и разбор учебных примеров «на бумаге» с целью
закрепления теоретического материала и выработки практических навыков анализа.
Самостоятельная работа предполагает изучение научно-исследовательской литературы по
тематике курса и выполнение домашних заданий.
Учебная задача курса.
В результате изучения курса студент должен:
- знать основные понятия, методы и модели, используемые при эконометрическом
анализе длительности состояний, а также при работе с данными, подверженными
цензурированию и урезанию.
- уметь интерпретировать результаты исследований, касающихся моделирования
времени жизни,
- обладать навыками построения и диагностики моделей времени жизни с
применением статистического пакета Stata.
Основные требования к студентам.
Для успешного освоения курса слушатели должны владеть знаниями теории
вероятностей и математической статистики (в особенности, иметь представление о
статистическом оценивании и проверке гипотез), освоить начальный курс эконометрики.
Системные и профессиональные компетенции
В результате освоения дисциплины студент:
1. СК-2,СК-М2, способен предлагать концепции, модели, изобретать и апробировать
способы и инструменты профессиональной деятельности;
2. СК-6,СК-М6, способен анализировать, верифицировать, оценивать полноту
информации в ходе профессиональной деятельности, при необходимости восполнять и
синтезировать недостающую информацию и работать в условиях неопределенности;
3. ПК-9,ИК-М4.1_4.4_4.6_АД_5.4, способен находить данные, необходимые для анализа
и проведения экономических расчетов, используя различные источники информации;
4. ПК-10,ИК-М4.4АД_5.4; способен работать с большими массивами разнообразной
информации, составлять прогноз основных социально-экономических показателей
деятельности предприятия, отрасли, региона и экономики в целом, в т.ч. используя
современные информационно-компьютерные технологии;
5. ПК-12, способен разрабатывать варианты управленческих решений и обосновывать их
выбор на основе критериев социально-экономической эффективности;
Тематический план учебной дисциплины
№
Название темы
Лекции
1
Анализ дожития как особая
область прикладной
статистики
Основные понятия,
используемые при
моделировании времени
жизни
Модели времени жизни и
экономическая теория
Методы статистического
анализа цензурированных и
урезанных данных
Регрессионные модели
времени жизни
Регрессионная диагностика
Ненаблюдаемая
неоднородность
Итого
2
2
3
4
5
6
7
2
Практические
занятия
Самостоятельная
Работа
Всего
часов
2
4
2
12
18
14
16
2
2
10
14
6
4
20
30
2
2
2
2
10
10
14
14
18
14
76
108
Формы контроля
 Домашнее задание.
 Письменный зачёт.
Порядок проставления оценки
Итоговая оценка за курс рассчитывается с учётом оценок за домашнее задание Од / з и за
письменный зачёт Озачёт , выставляемых по 10-балльной шкале.
Оценка за текущий контроль совпадает с оценкой за домашнее задание: Отекущая  Од / з .
Итоговая оценка рассчитывается по формуле:
Оитоговая  0.4  Отекущая  0.6  Озачёт , если Озачёт  4 , и Оитоговая  Озачёт , если Озачёт  4 .
Итоговая оценка округляется по обычным правилам арифметики.
На пересдаче студент может получить дополнительное практическое задание для
компенсации оценки за текущий контроль, решение которого оценивается не более чем в
4 балла.
Итоговая оценка на пересдаче рассчитывается по формуле:
Оитоговая  0.4  Отекущая  0.6  Озачёт  Одоп , если Озачёт  4 , и Оитоговая  Озачёт , если Озачёт  4 .
Комиссия проводится в устной форме, при этом оценка за текущий контроль не
учитывается.
Содержание программы
Тема 1. Анализ дожития как особая область прикладной статистики.
История появления анализа дожития. Связь между вероятностью наступления события и
длительностью процесса. Особенности данных типа времени жизни, причины
ограниченной применимости «классических» эконометрических моделей к таким данным.
Литература к теме 1.
1) Савинцева О. С. Анализ длительностей до момента прекращения (duration models).
// Международная научная студенческая конференция. - НГУ, 2001. Текст работы
доступен по адресу: http://www.nsu.ru/ef/tsy/ecmr/durat/savinc/savinc.htm
2) Mario A. Cleves, William W. Gould, Roberto G. Gutierrez. An Introduction to Survival
Analysis. Texas: Stata Press, 2004. Chapter 4.
3) Shiva S. Halli, K. Vaninadha Rao. Advanced Techniques of Population Analisis. /NY:
Plenum Press, 1992. Chapter 7, §§ 7.3-7.6.
Тема 2. Основные понятия, используемые при моделировании времени жизни
Длительность как случайная величина. Характеристики её распределения: функция
дожития, функция риска, интегральная функция риска – в дискретном и непрерывном
случае. Несобственные распределения. Распределение смеси. Условные распределения.
Выражение математического ожидания через функцию дожития. Часто используемые
законы распределения вероятностей.
Литература к теме 2.
1) Г. Родригес. Модели выживаемости
http://quantile.ru/05/05-GR.pdf
/
Квантиль,
№5
(сентябрь
2008).
2) Shiva S. Halli, K. Vaninadha Rao. Advanced Techniques of Population Analisis. /NY:
Plenum Press, 1992. Chapter 7.
3) The
Basic
Components
/http://homepages.nyu.edu/~mrg217/maths1.pdf
of
Survival
Analysis.
Тема 3. Модели времени жизни и экономическая теория
Модели поиска работы. Использование показателей длительности для оценки
эффективности предприятия. Длительность в анализе временных рядов. Моделирование
длительности обслуживания клиентов банка.
Литература к теме 3.
1) Kiefer N.M. Economic Duration Data and Hazard Functions / Journal of Economic
Literature, Vol. 26 (1988), No. 2, стр. 646-679.
2) Neumann G.R. Search Models and Duration Data / Handbook of Applied Econometrics.
Ch. 4. 1995, стр. 46-54.
3) Маркова К.В., Рощин С.Ю. Поиск работы на российском рынке труда/ Москва,
ТЕИС, 2004, стр. 16-23.
4) Пырлик, В. Н. Моделирование длительности в анализе высокочастотных
финансовых временных рядов / В. Н. Пырлик. - С.122-137.
5) Кузнецов Валерий Владимирович. Повышение качества обслуживания на основе
моделирования нестационарного потока клиентов банка. / http://www.lib.uaru.net/diss/cont/78145.html
Тема 4. Методы статистического анализа цензурированных и урезанных данных.
Цензурирование и урезание как причины неполноты информации о длительности. Виды
цензурирования и урезания: справа, слева, интервальное. Случайное и детерминированное
цензурирование. Цензурирование первого и второго типов как формы контроля над
экспериментом.
Непараметрическое оценивание закона дожития: методы Каплана-Мейера и НельсонаАалена. Доверительный интервал для функции дожития. Оценивание математического
ожидания. Параметрическое оценивание методом максимального правдоподобия.
Выражение функции правдоподобия через функции плотности и дожития и через
функции риска и интегрального риска. Проверка гипотезы о совпадении функций дожития
в двух выборках: критерий Вилкоксона-Гехана, критерий логарифмических рангов.
Литература к теме 4.
4) Я.Р. Магнус, П.К. Катышев, А.А. Пересецкий. Эконометрика: начальный курс,
6-е изд. М.: Дело, 2004. С. 337-356.
5) David W. Hosmer, Stanley Lemeshow, Susanne May. Applied Survival Analysis.
/New Jersey: John Wiley and Sons, 2008. Chapter 7, §7.4.
6) Mario A. Cleves, William W. Gould, Roberto G. Gutierrez. An Introduction to
Survival Analysis. Texas: Stata Press, 2004. Chapter 4.
7) John P. Klein, Melvin L. Moeschberger. Survival Analysis: Techniques for Censored
and Truncated Data, 2nd edition. Springer, 2003. Chapters 3, 4.
8) Censored Data. /The Reliability Analysis Center /Selected Topics in Assurance
Related
Technologies.
Volume
11,
No
3.
/
http://src.alionscience.com/pdf/CENSOR.pdf
or
http://www.theriac.org/DeskReference/viewDocument.php?id=188
9) Xin Ming Tu Nonparametric estimation of survival distributions with censored
initiating time, and censored and truncated terminating time: application to
transfusion data for acquired immune deficiency syndrome. /Applied Statistics, 1995,
Volume 44, Number 1, pages 6-13.
Тема 5. Регрессионные модели времени жизни
Основные подходы к моделированию времени жизни: модели пропорциональных рисков
(PH) и ускоренного времени (AFT). Интерпретация коэффициентов в модели PH.
Оценивание модели PH методом максимального правдоподобия. Полупараметрический
подход: метод частного правдоподобия Кокса. Линейная форма модели PH.
Интерпретация коэффициентов в модели AFT. Оценивание модели методом
максимального правдоподобия. Линейная форма модели AFT. Полупараметрический
подход: цензурированная квантильная регрессия.
Параметрические модели длительностей и особенности их применения. Проблема выбора
распределения при оценивании модели. Типы используемых распределений:
показательное, логлогистическое, логнормальное, распределения Вейбулла и Гомперца,
гамма-распределение.
Обобщённое
гамма-распределение.
Представление
параметрических моделей в метрике пропорциональных рисков и ускоренного времени.
Литература к теме 5.
1) Shiva S. Halli, K. Vaninadha Rao. Advanced Techniques of Population Analisis.
/NY: Plenum Press, 1992. Chapters 7, 8.
2) David W. Hosmer, Stanley Lemeshow, Susanne May. Applied Survival Analysis.
/New Jersey: John Wiley and Sons, 2008. Chapters 3, 8.
3) Mario A. Cleves, William W. Gould, Roberto G. Gutierrez. An Introduction to
Survival Analysis. Texas: Stata Press, 2004. Chapter 9, 12, 13.
4) Aalen, Odd O.; Andersen, Per Kragh; Borgan, Ørnulf; Gill, Richard D. & Keiding,
Niels History of applications of martingales in survival analysis. Journal Électronique
d'Histoire des Probabililtés et de la Statistique. ISSN 1773-0074. 5(1), s 1- 28
http://arxiv.org/PS_cache/arxiv/pdf/1003/1003.0188v1.pdf §10.
5) Zhou, M. Understanding the Cox regression models with time-change covariates. The
American
Statistician,
2001,
vol.
55,
pp.
153-155.
http://www.ms.uky.edu/~mai/research/amst.pdf
6) Lynn M. Johnson, Robert L. Strawderman. Induced smoothing for the semiparametric
accelerated failure time model: asymptotics and extensions to clustered data.
/Biometrika, 2009, Vol. 96, No 3, pages 577-590.
Тема 6. Регрессионная диагностика.
Исследование регрессионных остатков: мартингальная форма, остатки Кокса-Снелла.
Модель пропорциональных рисков: аксиома о пропорциональных рисках, псевдо-R2
Нагелкерке и МакФаддена и «мера объяснённой случайности».
Диагностика
непараметрических моделей: тесты Вилкоксона, Флеминга-Хэрингтона, Тэрона-Варе.
Литература к теме 6.
1) Nagelkerke, N. J. D. A note on a general definition of the coefficient of determination.
/Biometrika, 1991, vol. 78, no. 3, pp. 691-692.
2) John O'Quigley, Ronghui Xu, Janez Stare. Explained randomness in proportional hazards
models. /Statistics in Medicine, 15 February 2005, Volume 24, Issue 3, pages 479–
489.
3) Mario A. Cleves, William W. Gould, Roberto G. Gutierrez. An Introduction to Survival
Analysis. Texas: Stata Press, 2004. Chapter 8, §5; Chapter 11.
4) David W. Hosmer, Stanley Lemeshow, Susanne May. Applied Survival Analysis. /New
Jersey: John Wiley and Sons, 2008. Chapter 6.
Тема 7. Ненаблюдаемая неоднородность.
Последствия ненаблюдаемой неоднородности. Модели со случайным индивидуальным
эффектом как решение проблемы ненаблюдаемой неоднородности. Модели «кочевыеоседлые» (mover-stayer). Проблема различения ненаблюдаемой неоднородности и
временной зависимости.
Литература к теме 7.
1) Wen-Shai Hung, Shu-Hsi Ho. Survival Analysis for Unobserved Heterogeneity on
Estimated Mortality in Taiwan. /Economics Bulletin, 2008, vol. 9, issue 25, pages 1-10
2) Andreas
Wienke.
Frailty Models.
/Working paper.
http://www.demogr.mpg.de/papers/working/wp-2003-032.pdf
September
2003/
3) David W. Hosmer, Stanley Lemeshow, Susanne May. Applied Survival Analysis. /New
Jersey: John Wiley and Sons, 2008. Chapter 9, §9.3.
4) Janet M. Box-Steffensmeier, Bradford S. Jones. Event History Modeling: A
Guide for Social Scientists. Cambridge University Press, 2004. Chapter
9.
Пример зачётной работы
1
.
(1  t ) 2
Выпишите функцию риска и интегральную функцию риска величины T, опишите характер
временной зависимости. Выпишите условную функцию дожития при условии {T≥1}.
№1. Распределение случайной величины T описывается функцией дожития S (t ) 
№2. Легкомысленная девушка Таня ищет мужчину своей мечты. Встретив кандидата на
эту роль, Таня немедленно выходит за него замуж. Будем считать, что с вероятностью
20% она не ошибается и живёт затем счастливой семейной жизнью, не разводясь. В
противном случае Таня начинает постепенно осознавать свою оплошность, и осознаёт её
тем полнее, чем больше времени проводит в браке. Как следствие, риск развода растёт:
h(t )  0.5t 2 .
а) Только что Таня вышла замуж. Выпишите функцию дожития и функцию риска для
величины T – продолжительности пребывания в браке. Дайте интерпретацию характеру
временной зависимости.
б) Прошло три года, а Таня так и не развелась. Рассчитайте вероятность того, что Таня
нашла мужчину своей мечты.
№3. По данным о миротворческих миссиях ООН с 1948 по 2001 год оценена регрессия
продолжительности миссии на переменные Interstate (равна 1 для межстранового
конфликта и 0 иначе) и Civil (1 для гражданской войны, 0 иначе). В качестве базовой
категории конфликтов выступала категория гражданских войн с иностранным
вмешательством (internationalized civil war – гражданская война, в которой хотя бы одна из
сторон получает поддержку со стороны другого государства). При оценивании
использовалась модель Вейбулла: h(t )   t  1 , где параметр λ зависел от вектора
объясняющих переменных x  1 Interstate Civil  ' экспоненциально:   exp( x '  ) .
Также была оценена показательная (экспоненциальная) модель, где параметр α полагался
равным 1. Результаты оценивания приведены ниже:
Переменные
Оценки коэффициентов (станд. ошибки)
Показательная модель
Модель Вейбулла
Константа
-4.35 (0.21)
-3.46 (0.50)
Civil
1.16 (0.36)
0.89 (0.38)
Interstate
-1.64 (0.50)
-1.40 (0.51)
α
1.00 (---)
0.81 (0.10)
Логарифм
функции
-86.35
-84.66
правдоподобия
Число наблюдений
54
а) По результатам оценивания модели Вейбулла выясните, есть ли основания считать, что
продолжительность миротворческой миссии при урегулировании гражданской войны
зависит от иностранного вмешательства. Используйте уровень значимости 5%.
б) Проверьте гипотезу об отсутствии временной зависимости (α=1).
в) Сравните качество подгонки двух моделей по критерию Акаике.
№4. По выборке из n независимых наблюдений T1, …, Tn оценивается модель
пропорциональных рисков. Предполагается, что функция риска величины Ti имеет вид
h(t )  h0 (t ) exp( xi '  ) , где h0 (t )  1   t . Здесь xi – вектор объясняющих переменных для iго наблюдения, β – вектор оцениваемых коэффициентов при объясняющих переменных, α
– неотрицательный параметр опорной функции риска. Часть наблюдений являются
цензурированными справа (тогда Ti отражает длительность i-го состояния на момент
цензурирования), в остальных изучаемая длительность точно известна. Обозначим за δi
индикатор цензурирования, равный единице для цензурированных наблюдений и нулю
для остальных. Выпишите функцию правдоподобия для оценивания параметров α и β при
известных Ti, xi, δi.
Авторы программы ____________/Фурманов К.К./
___________/Чернышева И.К./
Download