Сравнительный анализ медианных доверительных интервалов

реклама
Белов А.Г.
к.ф.-м.н., факультет ВМК МГУ имени М.В.Ломоносова
МЕДИАННЫЙ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ
И КВАНТИЛЬНАЯ РЕГРЕССИЯ
Аннотация
В данной работе, для случая сгруппированных данных с одинаковым
числом наблюдений в условных распределениях, предлагается выбирать
симметричные порядки квантилей из непараметрических доверительных
интервалов для медианы условного распределения зависимой величины. Это
позволяет
внести
дополнительную
информацию
в
характеристику
применяемых квантильных регрессий и улучшить интерпретируемость
получаемых
оценок
параметров
используемых
моделей
квантильной
регрессии.
Ключевые слова: медианный доверительный интервал, квантильная
регрессия
Keywords: median confidence interval, quantile regression
Введение. В последнее время наблюдается активное использование
метода квантильной регрессии [1] в различных областях естествознания [2;3],
как качественного дополнения к классической регрессии. Это связано прежде
всего с возможностью квантильной регрессии оценить степень различия
влияния факторов вдоль условных распределений зависимой переменной,
идентифицировать
гетероскедастичность,
асимметрию
распределения
ошибок. При этом большинство исследователей в своих работах выбирают,
как правило, симметричные классические порядки квантилей (процентиль,
дециль, квартиль), что отражено и в алгоритмах по классической регрессии
применяемых программных сред, таких как, MATLAB, SAS и R[4;5].
Воспользуемся обозначениями и результатами исследований предыдущих
работ [6;7] при расчете медианных доверительных интервалов и кривых
линейной и нелинейной квантильных регрессий на модельных данных.
Линейная
модель.
независимой переменной
Выберем
x  1,..., m
m  25
линейной
натуральных
значений
зависимости,
y  0.5 x  2
интерпретируя их как реализации некоторой случайной величины  . Для
каждого из yi  y( xi ), i  1,..., m , независимо смоделируем n  20 случайных
значений  ij путем аддитивного внесения в yi случайной ошибки  ,
распределенной по нормальному закону  ~ N 0,4 с дисперсией равной 4. В
результате получили облако из nm значений  ij  yi   ij , i  1,..., m, j  1,..., n ,
изображенных в виде кружков на рис.1 слева, интерпретируемых как
реализации с.в.  . При этом каждому xi соответствует выборка объема n
условной
 / ,
с.в.
а
значит
(см.
таблицу
ниже)
совпадают
последовательности медианных доверительных интервалов и порядки
квантилей их образуемые. Приведенные в таблице значения даны в виде
целых частей процентов.
1
100
100
100
100
99
97
92
82
68
50

2
8
12
18
22
28
32
38
42
48
1 
98
92
88
82
78
72
68
62
57
52
На рис.1. точечная линия соответствует медианной (LAD), сплошная —
классической (OLS), а штрих — квантильной (QR) регрессиям, где для QR в
круглых скобках отображаются вероятность доверительного интервала и
квантильный порядок в виде 1  ,  или 1   ,1    . На рис.1 справа
изображен случай моделирования множества точек аналогичной линейной

x2 
зависимости, но с ошибками, распределенными по закону  ~ N  0,  . Как
 100 
видно на рис.1 непостоянство дисперсии (гетероскедастичность) хорошо
иллюстрируется расходящимися прямыми квантильной регрессии, в отличие
от предыдущего случая гомоскедастичности, где, как видно на рис.1 слева,
эти прямые параллельны.
Нелинейная
модель.
На
рис.2
отображено
смоделированное
множество
Рис.1
точек
 ij  y i   ij , i  1,..., m, j  1,..., n

 b  x 
yx; a, b, c   a  1  exp 
 
 c 

для
нелинейной
зависимости
1
с
параметрами
и
a  10, b  12, c  2
мультипликативной ошибкой  , распределенной по нормальному закону
 ~ N 1,0.04 , где a характеризует асимптотику функции при x   , при x  b
y b   a ,
2
значение функции равно половине асимптотики,
а
c
—
масштабный параметр значений x . Изображенные на рис.2 аналогичные
квантильные
кривые
показывают
начальную
сильную
изменчивость
дисперсии ошибок с последующей их стабилизацией. На приведенных
рисунках (рис.1-2) изображенные квантильные кривые дополнительно
информируют
о
доверительной
вероятности
покрытия
медианы
симметричным квантильным интервалом в отдельной точке
x . Так,
например, область, ограниченная штрих-кривыми (97,72)% и (97,28)% с
вероятностью
соответствуют
97%
покрывает
квантильным
медианную
регрессиям
кривую
порядка
и
ее
72%
границы
и
28%.
Последовательность рассчитанных n значений квантильных порядков  и
1   может быть также использована для анализа поведения квантильных
оценок параметров модели в зависимости от порядка. Результаты такого
исследования с использованием программы «summary.rq(object,se”rank,…”)»
пакета «quantreg» [4] для линейной гомоскедастичной и гетероскедастичной
Рис.2
моделей изображены на рис.3 слева и справа, соответственно. Ломаная
штрих-пунктирная линия соединяет квантильные оценки параметров a, b
линейной зависимости y  ax  b , а серая обрамляющая ее область изображает
их 90%-доверительный интервал [1,91,188]. Сплошная линия соответствует
оценке параметров OLS-методом, а штрих линии — 90%-довернительный
интервал оценок. Рисунки показывают степень изменчивости оценок
параметров и их доверительных областей от квантильного порядка, а для
параметра b линейной модели могут быть интерпретированы как оценки
условной квантильной функции распределения с.в.  /  .
Заключение.
Непараметрический
доверительный
интервал
для
медианы может с успехом использоваться в квантильной регрессии для
случая сгруппированных данных с одинаковым числом наблюдений в
условных
распределениях.
Его
применение
позволяет
дополнить
симметрично построенные линии квантильной регрессии информацией о
доверительной
вероятности
покрытия
ограниченной
ими
областью
медианной регрессии и тем самым контролировать границы изменения
наблюдаемого процесса.
Рис.3
Литература:
1. R.Koenker. Quantile regression. Cambridge University Press, NY.—2005.—
368p.
2. B.Cade, B.Noon. A Gentle Introduction to Quantile Regression for Ecologists //
Frontiers in Ecology and the Environment.—2003.—V.1.—P. 412-420.
3. R.Koenker, K.Hallock. Quantile Regression // Journal of Economic
Perspectives.—2001.—V.15.—P. 143-156.
4. R.Koenker. Quantreg: Quantile Regression. R package version 4.71.—2011.
5. H.P.Wynn. An exact confidence band for one-dimensional polynomial
regression // Biometrika.—1984.—V.71.—P. 375-379.
6. А.Г.Белов. Непараметрический медианный доверительный интервал //
Проблемы развития науки и образования: теория и практика. Сборник
научных трудов по материалам Международной научно-практической
конференции. Часть I. М.: АР-Консалт.—2015.—C. 7-10.
7. А.Г.Белов. Сравнительный анализ медианных доверительных интервалов //
Актуальные проблемы гуманитарных и естественных наук. Часть I.
Москва.—2015.—№ 10(81).—С. 7-9.
Скачать