Белов А.Г. к.ф.-м.н., факультет ВМК МГУ имени М.В.Ломоносова МЕДИАННЫЙ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ И КВАНТИЛЬНАЯ РЕГРЕССИЯ Аннотация В данной работе, для случая сгруппированных данных с одинаковым числом наблюдений в условных распределениях, предлагается выбирать симметричные порядки квантилей из непараметрических доверительных интервалов для медианы условного распределения зависимой величины. Это позволяет внести дополнительную информацию в характеристику применяемых квантильных регрессий и улучшить интерпретируемость получаемых оценок параметров используемых моделей квантильной регрессии. Ключевые слова: медианный доверительный интервал, квантильная регрессия Keywords: median confidence interval, quantile regression Введение. В последнее время наблюдается активное использование метода квантильной регрессии [1] в различных областях естествознания [2;3], как качественного дополнения к классической регрессии. Это связано прежде всего с возможностью квантильной регрессии оценить степень различия влияния факторов вдоль условных распределений зависимой переменной, идентифицировать гетероскедастичность, асимметрию распределения ошибок. При этом большинство исследователей в своих работах выбирают, как правило, симметричные классические порядки квантилей (процентиль, дециль, квартиль), что отражено и в алгоритмах по классической регрессии применяемых программных сред, таких как, MATLAB, SAS и R[4;5]. Воспользуемся обозначениями и результатами исследований предыдущих работ [6;7] при расчете медианных доверительных интервалов и кривых линейной и нелинейной квантильных регрессий на модельных данных. Линейная модель. независимой переменной Выберем x 1,..., m m 25 линейной натуральных значений зависимости, y 0.5 x 2 интерпретируя их как реализации некоторой случайной величины . Для каждого из yi y( xi ), i 1,..., m , независимо смоделируем n 20 случайных значений ij путем аддитивного внесения в yi случайной ошибки , распределенной по нормальному закону ~ N 0,4 с дисперсией равной 4. В результате получили облако из nm значений ij yi ij , i 1,..., m, j 1,..., n , изображенных в виде кружков на рис.1 слева, интерпретируемых как реализации с.в. . При этом каждому xi соответствует выборка объема n условной / , с.в. а значит (см. таблицу ниже) совпадают последовательности медианных доверительных интервалов и порядки квантилей их образуемые. Приведенные в таблице значения даны в виде целых частей процентов. 1 100 100 100 100 99 97 92 82 68 50 2 8 12 18 22 28 32 38 42 48 1 98 92 88 82 78 72 68 62 57 52 На рис.1. точечная линия соответствует медианной (LAD), сплошная — классической (OLS), а штрих — квантильной (QR) регрессиям, где для QR в круглых скобках отображаются вероятность доверительного интервала и квантильный порядок в виде 1 , или 1 ,1 . На рис.1 справа изображен случай моделирования множества точек аналогичной линейной x2 зависимости, но с ошибками, распределенными по закону ~ N 0, . Как 100 видно на рис.1 непостоянство дисперсии (гетероскедастичность) хорошо иллюстрируется расходящимися прямыми квантильной регрессии, в отличие от предыдущего случая гомоскедастичности, где, как видно на рис.1 слева, эти прямые параллельны. Нелинейная модель. На рис.2 отображено смоделированное множество Рис.1 точек ij y i ij , i 1,..., m, j 1,..., n b x yx; a, b, c a 1 exp c для нелинейной зависимости 1 с параметрами и a 10, b 12, c 2 мультипликативной ошибкой , распределенной по нормальному закону ~ N 1,0.04 , где a характеризует асимптотику функции при x , при x b y b a , 2 значение функции равно половине асимптотики, а c — масштабный параметр значений x . Изображенные на рис.2 аналогичные квантильные кривые показывают начальную сильную изменчивость дисперсии ошибок с последующей их стабилизацией. На приведенных рисунках (рис.1-2) изображенные квантильные кривые дополнительно информируют о доверительной вероятности покрытия медианы симметричным квантильным интервалом в отдельной точке x . Так, например, область, ограниченная штрих-кривыми (97,72)% и (97,28)% с вероятностью соответствуют 97% покрывает квантильным медианную регрессиям кривую порядка и ее 72% границы и 28%. Последовательность рассчитанных n значений квантильных порядков и 1 может быть также использована для анализа поведения квантильных оценок параметров модели в зависимости от порядка. Результаты такого исследования с использованием программы «summary.rq(object,se”rank,…”)» пакета «quantreg» [4] для линейной гомоскедастичной и гетероскедастичной Рис.2 моделей изображены на рис.3 слева и справа, соответственно. Ломаная штрих-пунктирная линия соединяет квантильные оценки параметров a, b линейной зависимости y ax b , а серая обрамляющая ее область изображает их 90%-доверительный интервал [1,91,188]. Сплошная линия соответствует оценке параметров OLS-методом, а штрих линии — 90%-довернительный интервал оценок. Рисунки показывают степень изменчивости оценок параметров и их доверительных областей от квантильного порядка, а для параметра b линейной модели могут быть интерпретированы как оценки условной квантильной функции распределения с.в. / . Заключение. Непараметрический доверительный интервал для медианы может с успехом использоваться в квантильной регрессии для случая сгруппированных данных с одинаковым числом наблюдений в условных распределениях. Его применение позволяет дополнить симметрично построенные линии квантильной регрессии информацией о доверительной вероятности покрытия ограниченной ими областью медианной регрессии и тем самым контролировать границы изменения наблюдаемого процесса. Рис.3 Литература: 1. R.Koenker. Quantile regression. Cambridge University Press, NY.—2005.— 368p. 2. B.Cade, B.Noon. A Gentle Introduction to Quantile Regression for Ecologists // Frontiers in Ecology and the Environment.—2003.—V.1.—P. 412-420. 3. R.Koenker, K.Hallock. Quantile Regression // Journal of Economic Perspectives.—2001.—V.15.—P. 143-156. 4. R.Koenker. Quantreg: Quantile Regression. R package version 4.71.—2011. 5. H.P.Wynn. An exact confidence band for one-dimensional polynomial regression // Biometrika.—1984.—V.71.—P. 375-379. 6. А.Г.Белов. Непараметрический медианный доверительный интервал // Проблемы развития науки и образования: теория и практика. Сборник научных трудов по материалам Международной научно-практической конференции. Часть I. М.: АР-Консалт.—2015.—C. 7-10. 7. А.Г.Белов. Сравнительный анализ медианных доверительных интервалов // Актуальные проблемы гуманитарных и естественных наук. Часть I. Москва.—2015.—№ 10(81).—С. 7-9.