Белов А.Г. Непараметрический медианный доверительный интервал МГУ имени М.В.Ломоносова, факультет ВМК (г. Москва) В экспериментальной практике при оценке наибольшего сосредоточения («центра») распределения наблюдаемых значений случайной величины (с.в.) часто вместо среднего значения (математического ожидания) используют медиану. В данной работе выводится непараметрический доверительный интервал для медианы, являющийся альтернативой известным параметрическим его аналогам, приводятся модельные расчеты. Пусть (1) ... ( n ) порядковые статистики выборки 1 ,..., n с.в. , имеющей абсолютно непрерывное распределение с функцией распределения n (ф.р.) F (x) и медианой med , F (med ) 0.5 . Рассмотрим с.в. n ( x) I , x i , i 1 которая для любого действительного числа x R 1 равна числу элементов выборки , значения которых не превосходит x , где I X x — индикаторная функция множества X . Как известно[1,с.130], с.в. n (x) распределена по биномиальному закону Bi n, F ( x) . Тогда событие ( k ) x, что не менее k элементов выборки имеют значения, не превосходящие x , эквивалентно событию n ( x) k. С учетом последнего факта справедливы следующие равенства P ( k ) med ( n k 1) P ( k ) med 1 P ( n k 1) med P n med k 1 P n med n k 1 Pk n med n k nk C i k i n F i med 1 F med n i nk 2 n C ni , i k где C ni — обозначает число сочетаний из n по i , k N , k n 1 . Таким образом, 2 nk для заданных k, n можно рассчитать значение Bk , n 2 n Cni 1 , такое что ik P ( k ) med ( n k 1) 1 , 0 1. (1) Bk , n Величина является доверительной вероятностью медианного доверительного интервала (1). Для вычисления Bk , n при различных значениях k, n можно применить рекуррентное соотношение Bk , n Bk 1, n 1 Bk , n 1 / 2, k n, B0, n 1, Bk , n 0, k n, k , n Z . Справедливость последнего следует из очевидной рекуррентной формулы C nm C nm1 C nm11 и последовательности следующих равенств: nk nk nk n 1k 1 n 1 k 2 n C ni 2 n C ni 1 2 n C ni 11 2 n C ni 1 C nk11 2 n C ni 1 C nk11 i k i k i k i k 1 i k 2 n n 1 k 1 C i k 1 i n 1 2 n n 1 k C i k i n 1 . Для примера в таблице ниже приведены несколько рассчитанных начальных значений Bk , n, k, n 0,1,...,7. k\n 0 1 2 3 4 5 6 7 0 0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1 0 0 0.5 0.75 0.875 0.9375 0.9688 0.9844 2 0 0 0 0.25 0.5 0.6875 0.8125 0.8906 3 0 0 0 0 0.125 0.3125 0.5 0.6563 4 0 0 0 0 0 0.0625 0.1875 0.3438 5 0 0 0 0 0 0 0.0313 0.1094 6 0 0 0 0 0 0 0 0.0156 7 0 0 0 0 0 0 0 0 Как видно из таблицы, для заданного n получаем множество симметричных медианных 1 -доверительных интервалов. Чем больше величина n , тем разнообразнее выбор вероятностей, а, следовательно, и интервалов. Так, при n6 имеем три интервала (k ) , ( n k 1) , k 1,2,3 с соответствующими доверительными вероятностями 0.9688, 0.8125, 0.5 покрытия медианы распределения наблюдаемой с.в. , а при n 7 имеем четыре интервала с доверительными вероятностями 0.9844, 0.8906, 0.6563, 0.3438. Как известно[1,с.129], существует связь между порядковыми n 1 , n дробное, статистиками ( i ) и выборочными -квантилями qˆ n, n , n целое, являющимися выборочными асимптотически нормальными, несмещенными и состоятельными оценками их теоретических аналогов, определяемых как q inf x : F ( x) или в нашем случае непрерывной ф.р. F (q ) . Тогда каждому доверительному интервалу (1) при заданных k, n соответствует множество симметричных интерквантильных интервалов qˆn, , qˆn,1 для всех k 1 k , поскольку, если число n n n n k 1 , тогда дробное, то целая его часть k n 1 и qˆ n, n 1 k , qˆ n,1 n 1 1 n n n k 1 . Из этого следует, что с вероятностью 1 2 в интервал qˆn, , qˆn,1 попадают значения с.в. с ф.р. F (x) , а вероятность попадания значений с.в. левее этого интервала равна вероятности их попадания правее его и обе равны . В силу этого свойства интерквантильный размах Rn , qˆ n,1 qˆ n, часто используется в практике как мера разброса с.в. . Для однозначного k 1 k , разумно взять среднее значение определения значения из интервала n n 2k 1 n 1 , k N, k . Тем самым, для любого заданного n можно рассчитать 2n 2 последовательность значений , 1 порядков симметричных квантилей qˆ n, , qˆ n,1 , интервал между которыми с вероятностью 1 покрывает медиану. В следующей таблице представлены значения для некоторых начальных k, n . k\n 1 2 3 4 5 6 7 1 0.5 0.25 0.167 0.125 0.10 0.083 0.071 2 0 0 0.5 0.375 0.30 0.250 0.214 3 0 0 0 0 0.5 0.416 0.357 4 0 0 0 0 0 0 0.5 В приведенной ниже таблице на примере стандартного нормального распределения ~ N 0,1 , для которого медиана равна среднему, показаны результаты модельных расчетов доверительного интервала (1) и соответствующих ему характеристик при различных значениях k и объемах n сгенерированных выборок, чтобы значения Bk , n были близки к 0.95. Все вычисления были проведены в пакете MATLAB. n k Bk , n (k ) ( n k 1) 1 38 14 0.9506 0.3553 -0.6454 0.0250 0.6447 39 14 0.9635 0.3462 -0.6454 0.0579 0.6538 96 40 0.9499 0.4115 -0.2181 0.1662 0.5885 97 40 0.9589 0.4072 -0.2181 0.1662 0.5928 290 131 0.9503 0.45 -0.1182 0.1041 0.55 291 131 0.9558 0.4485 -0.1411 0.1041 0.5515 1000 474 0.9501 0.4735 -0.0541 0.0696 0.5265 1001 474 0.9532 0.4730 -0.0541 0.07 0.527 Таким образом, полученный непараметрический медианный доверительный интервал (1) характеризует не только вероятность 1 покрытия медианы, но и долю 1 2 содержащихся и 2 не содержащихся в нем выборочных значений наблюдаемой с.в. . С другой стороны, по заданному объему n выборки можно рассчитать n квантилей с заданными порядками, которые характеризуют не только соответствующее долевое разбиение распределения значений с.в. , но и вероятность покрытия медианы n 1 любым из образованных интерквантильных отрезков. 2 Литература: 1.Ивченко, Г.И., Медведев, Ю.И. Введение в математическую статистику: Учебник. М.: Издательство ЛКИ, 2010. — 600 с.