Элементы математической статистики. Теория вероятностей изучает случайные явления, считая математическую модель этих явлений заданной. То есть, если речь идет о событии, то известна вероятность этого события, если речь идет о случайной величине, то известен закон распределения этой величины. В практических задачах эти характеристики, как правило, неизвестны, но имеются некоторые экспериментальные данные о событии или случайной величине, например результаты выборочного социологического опроса, экономические показатели ряда предприятий, результаты измерения физической величины, последовательность орлов и решек в серии подбрасываний монеты и т.д. При этом возникает вопрос - как на основе этого ограниченного статистического материала оценить вероятностные характеристики наблюдаемой случайной величины? Задачей математической статистики и является построение, на базе этих ограниченных экспериментальных данных, подходящей вероятностной модели изучаемого явления. При этом обычно решаются следующие задачи: 1) описание явления, т.е. представление статистического материала в виде удобном для последующего анализа, и первичная обработка материала; 2) оценка статистических характеристик и определение погрешностей этих оценок с заданной надежностью; 3) проверка статистических гипотез, т.е. предположений о законах распределений случайных величин, параметрах этих распределений и т.д.; 4) оценка степени связи между случайными величинами и установление вида зависимости между ними. Выборочный метод Понятие выборки Пусть - некоторая случайная величина, закон распределения F которой неизвестен. Определение. Множество всех возможных значений случайной величины , распределенной по закону F , называется генеральной совокупностью F . На практике мы располагаем, как правило, ограниченным материалом, полученным из генеральной совокупности (например: отдельными результатами измерения физических величин; результатами контроля отдельных образцов изделий; результатами социологического опроса некоторой группы людей и т.д.). 1 Определение. Множество { X 1 , X 2 ,, X n } отдельных значений случайной величины , полученных в серии из n независимых экспериментов (наблюдений), называется выборочной совокупностью или выборкой объема n из генеральной совокупности. Итак, с одной стороны, выборка - это конкретный набор значений случайной величины. Однако, если мы повторим серию из n экспериментов, мы получим другой набор значений случайной величины { X 1 , X 2 ,, X n } , т.е. любое выборочное значение X 1 , X 2 , само является случайной величиной, очевидно распределенной по тому же закону F . Таким образом, в математической модели, выборка - совокупность независимых и одинаково распределенных случайных величин { X 1 , X 2 ,, X n } . Способы представления выборки Первоначально выборку представляют в виде вариационного ряда { X (1) , X ( 2 ) , , X ( n ) } , упорядочивая выборочные значения в порядке возрастания: X (1) X ( 2) X ( n ) . Величину X (k ) , k 1,2, , n называют при этом k -ой порядковой статистикой. Далее результаты эксперимента записывают в виде статистического ряда. Если – дискретная случайная величина, число возможных значений которой невелико, и соответственно с этим выборка содержит много повторяющихся значений, то поступают следующим образом. Выписывают все неповторяющиеся значения в вариационном ряде xi (i 1, m, m n) . Подсчитывают частоты ni - количество повторов каждого из значений xi в выборке и определяют относительные частоты i ni . Очевидно: n m ni n, i 1 m i 1 i 1 . Совокупность пар чисел xi , ni называют статистическим рядом абсолютных частот, а совокупность пар чисел xi , i называют статистическим рядом относительных частот. Статистические ряды отображают в виде таблицы. xi x1 x2 xm ni n1 n2 nm i 1 2 m Очевидно, что статистический ряд относительных частот приближенно оценивает ряд распределения дискретной случайной величины. 2 Пример 1. Дана выборка {1, 3, 0, 2, 4, 4, 2, 1, 3, 1, 1, 4, 2, 1, 2, 0, 1, 2, 3, 1} . Записать статистический ряд. Решение: Объем n 20 . выборки {0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4} . Записываем Подсчитываем вариационный частоты и ряд: представляем выборочные данные в виде статистического ряда: xi 0 1 2 3 4 ni 2 6 5 3 4 i 0,1 0,3 0,25 0,15 0,2 Если же величина - непрерывная, или число возможных значений велико, то в этом случае делают группировку данных. Для этого интервал, в котором содержатся все элементы выборки, делится на m равных (иногда неравных) последовательных, непересекающихся интервалов ~ x ~ x,~ x ~ x , , ~ x ~ x , и подсчитывают частоты n - число элементов выборки, попавших 0 1 1 2 m1 m i в i -ый интервал. При этом элемент, совпавший с границей интервала, относят к верхнему интервалу. Число интервалов группирования определяют, например, по формуле Стерджесса: m 1 log 2 n 1 3.322 lg n. При разбивке на интервалы следует следить за тем, чтобы частоты ni для каждого из интервалов были одного порядка. В противном случае следует объединять соседние интервалы, добиваясь относительно равномерного распределения частот по интервалам. Далее подсчитываются относительные частоты i интервалов и плотности частот i i i ni n для каждого из , где i ~ xi ~ xi 1 - длины соответствующих интервалов группирования. В результате получаем следующий статистический ряд: ~ xi 1 ~ xi ~ x0 ~ x1 ~ x1 ~ x2 ~ xm1 ~ xm xi ~ xi 1 ~ xi / 2 x1 x2 xm ni n1 n2 nm i ni / n 1 2 m i i / i 1 2 m 3 Пример 2. Дана выборка объемом 20 из некоторой генеральной совокупности: {0,70; -0,28; 1,24; 2,28; 2,20; 2,73; -1,18; 0,77; 2,10; -0,09; 0,31; -0,69; -0,85; 0,02; 0,23; -1,12; 0,43; 0,60; 1,13; 0,63}. Представить выборку в виде группированного статистического ряда. Решение. Записываем вариационный ряд: {-1,18; -1,12; -0,85; -0,69; -0,28; -0,09; 0,02; 0,23; 0,31; 0,43; 0,60; 0,63; 0,70; 0,77; 1,13; 1,24; 2,10; 2,20; 2,28; 2,73}. Определяем число интервалов группирования по формуле Стерджесса: m 1 [ Log 2 20] 5 . Выберем в качестве нижней границы ~ x0 1,2 , в качестве верхней ~ x0 2,8 . Тогда длина каждого интервала (при условии равенстве длин интервалов): (2,8 (1,2) / 5 0,8 . Разбиваем на интервалы и формируем статистический ряд: ~ 1,2 0,4 0,4 0,4 xi 1 ~ xi 0,4 1,2 1,2 2,0 2,0 2,8 xi 0,8 0,0 0,8 1,6 2,4 ni 4 5 6 1 4 i 0,2 0,25 0,3 0,05 0,2 i 0,25 0,3125 0,375 0,0625 0,25 Графическая иллюстрация статистических рядов В качестве графической иллюстрации статистических рядов используются: Полигон частот – ломанная, отрезки которой соединяют точки xi , i , либо xi , i (рис 1). Для дискретной случайной величины полигон частот является оценкой многоугольника распределения, для непрерывной случайной величины полигон частот есть оценка кривой плотности распределения. 3 2 1 x1 x2 x3 xm x Рис 1. Полигон частот. 4 3 3 2 1 x~0 x~1 x~ 3 x~2 x~m x Рис 2. Гистограмма частот. Гистограмма частот - ступенчатая фигура, состоящая из m прямоугольников, опирающихся на частичные интервалы. Высота i -го прямоугольника полагается равной плотности частоты i . Соответственно площадь каждого прямоугольника равна i i i относительной частоте. Гистограмма частот также является статистическим аналогом кривой плотности распределения (рис 2). Эмпирическая функция распределения Эмпирической функцией распределения, полученной по выборке {x1 , x2 ,, xn } , называется функция, при каждом x R равная Fn* ( x) количество X i x 1 n I X i x , n n i 1 (1.1) 1, X i x где I X i x . 0, X i x Очевидно, что Fn* ( x ) ступенчатая функция (рис 3), имеющая разрыва в точках, соответствующих, наблюдаемым выборочным значениям. Величина скачка в точке xi равна относительной частоте i значения xi . Эмпирическая функция распределения является оценкой функции распределения. 5 F* 1 x1 x3 x2 xm x4 x Рис 3. Эмпирическая функция распределения. Для любого x R эмпирическая функция распределения является случайной величиной, как функция случайных переменных X 1 , X 2 ,, X n . Числовые характеристики выборки В качестве числовых характеристик выборки используются: 1. Выборочное среднее: m X 2. Выборочная дисперсия D 1 n Xi . n i 1 (1.2) 1 n 1 n 2 2 X X Xi X 2 . i n i 1 n i 1 3. Несмещенная выборочная дисперсия s 2 1 n X i X 2 . n 1 i 1 (1.3) (1.4) 4. Выборочные начальные и центральные моменты mk X k 1 n k Xi , n i 1 k 1 n X i X k . n i 1 (1.5) По статистическому ряду значения этих величин могут быть найдены по формулам: m m D xi m i , m xi i , i 1 2 i 1 m mk xik i , i 1 s2 n m xi m 2 i , n 1 i 1 m k xi m k i . (1.6) i 1 (для группированных данных формулы (1.6) дают приближенные значения выборочных характеристик.). Выборочные характеристики очевидно есть числовые характеристики дискретной случайной величины, ряд распределения которой совпадает со статистическим рядом. Выборочные характеристики являются приближенными значениями соответствующих 6 числовых характеристик случайной величины . Выборочные характеристики являются случайными величинами, т.к. являются функциями случайной выборки. Свойства эмпирической функции распределения Теорема 1. Пусть X 1 , X 2 ,, X n - выборка из генеральной совокупности F с функцией распределения F (x) . Тогда для любого x R при n p Fn* ( x) F ( x) . (1.7) Доказательство. Напомним: для среднего n независимых и одинаково распределенных случайных величин 1 , 2 ,, n справедливо: 1 n M i M 1 , n i 1 По определению Fn* ( x) 1 n D1 , D i n n i 1 1 n I X i x , т.к. n i 1 1 n p i M 1 . n i 1 X 1 , X 2 ,, X n независимы и одинаково распределены, то и случайные величины I X 1 x , I X 2 x ,, I X n x также независимы и одинаково распределены, причем каждая из них есть число успехов в одном испытании, при вероятности успеха p P( X 1 x) F ( x) . Следовательно M I X 1 x p F ( x) , DI X 1 x pq F ( x)(1 F ( x)) . Тогда 1 n 1 n DI ( X 1 x) F ( x)(1 F ( x)) M I ( X i x) M I ( X 1 x) F ( x) , D I ( X i x) . n n n i 1 n i 1 Так как случайные величины имеют конечные математическое ожидание и дисперсию ( 0 F ( x) 1 ), то в соответствии с законом больших чисел при n 1 n p M I ( X 1 x) I ( X i x) n i 1 или p Fn* ( x) F ( x) . Теорема 2 (Гливенко-Кантелли). Пусть X 1 , X 2 ,, X n - выборка из генеральной совокупности F с функцией распределения F (x) . Тогда при n : p sup Fn* ( x) F ( x) 0 (1.8) xR то есть Fn* ( x ) сходится к F (x) равномерно. 7 Теорема 3 (Колмогорова). Пусть X 1 , X 2 ,, X n - выборка из генеральной совокупности F с непрерывной функцией распределения F (x) . Тогда при n : n sup Fn* ( x) F ( x) K , (1.9) xR где K есть распределение Колмогорова. Свойство 1. M Fn* ( x) F ( x) (1.10) (см. доказательство теоремы 1). Свойство 2. DFn* ( x) F ( x)(1 F ( x)) n (1.11) (см. доказательство теоремы 1). Свойство 3. При n n Fn* ( x) F ( x) N 0, F ( x )(1 F ( x )) , (1.12) то есть величина Fn* ( x ) асимптотически нормальна. Доказательство. Согласно центральной предельной теореме, если 1 , 2 ,, n независимы и имеют одинаковые распределения с математическим ожиданием M (1 ) и дисперсией D(1 ) ,то: 1 n i M (1 ) n i 1 N 0,1 , D(1 ) / n Имеем: Fn* ( x) 1 n n i M (1 ) N 0, D (1 ) . n i 1 или 1 n I X i x , где I X 1 x , I X 2 x ,, I X n x независимы и одинаково n i 1 распределены, M I X 1 x F ( x) и DI X 1 x F ( x)(1 F ( x)) . Тогда 1 n n Fn* ( x) F ( x) n I ( X i x) M I ( X 1 x) N 0, D ( I ( X1 x )) N 0, F ( x )(1 F ( x )) n i 1 Свойство 4. Случайная величина nFn* ( x ) имеет биномиальное распределение с параметрами n и F (x) . n Доказательство. Для любого x R , nFn* ( x) I ( X i x) , т.е. есть сумма n независимых i 1 случайных величин, каждая из которых есть число успехов в одном испытании, с вероятностью успеха F (x) . Следовательно, nFn* ( x ) есть число успехов в n испытаниях по схеме Бернулли с вероятностью успеха в одном испытании F (x) . 8 Свойства гистограммы Теорема. Пусть f (x) - плотность распределения случайной величины , а i - относительная частота для i -го частичного интервала, i 1, m , тогда при n и постоянном m i P( ~ xi 1 ~ xi ) p ~ xi f ( x)dx , i . (1.13) ~ xi 1 То есть площадь столбца гистограммы при n стремится к площади под графиком плотности над тем же интервалом. p F ( xi ) F ( xi 1 ) P( ~ xi 1 ~ xi ) Доказательство. i Fn* ( xi ) Fn* ( xi 1 ) Свойства выборочных моментов Пусть выборочные характеристики получены по выборке из генеральной совокупности F случайной величины , имеющей математическое ожидание M ( ) и дисперсию D( ) . Тогда: 1. M ( X ) M ( ) ; (1.14) p 2. X M ( ) ; (1.15) 3. M ( D ) n 1 D( ) , M (s 2 ) D( ) ; n (1.16) p p 4. D D( ), s 2 D( ) . 5. M ( X k ) M ( k ) ; p Xk M ( k ) (1.17) (при условии M ( k ) ) (1.18) Доказательство. 1 n 1. M ( X ) M X i M ( ) . n i 1 2. В соответствии с законом больших чисел X 1 n p Xi M ( ) . n i 1 1 n 1 n 3. M ( D ) M X i2 X 2 M X i2 M X 2 n i 1 n i 1 1 n M X i2 M 2 как математическое ожидание среднего арифметического независимых и n i 1 одинаково распределенных величин X 12 , X 22 , , X n2 , а из формулы для дисперсии D( X ) M X 2 M 2 X имеем: M X 2 D( X ) M 2 X D M 2 . Следовательно: n 9 M ( D ) M 2 M 2 D / n D D / n n 1 D . n Таким образом, выборочная дисперсия, как оценка дисперсии генеральной совокупности является смещенной оценкой, то есть содержит систематическую ошибку. Хотя асимптотически D является несмещенной оценкой дисперсии, т.к. при n M ( D ) D . В отличии от D, s2 является несмещенной оценкой дисперсии, т.к. n n 1 n n M (s 2 ) M D M D D( ) D( ) . n 1 n 1 n 1 n 4. Имеем: D 1 n 2 1 n p p X i X 2 . В соответствии с ЗБЧ X 12 M ( 2 ) , а X M ( ) . n i 1 n i 1 Следовательно D 1 n 2 p p M ( 2 ) M 2 ( ) D( ) . Аналогично s 2 D( ) , т.к. X i X 2 n i 1 n 1. n 1 5. Доказательство аналогично доказательству свойств 1-2. 10