1 Методические указания к решению задач по математической статистике (для заочников) Рассматриваются следующие задачи: 1. Определение закона распределения случайной величины по статистическим данным 2. Критерии согласия эмпирического и теоретического законов распределения. 3. Оценка числовых характеристик и неизвестных параметров распределения. 1. Определение закона распределения случайной величины по статистическим данным 1.1. В разнообразных видах практической деятельности встречается такая задача. Наблюдается некоторая случайная величина X , закон распределения которой не известен. Требуется определить этот закон из опыта или проверить гипотезу о том, что эта случайная величина подчинена определенному закону распределения. В результате наблюдений (эксперимента, исследований) имеем ряд значений случайной величины: 1 2 3 … n x1 x2 x3 xn Такой ряд называется первичным (простым) рядом наблюдений или выборкой значений случайной величины, при этом число наблюденных значений n называется объемом (размером) выборки. Для заданной выборки может быть построена статистическая (эмпирическая) функция распределения случайной величины Х - Fn ( x ) . Значение функции Fn ( x ) для каждого действительного числа x полагается равным частоте события X x в данной выборке: n Fn ( x) P ( X x) x , (2) n где nx - число наблюдений в выборке, меньших x, x . 1.2. Чтобы описать свойства статистической функции распределения расположим наблюдения в порядке возрастания значений: x(1) x(2) x(3) x( n ) Такой ряд называется вариационным рядом. Основные свойства Fn ( x ) следующие: 1) Функция Fn ( x ) не убывает: Fn ( x1 ) Fn ( x2 ) , для x1 x2 2) Если x( k ) x( k 1) , то слева от любого x из промежутка x( k ) x x( k 1) лежит одно и то же число наблюдений (именно k ). Поэтому функция Fn ( x ) сохраняет постоянное значение k во всех точках этого промежутка, включая точку x( k 1) : n k Fn ( x) , для x( k ) x x( k 1) . n n( k 1) В самой же точке x( k 1) функция Fn ( x ) совершает скачок на величину , где n( k 1) n число наблюдений в ряду, в точности равных x( k 1) . 2 3) Слева от наименьшего наблюденного значения, включая и само это значение, функция Fn ( x ) равна 0: Fn ( x) 0 , для x x(1) 4) Справа от наибольшего наблюденного значения функция Fn ( x ) равна 1: Fn ( x) 1 , для x x( n ) Но самые важные свойства Fn ( x ) следующие: 5) Согласно закону больших чисел (теореме Бернулли) при каждом x Fn ( x ) сходится к F ( x ) по вероятности: Для каждого x и каждого 0 lim P( Fn ( x) F ( x) ) 0 n 6) Более того, с вероятностью единица имеет место равномерная по x сходимость F ( x) к F ( x) при n (теорема Гливенко): sup Fn* ( x) F ( x) 0 с вероятностью 1, n x где значок sup означает точную верхнюю грань (максимальное значение) модуля разности между Fn ( x ) и F ( x) , а оговорка « с вероятностью 1» означает, что для любой наблюденной последовательности значений случайной величины указанный предел будет равен 0. Благодаря свойствам 5 и 6 построение эмпирической функции распределения решает в принципе задачу определения закона распределения случайной величины. 1.3. Рассмотрим построение функции Fn ( x ) на примере. Задача 1. 10 раз повторяли серию из 100 подбрасываний монеты и подсчитывали число выпадений герба в каждой серии. Получили следующую выборку: 1 53 2 39 3 46 4 46 5 53 6 43 7 50 8 61 9 53 10 52 Требуется построить статистическую функцию распределения. Решение. Построим вариационный ряд наблюдений: 39 43 46 46 50 52 53 53 53 61 Составим таблицу (1): В первый столбец последовательно выпишем различные значения вариационного ряда ( zi ) ; Во втором столбце для каждого значения укажем число повторений этого значения в выборке, так называемую абсолютную частоту (ni ) ; В третьем столбце вычислим относительные частоты наблюдений, т.е. результат деления абсолютных частот на общее число наблюдений pi ni / n ; В четвертом столбце относительные частоты представим нарастающим итогом, причем для первого значения укажем ноль. Это и есть значения статистической функции распределения в каждой точке скачка Fn ( zi ) . 3 Таблица (1) позволяет выписать формулы (1), определяющие статистическую функцию распределения Fn ( x ) . Таблица 1 x 39 0 zi ni pi F ( zi ) 39 1 0,1 0 0,1 39 x 43 43 1 0,1 0,1 0, 2 43 x 46 46 2 0,2 0,2 0, 4 46 x 50 50 1 0,1 0,4 F ( x) (1) 52 1 0,1 0,5 0,5 50 x 52 53 3 0,3 0,6 0, 6 52 x 53 61 1 0,1 0,9 0,9 53 x 61 10 1 1 1 61 x График функции Fn ( x ) приведен на Рис.1. Он имеет вид ступенчатой возрастающей функции, причем в каждой точке скачка функция непрерывна слева: на рисунке 1 значение 0,2 в точке 46 выделено жирной точкой, предел справа в это точке равен 0,4. 1,2 1 1 0,9 0,8 0,6 0,6 0,5 0,4 0,4 0,2 0,2 0,1 0 38 40 42 44 46 48 50 52 54 56 58 60 62 Рисунок 1 1.4 Статистическая функция распределения имеет ступенчатый характер как для дискретной, так и для непрерывной случайной величины. Для дискретной случайной количество скачков будет сохраняться или медленно возрастать при увеличении числа наблюдений, а величины этих скачков будут стремиться к истинным вероятностям соответствующих значений. Так в рассмотренном примере выборка размером 10 имела 9 скачков. Были смоделированы выборки объемом 50 и 100 наблюдений из данного распределения вероятностей. Для 50 получили 16 скачков, для 100 – 19 скачков. Но вообще-то в рассмотренном примере количество скачков может достигнуть 100. Если количество различных значений дискретной случайной величины невелико, то построение функции Fn ( x ) можно выполнять описанным выше способом. На самом деле для дискретной случайной величины нужны статистические частоты наблюденных значений, т.е. статистический ряд распределения. 4 Для непрерывной случайной величины количество скачков будет мало отличаться от n , поэтому построение Fn ( x ) описанным способом в этом случае возможно лишь при небольшом объеме выборки. При больших n построение Fn ( x ) описанным способом становится чрезвычайно трудоемким, да и сама функция, содержащая сотни скачков, оказывается недостаточно наглядной. Эти проблемы устраняются путем преобразования первичного ряда наблюдений в так называемый группированный статистический ряд. 1.5. Группированный статистический ряд можно построить следующим способом. Первичная выборка преобразуется в вариационный ряд. Далее определяется размах выборки: R x( n ) x(1) Определяется количество разрядов, интервалов, на которые будут разделены наблюденные значения. Количество таких интервалов, как правило, от 10 до 20. При этом желательно, чтобы эти интервалы были равной длины. Но иногда отдельные интервалы приходится объединять, если они содержат слишком мало значений. При высокой же частоте изменения значений X в некоторых областях исходные интервалы приходится разбивать на более мелкие интервалы. Будем считать, что область значений случайной величины разбивается на k разрядов длины h : R h . k При вычислении h удобно округлить до одного-двух знаков после запятой в большую сторону, чтобы наблюдение x( n ) попало внутрь последнего разряда. Границы i - го разряда будем обозначать через ai и ai 1 . Так что вся область изменения случайной величины разлагается в сумму k непересекающихся разрядов: [a1 , a2 ),[a2 , a3 ), [ak 2 , ak 1 ),[ak 1 , ak ] Далее подсчитываем количество наблюдений, попавших в i -ый разрядов, так называемые абсолютные частоты - mi , относительные частоты pi mi / n и накопленные частоты: Fn (a1 ) 0, Fn (a2 ) Fn (a1 ) p1 , Fn (ak 1 ) Fn (ak ) pk 1 . При построении графика Fn ( x ) полученные значения Fn ( ai ) соединяют отрезками прямой или плавной линией, что вполне оправдано, так как предельная функция F ( x) является непрерывной. 1.5 Выполним описанный расчет на данных конкретной задачи. Задача 2. Дана выборка размера 100 из нормальной совокупности с математическим ожиданием 0 и дисперсией 1. Данные размещены по столбцам в таблице (2). Построить статистическую функцию распределения и сравнить ее с функцией стандартного нормального распределения. Таблица 2 № п/п 1 32 43 54 65 76 87 98 9 1 -0,1116 -0,7394 0,6354 -1,0073 -0,6055 0,5294 1,2392 1,8320 -1,5434 2 -2,0578 -0,2984 0,6409 0,7695 -0,0093 0,9830 0,9453 1,0247 -0,7626 3 -0,6008 1,3807 -0,6593 1,1176 -0,3430 0,4903 -0,5459 -0,7933 -0,2553 4 1,5535 -1,0874 -0,6599 1,2506 -1,0980 -1,6584 0,0924 -0,0492 0,4369 5 -0,1615 -0,4740 -0,9447 -0,2533 1,8154 -1,0040 0,0470 -0,4918 0,6216 6 -2,4063 0,3993 1,2911 -0,5885 -0,6324 -1,4356 -0,0108 0,4732 -0,7125 7 0,5496 0,6486 -0,7125 2,7876 -0,3313 0,2834 -0,3276 -0,1317 -0,7496 8 -0,4507 -0,1383 -0,8667 0,6535 1,1891 -1,4466 -0,7358 -0,2844 -1,4501 9 -2,2961 -0,7128 -0,2884 -1,2660 -2,2253 1,9075 1,4536 -0,3376 -0,7563 10 1,5484 -0,8536 -1,3493 0,9677 0,2445 -1,7894 1,0812 -0,1067 -0,0888 5 10 0,1474 -1,4730 -1,8222 0,8957 -0,5583 -0,3553 -1,0774 1,4407 -0,4736 0,1044 Решение. Вычисления удобно выполнять в Excel. Там сгенерированные исходные данные располагаются в одном столбце. Их легко отсортировать по возрастанию и найти минимальное и максимальное значение, размах и длину разряда при числе разрядов, равном 10: xmin xmax R k h -2,4063 2,7876 5,1939 10 0,52 Теперь заполняем таблицу (3) группированного статистического ряда Таблица 3 a m ( a ) D(ai ) i F100 (ai ) i i i 1 2 3 4 5 6 7 8 9 10 11 -2,4063 -1,8863 -1,3663 -0,8463 -0,3263 0,1937 0,7137 1,2337 1,7537 2,2737 2,7937 4 8 10 26 18 13 9 8 3 1 100 0,00 0,04 0,12 0,22 0,48 0,66 0,79 0,88 0,96 0,99 1,00 0,008057 0,029625 0,085916 0,198681 0,372083 0,576779 0,762281 0,891335 0,960256 0,988507 0,997394 D 0,008057 0,010375 0,034084 0,021319 0,107917 0,083221 0,027719 0,011335 0,000256 0,001493 0,002606 0,107917 Здесь использованы следующие обозначения: i - номер разряда и его левой границы; ai - значение левой границы разряда; ni - число наблюдений, удовлетворяющих неравенству ai 1 x j ai ; ( x) - функция стандартного нормального распределения; Di F100 (ai ) (ai ) ; D max Di . i Подсчет чисел ni выполнен с помощью функции Excel СЧЁТЕСЛИ (диапазон; условие). При большом n такой подсчет затруднительно сделать без компьютера. ( x) и ( x) для сравнения. Видно достаточно хорошее На рисунке 2 показаны функции F100 соответствие. Более точное заключение сделаем несколько позже, когда будем рассматривать критерии согласия. 1.6. На практике часто группированный статистический ряд представляют в виде графика гистограммы. Чтобы построить гистограмму, нужно по оси абсцисс отложить границы разрядов, и на каждом разряде как на основании построить прямоугольник с площадью, равной частоте разряда. Для этого нужно частоту разряда разделить на длину разряда и полученное число взять в качестве высоты прямоугольника. Для i -го разряда получаем формулу: 6 y i где yi - высота прямоугольника, а pi* pi , h ni - относительная частота i -го разряда. n 1,20 1,00 0,80 N100 N(0,1) 0,60 0,40 0,20 -3,0000 -2,0000 -1,0000 0,00 0,0000 1,0000 2,0000 3,0000 4,0000 Рисунок 2 Обозначим через xi абсциссу середины i -го разряда. Тогда точка ( xi , yi ) есть середина верхнего основания прямоугольника i -го разряда. Соединяя эти точки отрезками прямых линий, получим полигон частот, который позволяет сравнить гистограмму с функцией плотности теоретического распределения, к которой стремится гистограмма при увеличении n и неограниченном уменьшении длины разряда. Задача 3. Используя данные задачи 2 построить на одном графике для сравнения гистограмму, полигон частот и функцию плотности стандартного нормального распределения. Решение. Используя таблицу (3) составим таблицу (4) для построения требуемых графиков. Графики представлены на рисунке 3. Графики показывают небольшую левую асимметрию и выброс в центре, обусловленные случайными отклонениями. Таблица 4 (ai ) ai ni i xi pi yi 0 1 2 3 4 5 -3,0000 -2,4063 -1,8863 -1,3663 -0,8463 -0,3263 -2,1463 -1,6263 -1,1063 -0,5863 -0,0663 0 4 8 10 26 18 0,00 0,04 0,08 0,10 0,26 0,18 0,0000 0,0769 0,1538 0,1923 0,5000 0,3462 0,004432 0,022056 0,067335 0,156863 0,278849 0,378255 7 6 7 8 9 10 11 12 0,1937 0,7137 1,2337 1,7537 2,2737 2,7937 3,0000 0,4537 0,9737 1,4937 2,0137 2,5337 13 9 8 3 1 0,13 0,09 0,08 0,03 0,01 0,2500 0,1731 0,1538 0,0577 0,0192 0,391531 0,309254 0,186393 0,085726 0,030086 0,008057 0,004432 100 0,60 0,50 0,40 0,378 0,392 0,309 0,30 0,279 0,20 0,186 0,157 0,10 0,086 0,067 0,022 0,004 -2,41 -1,89 0,030 -1,37 -0,85 0,00 1,23 0,71 0,19 -0,33 1,75 2,27 0,008 0,004 2,79 Рисунок 3 2. Критерии согласия эмпирического и теоретического законов распределения. Построенные на рисунках 2 и 3 графики позволяют высказать предположение о том, что наблюдаемая случайная величина имеет нормальное распределение с математическим ожиданием 0 и дисперсией 1 - N (0,1) . Способы, позволяющие проверить это утверждение (гипотезу), называются критериями. 2.1 Критерий Колмогорова Этот критерий основывается на максимальном значении модуля разности между статистической функцией распределения Fn ( x ) и теоретической функцией распределения F ( x) : D max Fn ( x) F ( x) А.Н. Колмогоров доказал, что для любой непрерывной функции распределения F ( x) вероятность неравенства D n при неограниченном возрастании n стремится к пределу P ( ) 1 (1) k e2 k 2 2 k Значения этих вероятностей для различных значений приведены в таблице 5. Таблица 5 8 0,000 0,100 0,200 0,300 0,400 0,500 0,600 P ( ) 1,000 1,000 1,000 1,000 0,997 0,964 0,864 0,700 0,800 0,900 1,000 1,100 1,200 1,300 P ( ) 0,711 0,544 0,393 0,270 0,178 0,112 0,068 1,400 1,500 1,600 1,700 1,800 1,900 2,000 P ( ) 0,040 0,022 0,012 0,006 0,003 0,002 0,001 Покажем, как работает критерий Колмогорова на примере конкретной задачи Задача 4 Используя данные задачи 3, проверить гипотезу о том, что выборка значений случайной величины произведена из нормального распределения N (0,1) . Решение. В таблице 3 сосчитано значение D для этой выборки: D 0,107917 Вычислим : D n 0,107917 10 1, 08 Интерполируя по таблице 5, находим P(1, 08) 0, 20 . Эта вероятность довольно велика, поэтому можно считать, что высказанная гипотеза не противоречит опытным данным. Если бы вычисленное значение оказалось порядка 0,01, то мы бы отвергли эту гипотезу на уровне значимости 0,05, так как при таком уровне значимости мы считаем все события, вероятность которых меньше 0,05 практически невозможными. 2.2. Критерий хи-квадрат. Другим критерием, позволяющим проверить соответствие теоретической и статистической функции распределения, является критерий хи-квадрат, который основан на статистике (функции наблюденных значений): n 2 ( pi pi ) 2 i pi Это выражение удобно переписать в другом виде: (n npi )2 2 i . npi i Последнее выражение более удобно для вычислений. Здесь, как и прежде, ni - число наблюдений, попавших в i - й разряд, а pi - теоретическая вероятность попадания в i - й разряд согласно функции распределения F ( x) случайной величины X . К. Пирсон доказал, что при неограниченном увеличении числа опытов n и для любой функции F ( x) распределение статистики 2 стремится к одному и тому же пределу, именно функции распределения хи-квадрат с r k s степенями свободы. Степени свободы это линейные ограничения, наложенные на частоты pi . Например, одно ограничение есть всегда: pi 1 . i Если других ограничений нет, то число степеней, свободы равно 1, а r k 1 . 9 могут быть еще ограничения, обусловленные оценками неизвестных параметров. Этот случай мы рассмотрим несколько позже. Для распределения 2 составлены специальные таблицы, оно также включено в состав математического обеспечения многих программных продуктов, в частности, Excel. Рассмотрим применение критерия 2 на примере задачи. Задача 5 Используя данные задачи 3, проверить по критерию 2 гипотезу о том, что выборка значений случайной величины произведена из нормального распределения N (0,1) . Решение. Исходим из данных таблицы 3. Для применения критерия 2 , требуется, чтобы количество наблюдений в разряде было не менее 5. Поэтому объединяем 1 и 2 разряды, а также 8, 9 и 10 разряды таблицы 3. В результате приходим к таблице 6. В новой таблице будет 7 разрядов, причем a1 , а a8 , так как теоретически нормально распределенная случайная величина может принимать любые значения на числовой прямой. В таблице обозначено: (ai ) - значение функции стандартного распределения в точке ai , а pi (ai 1 ) (ai ) В правом нижнем углу желтым цветом выделено значение статистики 2 и вероятность наблюдать такое или большее значение за счет случайных отклонений. Как видим, вероятность довольно большая, поэтому нет оснований отвергать проверяемую гипотезу. Заметим, однако, что эта вероятность несколько меньше, чем для критерия Колмогорова. Таблица 6 (n np ) npi ni npi ai ni (ai ) pi i np 2 i i i 1 2 3 4 5 6 7 8 ∑ -∞ -1,3663 -0,8463 -0,3263 0,1937 0,7137 1,2337 +∞ 12 10 26 18 13 9 12 100 0,0000 0,0859 0,1987 0,3721 0,5768 0,7623 0,8913 1,0000 0,0859 0,1128 0,1734 0,2047 0,1855 0,1291 0,1087 1,0000 8,59 11,28 17,34 20,47 18,55 12,91 10,87 100,00 3,41 -1,28 8,66 -2,47 -5,55 -3,91 1,13 0,00 1,3522 0,1445 4,3248 0,2979 1,6606 1,1818 0,1182 9,0801 0,1691 Рассмотрим теперь следующую задачу. Задача 6 Используя данные задачи 3, проверить по критерию 2 гипотезу о том, что выборка значений случайной величины произведена из нормального распределения, параметры которого математическое ожидание и среднеквадратическое отклонение нам неизвестны. Вместо них использовать оценки этих параметров, рассчитанные по выборке: m 0,1391 и s 1, 0322 . Методы расчета оценок параметров будут рассмотрены в следующем разделе. 10 Решение. Построим таблицу 7, такую же, как таблица 6, но вместо функции ( x) будем использовать функцию ( x) нормального распределения с параметрами m 0,1391 и s 1, 0322 . Получим следующую таблицу. Таблица 7 npi ni npi (n npnp ) ai ni pi i (ai ) 2 i i i 1 2 3 4 5 6 7 8 ∑ -∞ -1,3663 -0,8463 -0,3263 0,1937 0,7137 1,2337 +∞ 12 10 26 18 13 9 12 100 0,0000 0,1172 0,2466 0,4280 0,6264 0,7956 0,9082 1,0000 0,1172 0,1294 0,1814 0,1984 0,1692 0,1126 0,0918 1,0000 11,72 12,94 18,14 19,84 16,92 11,26 9,18 100,00 0,28 -2,94 7,86 -1,84 -3,92 -2,26 2,82 0,00 0,0065 0,6676 3,4046 0,1704 0,9090 0,4530 0,8685 6,4796 0,1661 Новое значение статистики 2 6, 4796 , а вероятность такого же или большего отклонения, вычисленная при числе степеней свободы r 7 1 2 4 , оказалась равной 0,1661, т.е. почти такая же, как и в предыдущем случае. Поэтому мы с таким же уровнем доверия можем принять гипотезу о том, что данные извлечены из распределения N (0,1391;1, 0322) . 3. Оценка числовых характеристик и неизвестных параметров1 распределения. 3.1. Точечные оценки моментов распределения. Напомним, что понятие момента пришло в теорию вероятностей из механики, где моменты используются для описания распределения масс. В теории вероятностей моменты служат для описания распределения вероятностной массы. Различают моменты относительно начала координат, так называемые начальные моменты. Для дискретной случайной величины начальный момент r - го порядка задается формулой: r xir pi i Начальный момент 1-го порядка называется математическим ожиданием и характеризует положения центра распределения: M [ X ] 1 xi pi i Физически математическое ожидание представляет центр тяжести распределенной массы. Центральные моменты вычисляются относительно математического ожидания: r ( xi )r pi i Мы будем рассматривать только первые 4 момента, которые в основном используются на практике. Центральный момент 1-го порядка равен 0. Центральный момент 2-го порядка характеризует рассеяние вероятностной массы относительно центра распределения и называется дисперсией: Параметрами мы называем такие числовые характеристики, которые явно входят в выражение для функции плотности или распределения вероятностей случайной величины. Например, μ и σ для 1 1 нормального закона с плотностью f ( x) e 2 ( x )2 2 2 . 11 D[ X ] 2 ( xi ) 2 pi . i Третий и четвертый центральные моменты служат для определения асимметрии A распределения и эксцесса E (меры островершинности) распределения: A 33 E 44 3 Для непрерывной случайной величины формулы для моментов заменяются интегралами. Так, например, формула для центрального момента r -го порядка будет следующей: r r r ( x ) f ( x)dx ( x ) dF ( x) , где f ( x) - плотность, а F ( x) - функция распределения вероятностей случайной величины X . Аналогично изменятся и другие формулы. Точным статистическим аналогом моментов теоретического (истинного) распределения являются моменты статистической функции распределения, которые вычисляются по формулам: 1 mr xir n i 1 mr ( xi m)r n i Для первых четырех моментов имеем: 1 (3.1) m m1 xi n i 1 (3.2) m2 ( xi m) 2 n i 1 (3.3) m3 ( xi m)3 n i 1 (3.4) m4 ( xi m) 4 n i m3 s3 m E 44 3 s A (3.5) (3.6) где n (3.7) m2 n 1 Приведенные выше статистики являются состоятельными оценками соответствующих численных характеристик истинного распределения, т.е. при возрастании n сходятся по вероятности к соответствующим значениям. Но несмещенными являются только оценки n 1 2 , поэтому при малых n mr , в частности, оценка m . Легко проверить, что M [m2 ] n для оценки дисперсии используется выборочная дисперсия: 1 n 3.8) s2 ( xi m)2 m2 n 1 i n 1 s 12 Ясно, что при больших n статистики s 2 и m2 эквивалентны. Рассмотрим технику вычисления выборочных моментов на конкретных примерах. 3.1.1. Малая выборка Задача 7. Произведено 16 измерений начальной скорости снаряда. Результаты измерений (в м/сек) следующие: 1245.6, 1247.5, 1242.9, 1246.2, 1248.5, 1244.2, 1245.9, 1243.3, 1244.5, 1246.8, 1247.6, 1243.1, 1244.3, 1247.5, 1245.4, 1244.7. Вычислить 4 первых выборочных момента распределения, а также асимметрию и эксцесс. Решение. Составляем таблицу Таблица 8 №п/п 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ∑ xi zi=xi-m 1245,6 0,1 1247,5 2 1242,9 -2,6 1246,2 0,7 1248,5 3 1244,2 -1,3 1245,9 0,4 1243,3 -2,2 1244,5 -1 1246,8 1,3 1247,6 2,1 1243,1 -2,4 1244,3 -1,2 1247,5 2 1245,4 -0,1 1244,7 -0,8 19928 0 zi2 zi3 0,01 0,0010 4 8,0000 6,76 -17,5760 0,49 0,3430 9 27,0000 1,69 -2,1970 0,16 0,0640 4,84 -10,6480 1 -1,0000 1,69 2,1970 4,41 9,2610 5,76 -13,8240 1,44 -1,7280 4 8,0000 0,01 -0,0010 0,64 -0,5120 45,9 7,3800 zi4 0,0001 16,0000 45,6976 0,2401 81,0000 2,8561 0,0256 23,4256 1,0000 2,8561 19,4481 33,1776 2,0736 16,0000 0,0001 0,4096 244,2102 Затем по формулам (3.1) – (3.7) вычисляются требуемые величины: m = m'1 1245,5 m2 2,8687 S² 3,0600 m3 0,4612 m4 15,2631 S 1,7493 A* E* 0,0862 -1,3699 3.1.2. Большая выборка Задача 8. Используя данные табл.2, вычислить 4 первых выборочных момента распределения, а также асимметрию и эксцесс. Решение. Составляем таблицу: Таблица 9 13 i 1 2 3 4 5 6 7 8 9 10 11 ∑ ai -2,406341 -1,886341 -1,366341 -0,846341 -0,326341 0,193659 0,713659 1,233659 1,753659 2,273659 2,793659 ni 4 8 10 26 18 13 9 8 3 1 pi* 0,04 0,08 0,10 0,26 0,18 0,13 0,09 0,08 0,03 0,01 100 1 xi * -2,1463 -1,6263 -1,1063 -0,5863 -0,0663 0,4537 0,9737 1,4937 2,0137 2,5337 xi*pi* zi=xi*-m zipi* zi2pi* -0,08585 -2,0072 -0,08029 0,161154 -0,13011 -1,4872 -0,11898 0,176941 -0,11063 -0,9672 -0,09672 0,093548 -0,15245 -0,4472 -0,11627 0,051997 -0,01194 0,0728 0,013104 0,000954 0,05898 0,5928 0,077064 0,045684 0,08763 1,1128 0,100152 0,111449 0,11949 1,6328 0,130624 0,213283 0,06041 2,1528 0,064584 0,139036 0,02534 2,6728 0,026728 0,071439 -0,13914 0,0000 1,0655 zi3pi* -0,3235 -0,2631 -0,0905 -0,0233 0,0001 0,0271 0,1240 0,3482 0,2993 0,1909 zi4pi* 0,6493 0,3914 0,0875 0,0104 0,0000 0,0161 0,1380 0,5686 0,6444 0,5103 0,2893 3,0159 Обозначения столбцов: i - номер разряда и его левой границы; ai - значение левой границы разряда; ni - число наблюдений, удовлетворяющих неравенству ai 1 x j ai ; ni - относительная частота разряда; n a ai 1 xi i - середина разряда; 2 Обозначения остальных столбцов представлены формулами. Моменты вычисляем по формулам: m m1 xi pi pi i 2 i i (3.9) m2 z p (3.10) m3 zi3 pi (3.11) m4 zi4 pi (3.12) i i i Асимметрию и эксцесс вычисляем по формулам (3.5) и (3.6), где s m2 Получаем следующие результаты: m -0,1391 m2 1,0655 m3 0,2893 m4 S A* E* 3,0159 1,0322 0,2631 -0,3434 (3.13) 3.2. Интервальные оценки 3.2.1. Понятие доверительного интервала. Пусть истинное значение некоторой числовой характеристики или параметра распределения случайной величины X , для которой есть выборка значений x ( x1 , x2 , xn ) . Пусть также даны две функции 1 ( x ) и 2 ( x ) такие, что 1 ( x ) 2 ( x ) для любого x . Тогда интервал I (1 ( x ),2 ( x )) для каждой выборки имеет определенное значение: для одной – одно, для другой – другое. В одном случай он содержит , в другом 14 – нет. Таким образом, интервал I является случайным интервалом, и можно говорить о вероятности того, что интервал I содержит значение . Задача интервального оценивания заключается в том, чтобы по заданной вероятности построить интервал, границами которого являются функции от выборки x и который с вероятностью содержит (накрывает) истинное значение заданного параметра: P(1 ( x ) 2 ( x )) . Если нам удается построить такой интервал, то он называется доверительным интервалом с доверительной вероятностью . Доверительную вероятность следует понимать так, что мы уславливаемся считать все события с вероятностью равной или больше практически достоверными, а события с вероятностью, равной или меньше 1 практически невозможными событиями. При этом называется уровнем значимости. 3.2.2. Приближенный способ построения доверительного интервала для математического ожидания случайной величины. При построении доверительного интервала таким способом исходят из предположения, (m ) что распределение статистики приблизительно нормально с параметрами 0,1. / n Если задана доверительная вероятность , то всегда можно найти t , для которого выполняется условие: (m ) P t (t ) (t ) 2(t ) 1 / n Разрешая это уравнение относительно , найдем: 1 t 1 (3.14) 2 Использовались обозначения: ( x) - функция распределения стандартного нормального закона; 1 ( x) функция, обратная к ( x) . Запишем доверительный интервал для математического ожидания в виде (m , m ) . (3.15) Если известно, то: m m t Если неизвестно, то: m m t n s , n (3.16) (3.17) Рассмотрим примеры: Задача 9 Используя результаты решения задачи 7, построить доверительный интервал для начальной скорости снаряда с доверительной вероятностью 0,9 и доверительный интервал для дисперсии начальной скорости снаряда с доверительной вероятностью 0,92. Решение. Результаты решения задачи 7: m = m'1 m2 S² 1245,5 2,86875 3,06 15 m3 m4 S A* E* 0,46125 15,26314 1,749286 0,08617 -1,36995 Для 0,9 находим по формуле (3.14): t0,9 1 0,95 1,64485 Для этого используем таблицы функции распределения нормального закона или, например, функцию НОРМСТОБР(вероятность) из Excel. По формуле (3.17) находим границы доверительного интервала: 1,749 m 1245,5 1,645 16 m 1244,78 m 1246,22 3.2.2. Приближенный способ построения доверительного интервала для дисперсии случайной величины. Здесь мы исходим из того, что статистика s 2 при больших n распределена приблизительно нормально с математическим ожиданием 2 2 и дисперсией 1 4 ( 4 22 ) ( E 2) . n n Поэтому приблизительный доверительный интервал для дисперсии будет: ( D , D ) , где E* 2 D s 2 1 t , n где t определяется по формуле (3.14). (3.19) (3.20) Оценка будет тем точнее, чем больше n . Рассмотрим примеры: Задача 10 Используя результаты решения задачи 7, построить доверительный интервал для начальной скорости снаряда с доверительной вероятностью 0,9 и доверительный интервал для дисперсии начальной скорости снаряда с доверительной вероятностью 0,92. Решение Для 0,92 находим по формуле (3.14): t0,9 1 0,96 1,751 По формуле (3.20) находим границы доверительного интервала: -1,37+2 D 3,06 1 1,751 16 D 2,00 D 4,12 3.3. Оценки максимального правдоподобия Пусть дана выборка независимых наблюдений их распределения, вид которого известен с точностью до неизвестного параметра . 16 Совместное распределение наблюдений, рассматриваемое как функция неизвестного параметра , называется функцией правдоподобия выборки: L( x1 , x2, xn ; ) f ( x1 , ) f ( x2 , ) f ( xn , ) , где f ( x, ) обозначает плотность распределения , если оно непрерывно, или вероятность значения x , если оно дискретно. Согласно принципу максимального правдоподобия в качестве оценки для надо взять такое значение из области допустимых значений , при котором функция правдоподобия принимает максимальное значение. Если функция L( x1 , x2, xn ; ) дважды дифференцируема по то точку максимума следует искать как корень уравнения L( x1 , x2, xn ; ) L( x1 , x2, xn ; ) 0 при условии (достаточном, но не необходимом), что L( x1 , x2, xn ; ) 0 . На практике часто удобно иметь дело с ln L( x1 , x2, xn ; ) , т.к. L (ln L) , L LL ( L)2 L а (ln L) L2 L Поэтому уравнение для оценки максимального правдоподобия можно записать в виде ln f ( xi , ) 0 . i Рассмотрим конкретную задачу. Задача 11. Пусть 0, 1, 4, 3, 4, 3, 4, 3,4,4 – выборка из совокупности с биномиальным теоретическим распределением P( X k ) C5 k p k (1 p )5 k , k 0,...,5. Построить и вычислить оценку максимального правдоподобия для параметра p . Решение. Поскольку в выражение для вероятности множитель p или 1 p входит в виде степени, то удобно перейти к логарифму функции правдоподобия: ln L( x1 , x2 , 10 10 i 1 i 1 x10 ; p) xi ln p (5 xi ) ln(1 p) , где символ обозначает слагаемое, не зависящее от p . Дифференцируя это выражение по p получим: 10 1 10 1 x (5 xi ) 0 i p i 1 1 p i 1 или, так как p 0 и p 1 , то 10 10 i 1 i 1 (1 p) xi p (5 xi ) 0 , откуда 10 x i 30 0, 6 . 10 5 50 Убедимся, что найденное значение p действительно доставляет максимум функции p i 1 17 правдоподобия. Для этого вычислим вторую производную от логарифма L( x1 , x2, x10 ; p ) по p : 10 1 10 1 (5 xi ) 2 p (1 p ) 2 i 1 i 1 Так как 0 xi 5 , то обе суммы в предыдущем выражении неотрицательны, а потому все выражение 0 при 0 p 1 . Таким образом, вторая производная логарифма L( x1 , x2, x10 ; p ) всегда меньше нуля, в т.ч. xi и для p p .