3.1. Точечные и интегральные оценки параметров распределения Предположим, что заранее известен вид теоретического распределения интересующего нас признака , но параметры этого распределения не известны и должны быть найдены по данным выборки. Так, например, если известно, что интересующая нас величина распределена нормально, то определению подлежат математическое ожидание и среднеквадратическое отклонение (или дисперсия). Задача оценивания параметров теоретического распределения состоит в построении формул, зависящих от выборочных значений x1,..., xn . Любую функцию x1,..., xn , зависящую от выборки и поэтому являющейся случайной величиной, принято называть статистикой. Для того, чтобы оценки неизвестных параметров, то есть статистики, давали хорошее приближение неизвестных параметров распределения генеральной совокупности, они должны удовлетворять определённым требованиям. Математическое ожидание оценки параметра по всевозможным выборкам данного объёма должно равняться истинному значению определяемого параметра. В этом случае оценку называют несмещённой. При увеличении объёма выборки оценка должна сходиться по вероятности к истинному значению параметра. В этом случае оценку называют состоятельной. Поскольку в качестве оценки мы ищем число – точку на координатной оси, то такие оценки называют точечными. Из многих способов получения оценок мы воспользуемся методом моментов, идея которого заключается в приравнивании теоретических и соответствующих им эмпирических числовых характеристик. Их и называют моментами, причём число таких характеристик и, следовательно, число уравнений для определения неизвестных параметров распределения берётся равным числу параметров. Проиллюстрируем эту методику на примерах. 1. Оценка вероятности события. Пусть нас интересует вероятность p некоторого события A и для её определения проведено n независимых однородных испытаний. Для построения точечной оценки рассмотрим введённую в п.2.3 случайную величину n k – сумму индикаторов k 1 испытаний, математическое ожидание которой было найдено ранее оказалось равным n p . Учитывая, что сумма индикаторов равна m A – числу появлений события A при n испытаниях и приравнивая теоретическую и эмпирическую характеристики, получаем искомую оценку: n p m A p A m A 1 n i . n n i1 (3.3) Проверим полученную оценку на несмещённость и состоятельность: n n M p M 1 i 1 pi p; n i 1 n i 1 1 n lim 1 n p p. lim p lim n n n i n n i i 1 i 1 Здесь мы воспользовались свойствами математического ожидания и теоремой Чебышева, согласно которой среднее арифметическое системы случайных величин сходится по вероятности к среднему арифметическому их математических ожиданий. 2. Оценки параметров нормального распределения. Нормальное распределение определяется двумя параметрами – a и . Приравнивая теоретическое математическое ожидание M a и дисперсию D 2 соответствующим эмпирическим величинам 1 n x xi ; n i 1 2 1 n D xi x , n i 1 получаем искомые оценки. n a x 1 xi ; n i1 n D 2 1 xi x n i1 2 n 2 1 xi x , n i1 (3.4) Проверим оценку математического ожидания на несмещённость и состоятельность, для чего в формулах (3.4) заменим xi на i , то есть будем рассматривать xi как значение случайной величины i , полученной в i-том наблюдении. В силу репрезентативности выборки i имеют то же распределение, что и вся генеральная совокупность. n n M a M M 1 i 1 ai a; n i 1 n i 1 1 n lim 1 n a a. lim a lim n n n i n n i i 1 i 1 Аналогичные, но более громоздкие выкладки, для оценки дисперсии дают: M D D ; n 1 D . lim D n n То есть оценка D является состоятельной, но смещённой оценкой для D , так как её математическое ожидание не равно D , а несколько меньше. Чтобы ликвидировать это смещение, достаточно умножить D на n . Обозначим n 1 результат этой операции s2 и назовём его исправленной эмпирической дисперсией, а s – исправленным среднеквадратическим отклонением. Поскольку точечные оценки параметров распределения являются случайными величинами и могут отличаться от оцениваемых параметров, то возникает необходимость в оценке точности и надёжности найденного, то есть требуется знать к каким ошибкам может привести замена неизвестного параметра его точечной оценкой и с какой уверенностью можно ожидать, что ошибки не выйдут за известные пределы. С этой целью вводятся интервальные оценки, то есть по данным выборки указывается интервал, который с достаточной и довольно близкой к единице вероятностью (её называют доверительной вероятностью или надёжностью оценки) накрывает неизвестный параметр. Идея, лежащая в основе построения доверительных интервалов заключается в следующем – вводится определённая случайная величина, являющаяся функцией выборки и определяемого параметра (статистика), распределение которой заранее известно. Для этой случайной величины строится интервал, в который она попадает с заданной вероятностью , и затем, на основе полученного интервала, путём эквивалентных преобразований строится доверительный интервал для искомого параметра. Сначала найдём доверительный интервал для оценки вероятности события A , точечная оценка которой была найдена ранее (3.3). Для этого рассмотрим отклонение относительной частоты A от вероятности p , то есть разность A p p p . Учитывая, что вероятность появления события A при n испытаниях m раз, следовательно, и относительная частота, определяется формулой Бернулли и при больших n вычисляется по интегральной теореме Муаврв-Лапласа, получаем: p A p p m p p n p m n p n np p np np p np 2 n , pq npq npq где – надёжность требуемой оценки. Переходя к новой переменной t n , получаем: pq p где t p 1 p t , n p p t определяется по таблице значений функции Лапласа из условия t . Отсюда с вероятностью должно выполняться неравенство: 2 p t p 1 p p 1 p p p t . n n (3.5) Полученная оценка обладает двумя недостатками: зависит от p – неизвестной величины; справедлива при больших n , что является понятием расплывчатым. От первого затруднения можно уйти, разрешив последнее неравенство относительно p : 2np t2 t 4np 1 p t2 2 n t2 p 2np t2 t 4np 1 p t2 2 n t2 . (3.6) Второе можно обойти заменой точного распределения величины A p на нормальное. Практически удовлетворительный результат получается при npq 9 . Пример 1. Из подвергнутым испытаниям на сортность 100 единиц товара 80 выдержали его. Найти доверительный интервал с надёжностью 0.95 для вероятности того, что произвольно выбранный образец удовлетворяет предъявленным условиям. Решение. В качестве точечной оценки неизвестного параметра принимаем p A 80 0.8 . По доверительной вероятности с помощью таблицы 100 значений функции Лапласа находим t 1.96 и затем по формуле (3.6) определяем доверительный интервал: 0.711 p 0.867. Доверительные интервалы для параметров нормального распределения a и в случае, когда они оба неизвестны (наиболее общий и чаще всего встречающийся на практике случай), можно получить, используя следующие случайные величины: 2 n 1 s2 2 n i 1 2 2 ; n a , s (3.7) где s – исправленное среднеквадратическое отклонение; a и и – неизвестные параметры, а – выборочная средняя. Можно показать, что первая из введённых случайных величин распределена по закону 2 с n 1 степенью свободы, а вторая имеет распределение Стъюдента с n 1 степенью свободы. Используя эти случайные величины, можно получить доверительные интервалы для a : где t определяется t s a t s , по n доверительной вероятности распределения Стъюдента (таблица 5) из условия p для : (3.8) n t , из таблицы n 1 s n 1 s, h h где h и h определяются по таблице распределения (3.9) 2 с n 1 степенью свободы так, чтобы выполнялись соотношения: p n21 h 1 2 и p n21 h 1 1 a1 2 p n21 h 1 a2 . 2 или Пример 2. Для проверки фасовочной установки были отобраны и взвешены 20 упаковок. Были получены следующие результаты (в граммах) 246.0 247.0 247.3 247.4 251.7 252.5 252.6 252.8 252.8 252.9 253.0 253.6 254.6 254.7 254.8 256.1 256.3 256.8 257.4 259.2 Найти доверительные интервалы для математического ожидания с надёжностью 0.95 и среднеквадратического отклонения с надёжностью 0.9, предполагая, что измеряемая величина распределена нормально. Решение. Находим точечные оценки a и : n 20 1 1 a x xi xi 252.98; n i1 20 i1 n 2 1 20 x x 2 13.3; x x i 19 i n 1 i 1 i 1 s 3.65. 2 s2 1 Определяем по таблице распределения Стъюдента (таблица 5) для доверительной вероятности 0.95 и числу степеней свободы n 1 19 соответствующее значение t 2.093 и по формуле (3.8) находим искомый интервал: 252.98 2.093 3.65 a 252.98 2.093 3.65 251.27 a 254.69. 20 20 Для построения доверительного интервала для с надёжностью 0.95 2 с n 1 19 степенями свободы находим по таблице распределения (таблица 6) числа h и h из условий 2 h 1 0.05 2 h 0.95 a p 19 p 19 или 1 2 2 h 1 0.05 a . p 19 и 2 2 h 30.144 . Отсюда искомый В результате получаем h 10.117 и , равен доверительный интервал, накрывающий с надёжностью 2.9 5.0.