СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ЧИСЛОВЫХ ХАРАКТЕРИСТИК СЛУЧАЙНОЙ ВЕЛИЧИНЫ Точечное оценивание Как уже говорилось, наиболее полной и исчерпывающей характеристикой для случайной величины является закон распределения: функция распределения, ряд распределения, плотность. Некоторые законы распределения имеют параметры, которые однозначно их определяют. Естественно, возникает задача оценки этих параметров. В общем случае задача оценки параметров распределения сводится к нахождению статистик.ЛСтатистики – это функции от выборочных значений. Статистики могут быть использованы для приближенного определения значений параметров, по которым судят о виде распределения. Существуют два метода оценки параметров распределения случайных величин: точечный и интервальный. Точечными называют оценку, которая определяется одним числом. Интервальная определяется двумя числами (концами интервала). Рассмотрим точечные оценки: обозначим через θ оцениваемый параметр теоретической функции распределеня, а через θ оценку этого параметра. Для точечных оценок сформулирован ряд требований. Они должны быть состоятельными, несмещенными и эффективными. СостоятельностьЛХЛэто сходимость по вероятности оценки к оцениваемому параметру при неограниченном возрастании объема наблюдения ~ lim P θ θ ε 1 ε>0. n 133 Другими словами, чем больше объем выборки, тем ближе мы к истине. НесмещенностьЛ – это отсутствие систематической погрешности. Математическое ожидание несмещенной оценки должно быть равно оцениваемому параметру: ~ M [θ ] θ . Вообще говоря, не всякая состоятельная оценка будет несмещенной. Требование несмещенности особенно важно при малом объеме выборки. ЭффективнойЛ называется оценка, которая имеет минимальную дисперсию в классе несмещенных оценок. Эффективная оценка всегда состоятельна. Приведем примеры точечных оценок для математического ожидания и дисперсии. Пусть x1,x2,x3,…,xn – это n независимых наблюдений величины Х, тогда для оценки математического ожидания случайной величины используют статистику X : n Xi i 1 . X n Эта оценка является состоятельной, несмещенной и эффективной. Приведем три статистики для оценки дисперсии случайной величины: n 2 (X i X ) , DX i 1 n эта оценка является состоятельной, но смещенной; n 2 (X i X ) , 2 i 1 s n1 эта оценка является состоятельной, несмещенной, но она не является эффективной; 134 n 2 (X i µ ) , 2 i 1 s0 n эта оценка является состоятельной, несмещенной и эффективной, однако эта оценка практически не используется так как в нее входит математическое ожидание µ, которое, как правило, заранее не известно. Для получения точечных оценок используют метод максимального правдоподобия и метод наименьших квадратов. Также по выборочным данным можно оценить моду, медиану и другие характеристики случайной величины. Отличие медианы и моды от средней арифметической заключается в том, что эти величины не зависят от крайних вариант и степени рассеяния ряда. Медиана – это серединная варианта, делящая вариационный ряд пополам, на две равные части. Таким образом, медиана находится на центральном месте, от которого отстоит одинаковое число и больших, и меньших, чем медиана вариант. В ряду с четным числом наблюдений в центре находятся две варианты, тогда за медиану принимается их полусумма. Мода – чаще всего встречающаяся или наиболее часто повторяющаяся величина. В симметричном ряду (т.е. теоретически правильном, имеющем одинаковое число вариант, отличающихся от средней в большую и меньшую сторону, чаще применяются в санитарной статистике) средняя арифметическая, мода и медиана совпадают, поэтому нет необходимости вычислять все три, достаточно вычислить среднюю арифметическую. Прибегать к медиане и моде приходится при наличии асимметричных рядов (чаще встречаются в экспериментальных и клинических исследованиях). На рисунке изображена резко асимметричная кривая распределения по длительности болезни умерших от рака прямой кишки. У подавляющего числа больных летальные исходы наступили в ранние сроки, но в отдельных случаях продолжительность болезни составила 96 – 104 и более месяцев. Эти нетипичные случаи «отягощают» среднюю арифметическую, которая равняется 25,6 мес., в то время как мода составила 10,4, а 135 медиана 20,7 мес. Очевидно, что наиболее характерной для данного явления средней величиной служит мода. Рис. 36. Асимметричное распределение Таким образом, различия в применяемых средних могут быть отражены в следующих определениях: средняя арифметическая является результативной суммой всех влияний, в ее формировании принимают участие все варианты, без исключения, в том числе и крайние варианты, имеющие нетипичный характер. Медиана и мода в отличие от средней арифметической не зависят от величины всех индивидуальных значений, т.е. всех членов вариационного ряда, а обусловливаются относительным расположением или распределением вариант. Поэтому, медиану и моду даже называют описательными или позиционными средними, так как они характеризуют главнейшие свойства данного распределения. 136 Средняя арифметическая характеризует всю массу наблюдений, без исключений; медиана и мода – основную массу, без учета воздействия крайних вариант, зависящих иногда от случайных причин. В примере нас интересует не столько средний срок длительности течения болезни, сколько тот срок, до которого практически остается в живых наибольшее число больных, т.е. модальный срок. Бимодальный ряд распределения внушает подозрение в его неоднородности, в том, что две вершины ряда образовались в результате смешения качественно различных совокупностей. Так, например, две моды могут быть получены при изучении признаков физического развития школьников без учета их пола (одна мода характеризует мальчиков, другая – девочек). Интервальное оценивание параметров распределений Интервальная оценка определяется двумя числами (концами интервала). Теория точечных оценок не дает возможности сделать заключение об их точности. В этом отношении оценки неизвестных параметров существенно дополняются результатами интервального оценивания с помощью доверительных интервалов. Всякая статистическая оценка параметров, определенная по данным выборки с помощью выбранной статистической характеристики, может быть только приближенной. Поэтому она может иметь определенный смысл лишь в том случае, когда указываются границы возможной погрешности оценки или, иначе говоря, указывается интервал, который с известной вероятностью (надежностью) покрывает оцениваемое постоянное значение параметра. Интервальные оценки в основном используются для выборок небольшого объема. б цу лкюцз Лфучьцулто Лотьлцйз с тупЛу лтроТ 137 Обозначим через θ оцениваемый параметр, θ - точечная оценка для θ. 1. По сделанной выборке находится точечная оценка θ неизвестной характеристики θ. 2. Затем задаются вероятностью γ (обычно 0,95; 0,99 и т.д.), которая отражает надежность нашей оценки. 3. По определенным правилам находят такое положительное число ε, чтобы выполнялось соотношение P (θ ε θ θ ε ) γ или . Число ε называется точностью оценки, γ – доверительной вероятностью, а интервал (θ ε ;θ ε ) - интервальной оценкой. Соотношение P (θ ε θ θ ε ) γ следует читать так: «Вероятность того, что доверительный интервал (θ ε ;θ ε ) накроет характеристику θ, равна γ». Поскольку довольно часто встречаются нормально распределенные случайные величины, построим интервальные оценки для параметров нормального распределения: математического ожидания и среднего квадратического отклонения. Обозначим через Х случайную величину, имеющую нормальный закон распределения с параметрами µ и σ (Х=N(µ,σ)). Будем предполагать, что наблюдения этой величины не зависимы и проводятся в одинаковых условиях. P (| θ θ | ε ) γ Интервальная оценка математического ожидания нормального распределения при известной дисперсии По наблюдениям найдем точечную оценку математического ожидания n Xi . X i 1 n 138 Зададимся вероятностью γ. Найдем такое число ε, чтобы выполнялось соотношение P ( X ε µ X ε ) γ . Из-за сложности выкладки опускаются. Приведем готовый результат ε здесь uγ uγ σ , n находится из соотношения Φ( uγ ) γ 2 , где Φ(uγ ) – функция Лапласа, z2 x Φ( x ) e 2 dz . 0 д зис о з Лнтз лтопЛя ютр ооЛа зфс зчзС γ uγ 0,9 1,65 0,91 1,7 0,92 1,76 0,93 1,81 0,94 1,88 γ uγ 0,95 1,96 0,96 2,06 0,97 2,18 0,98 2,34 0,99 2,58 Интервальная оценка математического ожидания нормального распределения при неизвестной дисперсии По наблюдениям найдем точечные оценки математического ожидания и дисперсии n n 2 Xi (X i X ) и . X i 1 s 2 i 1 n n1 Зададимся вероятностью γ. 139 Найдем такое число ε, чтобы выполнялось соотношение P ( X ε µ X ε ) γ . Снова приведем готовый результат ε здесь tγ находится tγ s n , из соотношения t n 1(t γ ) γ , где – распределение Стьюдента с n – 1 степенями свободы. д зис о з Лнтз лтопЛя ютр ооЛцзчфцлклс лто Лв ь клтьзС tn1(tγ ) n 5 10 15 γ 0,95 2,78 2,26 2,15 0,99 4,60 3,25 2,98 n γ 0,95 2,045 1,984 1,96 30 100 0,99 2,756 2,627 2,57 Интервальная оценка квадратического отклонения и дисперсии нормального распределения По наблюдениям найдем точечную оценку математического ожидания и дисперсии n n 2 Xi (X i X ) и 2 i 1 , X i 1 s n n1 за оценку среднего квадратического отклонения примем s s . 2 Зададимся вероятностью γ. Найдем такое число ε, чтобы выполнялось соотношение P ( s ε σ s ε ) γ . Среднее квадратическое отклонение всегда положительно, поэтому ε разумнее находить из условия P[max( 0; s ε ) σ s ε ] γ . Снова приведем готовый результат 140 ε s qγ , здесь 2 χn1(qγ ) qγ находится из соотношения 2 χ n 1(qγ ) γ , где – хи-квадрат распределение с n-1 степенями свободы. д зис о з Лнтз лтопЛя ютр ооЛцзчфцлклс лто Ле оПрйзкцзьС n 5 10 15 γ 0,95 1,37 0,65 0,46 0,99 2,67 1,08 0,73 n 30 100 250 γ 0,95 0,28 0,143 0,089 0,99 0,43 0,198 0,1200 141