Точечное оценивание. Точечные оценки. Несмещенность и состоятельность оценок. Как правило, в статистики редко о проводимом эксперименте совсем ничего нельзя сказать. Обычно, во многих задачах, тип распределения известен заранее, но неизвестны параметры или часть параметров этого распределения. Например, ошибки измерения предполагаются распределенными по нормальному закону с математическим ожиданием равным нулю (если систематическая ошибка равна нулю) и неизвестной дисперсией, число покупателей в магазине в течении часа имеет распределение Пуассона с неизвестным параметром и т.д. В результате мы имеем задачу статистического оценивания параметров этого распределения на основе выборочных данных. Определение. Класс распределений, целиком определяющийся значением параметра (одномерным либо векторным) будем называть параметрическим семейством распределений F . Например, F - семейство распределений Пуассона с параметром 0 . Здесь , 0, . Определение. Любая функция * * ( X 1 , X 2 ,, X n ) от выборки называется статистикой *. Статистика - случайная величина. Определение. Статистика * * ( X 1 , X 2 ,, X n ) , используемая для оценки неизвестного параметра , называется оценкой параметра . Например, статистика X 1 n X i - выборочное среднее, может быть использована в n i 1 качестве оценки математического ожидания, статистика D 1 n xi X 2 n i 1 может быть использована для оценки дисперсии и т.д. Определение. Статистика * называется несмещенной оценкой параметра , если M ( * ) , . (2.1). Свойство несмещенности означает отсутствия ошибки в среднем, при систематическом использовании оценки. Так выборочное среднее является математического ожидания (1.14), выборочная несмещенная несмещенной дисперсия s2 оценкой является 10 несмещенной оценкой дисперсии (1.16). Выборочная дисперсия D является смещенной оценкой дисперсии (1.16). Определение. Статистика * называется асимптотически несмещенной оценкой параметра , если при n M ( * ) , . (2.2). Так, выборочная дисперсия D является асимптотически несмещенной оценкой дисперсии. Определение. Статистика * называется состоятельной оценкой параметра , если при n p * , . (2.3). То есть состоятельная оценка должна стремиться к параметру с ростом объема выборки. Выборочное среднее и дисперсии в соответствии с (1.15), (1.17) являются состоятельными оценками математического ожидания и дисперсии. Требования несмещенности и состоятельности являются основными требованиями, предъявляемыми к "качественным" оценкам. Выборочные среднее X и дисперсия s 2 , как оценки математического ожидания и дисперсии произвольного распределения, не были выведены нами ни из каких математических формул, они просто разумны с практической точки зрения как аналоги характеристик генеральной совокупности, и, как видим, обладают неплохими свойствами, с точки зрения требований предъявляемых к оценке. Однако в общем случае необходим систематический и обоснованный подход к методам получения оценок. Существуют различные подходы. Метод моментов. Согласно методу моментов в качестве оценок начальных моментов генеральной совокупности принимаются их выборочные аналоги, т.е. mk* mk X k . (2.4). Для оценки других параметров распределения по методу моментов, необходимо их выразить через начальные моменты случайной величины (в общем случае для этого необходимо знание закона распределения). Итак: Пусть X 1 , X 2 ,, X n выборка из семейства распределений F , где . Пусть M k h( ) , где функция h(x) имеет обратную. Тогда в качестве оценки * параметра берем решение уравнения X k h( * ) . Другими словами: Определение. Если параметр h 1 ( M ( k )) , то 11 * h 1 ( X k ) (2.5) называется оценкой метода моментов параметра по k -му моменту. Замечание 1. Как видно могут быть различные оценки (2.5) для одного и того же параметра (т.к. параметр может быть выражен через различные моменты). Замечание 2. Как правило, априорно значения параметра принадлежат некоторому интервалу, т.е. , а значение полученной оценки * может и не попасть в этот интервал. Тогда в качестве оценки берут ближайшее к * из . Замечание 3. Если - векторный параметр размерности l , то согласно методу моментов необходимо получить l уравнений для l различных моментов и разрешить их относительно координат вектора. Замечание 4. Вообще говорю, в методе моментов можно использовать любое уравнение вида 1 n M ( ) h( ) , тогда оценка h ( ( X )) , где ( X ) ( X i ) . Функция ( X ) в этом n i 1 * 1 случае называется пробной функцией. Согласно методу моментов в качестве оценок математического ожидания и дисперсии при любом законе распределения можно взять выборочное среднее X и дисперсия D . (Действительно т.к. M ( X ) m1 , следовательно M * ( X ) m1 X , т.к. D( X ) m2 m12 , то 2 D * ( X ) m2 m1 D ). Теорема. (состоятельность метода моментов). Пусть * h 1 (mk ) - оценка параметра , полученная по методу моментов, причем функция h 1 ( x) непрерывна, тогда * состоятельна. p mk , а функция (x ) непрерывна, то Доказательство. Так как в соответствии с ЗБЧ mk p ( mk ) ( mk ) . Пример. Пусть X 1 , X 2 ,, X n - выборка из генеральной совокупности равномерно распределенной на интервале 0, , где - неизвестный параметр. Требуется оценить по методу моментов. В данном случае параметр может быть выражен через моменты любого порядка: 1 x k 1 k mk x dx . Откуда k (k 1)mk . Следовательно * k (k 1)mk . 0 k 1 0 k 1 1 k Соответственно имеем различные оценки для : 1* 2m1 , 2* 3m2 , и т.д. Проверим несмещенность оценок. 12 M (1* ) 2M (m1 ) 2m1 , т.е. 1* - несмещенная. M ( 2* ) 3M m2 . Чтобы оценка 2* была несмещенной, очевидно необходимо, чтобы выполнялось равенство: M условия M условию M ( 2 ) M 2 (). m2 m2 . Т.к. M m2 m2 , то это равносильно выполнению m2 M (m2 ) , что в свою очередь для случайной величины m2 , равносильно Последнее возможно лишь при условии, что D ( ) 0 , следовательно, оценка 2* смещенная. Аналогично смещенными являются и другие оценки k* при k 2 . Таким образом, несмещенной является только оценка 1* , все остальные оценки являются смещенными. Заметим, что в любом случае оценка не может быть меньше, чем наибольшее из выборочных значений. Следовательно, в качестве оценки следует принять (при использовании для оценивания первого момента) * max( 1* , X max ) . Метод максимального правдоподобия (ММП) В соответствии с ММП, в качестве оценок параметров 1 , 2 , закона распределения величины , берут такие значения 1* , 2* , , при которых вероятность получить данную выборку X {X 1 , X 2 ,, X n } из генеральной совокупности величины максимальна. Определим предварительно, что значит "вероятность получить данную выборку". Для ДСВ очевидно: P( { X 1 , X 2 ,, X n }) P( X 1 ) P( X 2 ) P( X n ) . Для НСВ вероятность отдельного значения случайной величины равна нулю, однако можно считать, что вероятность получить значение x , есть вероятность попасть в некоторый малый интервал x , содержащий x , т.е. P( x) f ( x)x . Тогда для НСВ: P( {X 1 , X 2 ,, X n }) f ( X 1 ) f ( X 2 ) f ( X n ) (x) n . Обозначим: если - дискретная случайная величина P( x), f ( x) если - непрерывная случайная величина. f ( x), (2.6) Тогда, вероятность получить выборку X 1 , X 2 ,, X n : 13 n для ДСВ, f ( X i ), i 1 P( { X 1 , X 2 ,, X n }) = n f ( X i )x, для НСВ. i 1 Так как величина x является постоянной, то как для ДСВ, так и для НСВ эта вероятность n зависит только от f (X i ). i 1 Определение. Функция n ( X , ) f ( X i ) (2.7) i 1 называется функцией правдоподобия. Функция n n L( X , ) ln f ( X i ) ln f ( X i ) i 1 i 1 (2.8) называется логарифмической функцией правдоподобия. Как видим, функция правдоподобия - это и есть вероятность того, что случайная величина примет значения X 1 , X 2 , X n (в случае НСВ с точностью до постоянного множителя dx n ), причем эта вероятность зависит от неизвестного параметра распределения . Определение. Оценкой параметра по методу МП называется значение * , при котором функция максимального правдоподобия ( X , ) достигает наибольшего значения, как функция переменной , в области . Замечание. Т.к. функция ln x монотонна, то максимумы функции ( X , ) совпадают с максимумами функции L ( X , ) , которая более проста для исследования на экстремумы. Пример. Пусть X 1 , X 2 , X n - выборка из распределения Пуассона с неизвестным параметром . Требуется найти оценку по методу МП. Для случайной величины распределенной по закону Пуассона P( m) n X i e L X , ln i 1 X i! m e m! . n n n X i ln ln X i ! ln X i n ln X i !. i 1 i 1 i 1 Ищем максимум функции, используя методы дифференциального исчисления. Вычисляем L 1 n X i n , и приравнивая к нулю находим оценку для . i 1 14 1 n X i 1 i n 0 * 1 n X i X . Легко убедиться, что полученная точка является n i 1 точкой максимума. 15