Интервальное оценивание Доверительный интервал и вероятность Оценка параметра распределения является приближенной величиной, поэтому чтобы использовать ее необходимо знать погрешность оценки, то есть границы a и b интервала, в котором находится истинное значение оцениваемого параметра. Поскольку эти границы могут быть определены только на основании случайных результатов опыта, то они также являются случайными величинами. Следовательно, необходимо не только указать интервал (a, b) , но и указать надежность этого интервала, то есть вероятность того, что истинное значение параметра будет лежать в данном интервале. Следует заметить, что чем больше уверенность, что параметр принадлежит интервалу, то тем больше интервал. Так что искать интервал, которому принадлежит с вероятностью 1 бессмысленно - это вся область возможных значений параметра. Определение. Интервал a, b , содержащий неизвестный параметр с заданной вероятностью , называют доверительным интервалом соответствующим доверительной вероятности . То есть, если Pa b , то a, b - доверительный интервал, а доверительная вероятность. Замечание 1. Так как случайными являются границы интервала, а не параметр , то обычно говорят "интервал (a, b) накрывает параметр ", а не " содержится в интервале (a, b) ". Замечание 2. Для дискретных распределений точное равенство Pa b возможно не для всех значений , в этом случае под доверительным интервалом, соответствующим вероятности понимается интервал (a, b) , удовлетворяющий условию Pa b . Определение. Интервал a, b называется асимптотическим доверительным интервалом для параметра соответствующим доверительной вероятности , если Pa b n . Число 1 называют уровнем значимости, оно определяет вероятность того, что доверительный интервал не накроет оцениваемый параметр. Уровень значимости отделяет события практически невозможные от возможных. Выбор конкретного значения (или ) зависит от объема выборки и характера решаемой задачи. Обычно 0,9; 0,95; 0,99 . Общий принцип построения доверительных интервалов таков: 23 1) Находим статистику ( X , ) , зависящую от неизвестного параметра , закон распределения которой известен (и не зависит от ). Причем необходимо, чтобы статистика ( X , ) была обратима относительно . 2) Находим квантили 1 и 2 распределения статистики ( X , ) , такие что P 1 ( X , ) 2 . Заметим, что существует бесконечное множество пар чисел 1 , 2 , для которых P 1 ( X , ) 2 . Обычно в качестве 1 , 2 выбирают квантили распределения статистики ( X , ) уровней / 2 и 1 / 2 соответственно. Напомним, что квантилем порядка случайной величины называется значение , для которого P( ) . (см. рис.) 3) Разрешив неравенство 1 ( X , ) 2 , относительно находим границы доверительного интервала. Аналогично находится и асимптотический доверительный интервал, с той лишь разницей, что на первом этапе находим статистику ( X , ) закон распределения которой при n стремится к известному закону, не зависящему от параметра . Доверительный интервал для математического ожидания нормальной величины при известном среднеквадратическом отклонении . Пусть X 1 , X 2 ,, X n выборка, полученная из нормальной генеральной совокупности с N a, 2 известным среднеквадратичным отклонением . Требуется построить доверительный интервал для параметра a , соответствующий доверительной вероятности . Так как каждая из величин X i распределена по закону N a, 2 , то выборочное среднее X 1 n Xi n i 1 D( X ) распределено также нормально с параметрами M ( X ) M ( ) a , X a X a D( ) 2 N 0,1 . n . Тогда n n 2 /n Найдем 1 и 2 , для которых P1 2 . Так как распределение N 0,1 симметрично, то разумно взять 1 2 , где 2 1 / 2 - квантиль распределения N 0,1 порядка 1 / 2 (рис). Тогда: 1 / 2 n или X 1 / 2 n X a 1 / 2 , aX 1 / 2 n (3.1) 24 X a X , или где 1 / 2 n Замечание 1. Если для нахождения квантилей используется функция Лапласа (x) , то следует использовать соотношение: ( 1 / 2 ) 1 . 2 2 Пример. Найти доверительный интервал для математического ожидания нормальной случайной величины X с надежностью 0,9 , если n 16 , X 20 , 4 . Решение. Имеем X - нормальная случайная величина с известным . Требуется построить доверительный интервал для математического ожидания этой величины, то есть для a . По таблицам функции Лапласа находим 1,645 , для которого параметра 0,90 2 0,45 . Следовательно, n 1,645 4 16 1,645 . Таким образом, с вероятностью 0,9 : 20 1,645 a 20 1,645 или 18,355 a 21,645 . Замечание 2. Если значение неизвестно, то с помощью статистики X a n невозможно построить точный доверительный интервал для параметра a нормальной случайной величины. Однако, при больших n величину можно заменить состоятельной оценкой) s 1 n X i X 2 (или n 1 i 1 как p s , то 1 D X a s n 1 n X i X 2 ), построив статистику 1 X a . Так n i 1 s n X a 0 N 0,1 , то есть статистику 1 s n можно использовать для построения АДИ для параметра a . Тогда, если / 2 , 1 / 2 - квантили P( 1 / 2 0 1 / 2 ) и искомый распределения N 0,1 то: P( 1 / 2 1 1 / 2 ) n интервал имеет вид: X 1 / 2 s n a X 1 / 2 s n . Кроме того, поскольку, в соответствии с центральной предельной теоремой, величина X M ( ) ( ) n распределена асимптотически нормально для любой случайной величины , имеющей конечные математическое ожидание и дисперсию, при больших n эту величину можно использовать для построения асимптотических доверительных интервалов для математического ожидания при любом законе распределения величины . Если же 25 неизвестна величина ( ) , то при больших n ее можно заменить состоятельными оценками s 1 n X i X 2 или n 1 i 1 Замечание 3. Функция 1 n X i X 2 . n i 1 D X a не годится для построения доверительного интервала для 2 /n нормальной случайной величины при известном параметре a , а тем более при неизвестном а. Действительно, разрешая неравенство относительно , мы получим n ( X a) 2 (при условии 1 2 ) - бесконечный доверительный интервал. Асимптотический доверительный интервал для параметра распределения Пуассона Пусть X 1 , X 2 ,, X n выборка, полученная из генеральной совокупности случайной величины , распределенной по закону Пуассона с неизвестным параметром . Требуется построить доверительный интервал для параметра , соответствующий доверительной вероятности . X M ( ) Рассмотрим статистику 1 ( ) n n X . В соответствии с ЦПТ, при n 1 0 N 0,1 . Пусть 1 / 2 квантиль распределения N 0,1 уровня 1 / 2 ( 1 ), тогда: P( 1 / 2 1 1 / 2 ) P( 1 / 2 n X 1 / 2 ) n P( 1 / 2 0 1 / 2 ) . Однако, разрешить неравенство относительно не просто из-за корня в знаменателе. Попробуем заменить в знаменателе на состоятельную оценку этого параметра * X , построив статистику 2 n X . Не изменится ли при этом характер сходимости? X p Вспомним свойство сходимости по распределению: если n а n c , то n n c . Тогда: 2 n Следовательно или X X X n X N 0,1 , т.к. P( 1 / 2 n P( X 1 / 2 X n X X X X X p 1. 1 / 2 ) n , X n 1 / 2 ) n . Таким образом, искомый асимптотический доверительный интервал уровня имеет вид: 26 X X 1 / 2 n X X X n 1 / 2 . (3.3) Асимптотический доверительный интервал для параметра показательного распределения Пусть X 1 , X 2 ,, X n выборка, полученная из генеральной совокупности случайной величины , распределенной по показательному закону E с неизвестным параметром . Требуется построить доверительный интервал для параметра , соответствующий доверительной вероятности . Рассмотрим статистику X M ( ) ( ) n n X 1 n X 1 . В соответствии с 1 ЦПТ, при n 0 N 0,1 . Пусть 1 / 2 квантиль распределения N 0,1 уровня 1 / 2 ( 1 ), тогда: P( 1 / 2 1 / 2 ) P( 1 / 2 n X 1 1 / 2 ) n P( 1 / 2 0 1 / 2 ) , 1 1 P 1 / 2 1 / 2 n . X nX nX X или Таким образом, искомый асимптотический доверительный интервал уровня имеет вид: 1 1 / 2 1 1 / 2 . X X nX nX (3.3) Распределения, связанные с нормальным Поставим задачу: построить точные ДИ для параметров нормального распределения. 1. Для параметра a при известном - уже построен - (3.1). 2. Для параметра a при неизвестном . 3. Для параметра 2 при известном a . 4. Для параметра 2 при неизвестном a . Для построения подходящих статистик, рассмотрим ряд распределений, связанных с нормальным. Гамма распределение и его свойства. Определение. Случайная величина имеет гамма распределение , , где 0 , 0 , если ее плотность распределения имеет вид: 27 1 x x e , x0 f ( x ) ( ) 0, x0 (3.4) Здесь ( ) t 1e t dt - гамма функция. ( ) ( 1)( 1) , (n) (n 1)! , (1 / 2) . 0 Найдем характеристическую функцию случайной величины , : (t ) M e it e itx 0 1 x 1 ( it ) x x e dx x e dx ( ) ( ) 0 it 1 ( it ) x (( it ) x) e d ( it ) x (1 ) ( )( it ) 0 ( it ) ( ) it (t ) (1 ) (3.5) Используя, характеристическую функцию легко найти математическое ожидание и дисперсию гамма-распределения: M ( ) , D ( ) . 2 Свойство 1. ,1 есть показательное распределение с параметром . e x , x 0 Действительно, если ,1 , то f ( x) - есть плотность распределения x0 0, случайной величины, распределенной по показательному закону с параметром . Свойство 2. Если N 0,1 , то 2 1 / 2,1 / 2 . Доказательство. Найдем функцию распределения 2 : x 1 F ( x) P ( x) P( x x ) 2 2 2 0 x 1/ 2 (1 / 2) z (1 / 2) 0 e t2 2 z t2 t z dt dt 1 2 z dz x 0 1 2z z 2 e dz z 1 / 2 1 2 e dz F1 / 2 ,1 / 2 ( x) Свойство 3. Если 1 , 2 ,, n независимы и i ,i , то 1 2 n , 1 i n . Доказательство. По свойству характеристической функции it it (t ) (t ) (1 ) (1 ) i 1 i 1 - случайной величины, распределенной по , 1 i n n i n 1 i n что есть характеристическая функция . 28 Свойство 4. Если 1 , 2 ,, k независимы и имеют стандартное нормальное распределение, то 12 22 k2 1 / 2,k / 2 . Доказательство. Вытекает из свойств 2 и 3. Распределение "хи-квадрат" Определение. Распределение суммы квадратов k независимых стандартных нормальных случайных величин называют распределением "хи-квадрат" с k степенями свободы и обозначают k2 . (Саму случайную величину также часто обозначают k2 ). Согласно этому определению и свойству 4 предыдущего раздела, k2 - есть гамма распределение 1 / 2 ,k / 2 . Следовательно, плотность распределения k2 : k x 1 1 f x k 2 x2 e 2, x 0, 2 k 2 (3.6) а основные числовые характеристики M ( k2 ) (k 2) (1 2) k , D( k2 ) k / 2 (1 2) 2 2k , мода распределения, при k 2 , равна k 2 . Графики плотности вероятностей для различных степеней свободы k приведены на рис Если случайные величины и независимы и k2 , m2 , то, очевидно, их сумма k2 m . Распределение Стьюдента Определение. Пусть - случайная величина распределенная по закону N 0,1 , а k2 независимая от нее случайная величина распределенная по закону хи-квадрат с k степенями свободы. Тогда распределение величины tk (3.7) k2 k называется распределением Стьюдента с k степенями свободы и обозначают Tk . Плотность распределения Стьюдента: k 1 k 1 2 2 1 2 1 x , xR f x k k k 2 Числовые характеристики: M (t k ) 0 , D (t k ) (3.8) k . Распределение Стьюдента симметрично k 2 относительно M (t k ) 0 . 29 Так как при k , согласно закону больших чисел, k2 k 1 k 2 p i M 2 M 12 1 , k i 1 то при k t k N 0,1 . Преобразования нормальных выборок. Лемма Фишера Теорема 1 (об ортогональном преобразовании нормального вектора). Пусть X {X 1 , X 2 ,, X n } - случайный вектор, координаты которого независимы и имеют стандартное нормальное распределение, а Y CX , где C - ортогональная матрица порядка n n (т.е. CC T E ),. Тогда координаты Yi Cij X j вектора Y независимы и имеют j 1 стандартное нормальное распределение. Доказательство. Запишем плотность распределения вектора X {X 1 , X 2 ,, X n } . Так как величины X 1 , X 2 ,, X n независимы и имеют стандартное нормальное распределение, то: x2 n n 1 2j f X ( x ) f X ( x1 , x2 ,, xn ) f X j ( x j ) e 2 j 1 j 1 где x 2 1 2 n e 1 2 n x 2j j 1 1 2 n e 1 2 x 2 , n x T x x 2j . j 1 Чтобы записать плотность распределения вектора Y , воспользуемся формулой для плотности при линейном преобразовании вектора: если то Y CX , fY ( x ) 1 f X (C 1 x ) . Тогда, с учетом того, что C 1 C T и det C 1 получим: | det C | fY ( x ) f X (C T x ) 1 2 e n 1 T C x 2 . Но, умножение вектора на ортогональную матрицу не меняет нормы вектора, действительно: CT x Следовательно, f ( x ) Y 1 2 2 n CT x e 1 x 2 2 C x x T T T 2 CC T x x T x x . f X ( x ) , т.е. величины Y j также как и величины X j , независимы и имеют стандартное нормальное распределение. Теорема 2 (лемма Фишера). Пусть X {X 1 , X 2 ,, X n } - выборка из N 0,1 и Y CX , где C - ортогональная матрица порядка n . Тогда для любого k 1,2, , n статистика n 2 ( X ) X i2 Y12 Yk2 распределена по закону n k , и не зависит от Y1 , Y2 , , Yk . i 1 30 Доказательство. Так как Y CX , то n n i 1 i 1 Y j2 X 2j (см. доказательство предыдущей n n теоремы). Тогда ( X ) X i2 Y12 Yk2 Yi 2 Y12 Yk2 Yk21 Yn2 n2 k . i 1 i 1 Основные следствия леммы Фишера Пусть X независимы и имеют нормальное распределение X 1 , X 2 ,, X n N a , 2 , 1 n 1 n 1 n 2 2 X i a 2 . Тогда: X s X X D , , 0 i i n i 1 n i 1 n 1 i 1 X a 1. n 2. nD0 (3.9) X a 2 i n ; i 1 2 n 2 (n 1) s 2 3. N0,1 ; 2 (3.10) 2 X X i n21 ; i 1 n (3.11) X и s 2 независимы; 4. n 5. X a s2 Tn 1 . (3.12) Доказательство. Доказано ранее. 1. Xi a N 0,1 , то величина 2. Так как величины 3. (n 1) s 2 Рассмотрим статистику X . 2 2 X a 2 i n . i 1 2 n zi Введем стандартные нормальные величины n X X X i i 1 nD0 2 Xi a и выразим X через zi : 2 n n X a X a X a 1 n 2 i z i z , где z zi . То есть n i 1 i 1 i 1 можно изначально считать, что величины X i имеют стандартное нормальное распределение. Попробуем применить к X лемму Фишера, для этого представим X в виде: X (n 1) s 2 X i X X i 2 nX 2 X i 2 Y12 , где Y1 n X . n i 1 2 n n i 1 i 1 Покажем, что найдется ортогональная матрица C такая, что вектор Y CX , будет иметь координату Y1 n X . Возьмем в качестве первой строки матрицы C строку, 31 1 1 1 1 1 1 , , , . Тогда Y1 X1 X 2 X n n X . Так как норма этой n n n n n n строки (длина вектора) равна 1, то эту строку всегда можно дополнить до ортогональной матрицы (строки и столбы ортогональной матрицы – есть ортонормированные вектора). n 2 Тогда в соответствии с леммой Фишера, статистика X (n 1) s 2 X i Y12 имеет i 1 распределение хи-квадрат с n 1 степенью свободы. В соответствии с леммой Фишера, статистика 4. n X (n 1) s 2 X i 2 Y12 и i 1 величина Y1 1 n X независимы, то есть s 2 и X независимы. Преобразуем 5. n X a s2 n X a 1 (n 1) s 2 2 величина n X a s2 (n 1) s 2 n 2 (n 1) n X a N 0,1 , а n21 , и по следствию 4 эти величины независимы. Следовательно, X a . Величина 1 Tn 1 . (n 1) s 2 (n 1) 2 Точные доверительные интервалы для параметров нормального распределения 1. Для параметра a при известном . С вероятностью 1 : X 1 / 2 n a X 1 / 2 n , где 1 / 2 - квантиль стандартного нормального распределения уровня 1 / 2 . 2. Для параметра a при неизвестном . Из следствия 5 леммы Фишера, учитывая симметрию распределения Стьюдента, с вероятностью 1 получим: X 1 / 2 s n a X 1 / 2 s n 1 / 2 , (3.13) где 1 / 2 - квантиль распределения Стьюдента уровня 1 / 2 . Заметим, что квантиль 1 / 2 распределения Стьюдента называется коэффициентом Стьюдента t уровня . 3. Для параметра 2 при неизвестном a . Из следствия 2 леммы Фишера, с вероятностью 1 получим: 32 nD0 1 / 2 2 nD0 /2 , (3.14) где / 2 , 1 / 2 - квантили распределения хи-квадрат с n степенями свободы уровней / 2 и 1 / 2 соответственно. 4. Для параметра 2 при неизвестном a . Из следствия 3 леммы Фишера, с вероятностью 1 получим: (n 1) s 2 1 / 2 2 (n 1) s 2 /2 , (3.15) где / 2 , 1 / 2 - квантили распределения хи-квадрат с n 1 степенью свободы уровней / 2 и 1 / 2 соответственно. Пример 1. Найти доверительный интервал для дисперсии нормальной величины с надежностью 0,9 , если n 9, s 2 20 . Решение. По таблицам распределения 2 для k n 1 8 степеней свободы находим квантили распределения уровней 2 (1 0,9) / 2 0,05 и 1 2 0,95 : / 2 2,73 , 1 / 2 15,5 . Следовательно, доверительный интервал: 8 20 8 20 2 15,5 2,73 или 10,32 Dx 58,61 . Пример 2. Найти доверительный интервал для математического ожидания нормальной случайной величины с надежностью 0,9 , если n 16 , X 20 , s 4 . Решение. По таблицам распределения Стьюдента для k 16 1 15 степеней свободы находим коэффициент Стьюдента уровня 0,9 : t 1,753 . Таким образом, с вероятностью 0,9 : 20 1,753 4 15 a 20 1,753 4 15 или 18,189 a 21,811 . 33