Математическая статистика. 4. Оценивание параметров распределения 4.0. Введение В главах 4 – 6 содержится учебный материал по темам: «Оценивание параметров распределения», «Проверка статистических гипотез», «Корреляционный и регрессионный анализ».Рассмотрены все основные понятия и результаты, относящиеся к этим темам. Как и в главах по теории вероятностей, много внимания уделено простоте изложения и доступности материала для самостоятельного изучения. Приводится большое количество наглядных примеров, иллюстрирующих рассматриваемые понятия и результаты, и упражнений, которые предлагается выполнить самостоятельно. Часть теоретического материала изложена в разобранных примерах и включёна в упражнения. Упражнения снабжены ответами и, в случае необходимости, указаниями. Кроме того, дополнительно указаны задачи, которые рекомендуется решить для закрепления знаний и навыков, а также источники, содержащие теоретический материал по данному разделу темы. Каждый раздел заканчивается контрольными вопросами, относящимися ко всем новым понятиям и результатам, рассмотренным в нём. Важной составной частью процесса изучения математической статистики является лабораторный практикум, включающий, в частности, контроль знаний и навыков. Поэтому по материалу глав 4 – 6 не предлагаются контрольные и тестовые задания. Рекомендуется следующий порядок работы с методическим материалом по математической статистике: 1. Внимательно ознакомиться с определениями новых понятий и связанными с ними результатами. Запомнить их. 2. Разобрать приведённые примеры и убедиться в правильности всех выкладок. 3. Выполнить упражнения и сравнить полученные результаты с ответами. 4. Решить задачи, рекомендованные для самостоятельного решения. 5. Ознакомиться с рекомендованным теоретическим материалом. 6. Ответить письменно на контрольные вопросы к изучаемому разделу и проверить правильность ответов, вернувшись к соответствующему материалу этого раздела. Если ответы на часть вопросов оказались ошибочными, повторить ответы на них через некоторое время. Желаем успеха! 4.1. Предмет математической статистики Основные понятия Математическая статистика – это наука, изучающая случайные явления посредством обработки и анализа результатов наблюдений и измерений. Первая задача математической статистики – указать способы получения, группировки и обработки статистических данных, собранных в результате наблюдений, специально поставленных опытов или произведённых измерений. Вторая задача математической статистики – разработка методов анализа статистических сведений в зависимости от целей исследования. Например, целью исследования может быть: - оценка неизвестной вероятности события; - оценка параметров распределения случайной величины; - оценка неизвестной функции распределения случайной величины; - проверка гипотез о параметрах распределения или о виде неизвестного распределения; - оценка зависимости случайной величины от одной или нескольких случайных величин и т.д. Случайную величину X будем называть генеральной совокупностью X . Исходным материалом для изучения свойств генеральной совокупности X являются статистические данные, т.е. значения X , полученные в результате повторения случайного опыта (измерения случайной величины X ). Предполагается, что опыт может быть повторён сколько угодно раз в неизменных условиях. Это означает, что распределение случайной величины X i , i 1, 2, ... , заданной на множестве исходов i -го опыта, не зависит от i и совпадает с распределением генеральной совокупности X . Набор n независимых в совокупности случайных величин X 1 , X 2 , ... , X n , где X i соответствует i -му опыту, называют случайной выборкой из генеральной совокупности X . Число n называется объёмом выборки. Совокупность чисел x1 , x 2 , ... , x n , полученных в результате n -кратного повторения опыта по измерению генеральной совокупности X , называется реализацией случайной выборки или просто выборкой объёма n . В основе большинства результатов математической статистики лежит выборочный метод, состоящий в том, что свойства генеральной совокупности X устанавливаются путём изучения тех же свойств на случайной выборке. 4.2. Предварительная обработка выборки Прежде, чем перейти к детальному анализу статистических данных, обычно проводят их предварительную обработку. Иногда её результаты уже сами по себе дают ответы на многие вопросы, но в большинстве случаев они являются исходным материалом для дальнейшего анализа. Вариационный ряд Простейшее преобразование статистических данных является их упорядочивание по величине. Выборка x1 , x 2 , ... , x n объёма n из генеральной совокупности X , упорядоченная в порядке неубывания элементов, т.е. x 1 x 2 ... x n , называется вариационным рядом: x 1 , x 2 , ... , x n . Разность между максимальным и минимальным элементами выборки x n x 1 называют размахом выборки. Статистический ряд Пусть выборка x1 , x 2 , ... , x n содержит m различных чисел z 1 , z 2 , ... , z m , где m n и z 1 z 2 ... z m , причём число z j встречается в выборке n j раз, j 1, 2, ... , m . Так бывает либо тогда, когда генеральная совокупность X - дискретная случайная величина, либо когда X - непрерывна, но её значения при измерении округляют. n Число n j называют частотой элемента выборки z j , а отношение j n относительной частотой этого элемента. Статистическим рядом для данной выборки x1 , x 2 , ... , x n называют таблицу, которая в первой строке содержит значения выборки z j (напомним: z 1 z 2 ... z m ), во второй строке – частоты n j , а в третьей строке – относительные частоты nj n этих значений: Таблица 4.2.1 Значения z j z 1 z 2 … z m Частоты n j n1 n2 … nm Относительные частоты n j n n1 n n2 n … nm n Статистические данные, представленные в виде статистического ряда, называют группированными. Другой способ группировки, который используют обычно при больших объёмах выборки ( n 50 ) состоит в следующем. Отрезок x 1; x n , содержащий выборку x1 , x 2 , ... , x n , разбивают на k промежутков j d j 1 ; d j , как правило, одинаковой длины x n x 1 . Далее, подсчитывают частоты n j попадания m выборочных значений xi в промежутки j и относительные частоты nj n . Получающийся в результате этого статистический ряд Таблица 4.2.2 Промежутки j d 0 ;d1 d1 ;d 2 … k d m1 ; d m Частоты n j n1 n2 … nm Относительные частоты ~p j n j n n1 n n2 n … nm n называют интервальным статистическим рядом. Замечания 1. Может оказаться, что часть значений выборки xi совпадают с некоторыми границами d j между соседними промежутками j и j 1 . Тогда при подсчёте частот n j и n j 1 такие значения xi учитывают одним из следующих способов: а) считают, что xi j 1 , т.е. каждое выборочное значение xi d j увеличивает частоту n j 1 на единицу и не влияет на частоту n j ; б) каждое значение выборки xi d j «делится между промежутками j и j 1 поровну», т.е. и n j , и n j 1 увеличиваются за счёт этого значения на 1 2 . При таком подсчёте частоты n j могут оказаться полуцелыми, например, n5 12,5 . 2. Число m промежутков, на которые разбивают отрезок x 1; x n , выбирают в зависимости от объёма выборки n . Существуют различные критерии выбора k , например, ориентировочную оценку числа промежутков можно получить из соотношения m 1,86n 0,33 , где a - целая часть a . 3. В некоторых источниках в качестве статистического ряда рассматривается таблица, содержащая либо только частоты n j , либо только относительные частоты nj n . Эмпирическая функция распределения Для любого x R обозначим через nx число значений выборки x1 , x 2 , ... , x n , удовлетворяющих неравенству xi x . Эмпирической функцией распределения называется функция nx ~ . Fn x n ~ ~ Очевидно, Fn x 0 при x z 1 и x z m , кроме того, Fn x - кусочно-постоянная функция с разрывами первого рода (скачками величины n j ) в точках x z j , j 1, 2, ... , m . Пример графика эмпирической функции распределения показан на рис. 4.2.1 (здесь n 10 и все выборочные значения x i различны). ~ Fn x x 1 x 2 x n 1 … x n x Рис. 4.4.1. График эмпирической функции распределения Гистограмма относительных частот Графическим представлением статистического ряда (см. табл. 4.2.2) является гистограмма – график эмпирической плотности распределения генеральной совокупности непрерывного типа. pn x d 0 d1 … d m 1 d m x Рис. 4.2.2. Гистограмма относительных частот Эмпирической плотностью распределения, соответствующей выборке x1 , x2 , ... , xn , называется кусочно-постоянная функция nj ~ , x d j 1 ; d j , j 1, 2, ... , m p j n pn x . 1 n 0, x x ; x (4.2.1) Её график называют гистограммой, см рис. 4.2.2. Часто гистограммой называют диаграмму, составленную из прямоугольников (столбиков) с основаниями j d j 1 ; d j и высотами m j 1 nj n 1 n m nj n , j 1, 2, ... , m . Поскольку n j 1 , площадь такой диаграммы равна 1. Кроме того, площади j 1 n прямоугольников равны относительным частотам ~p j j попадания элементов n выборки в промежутки j d j 1 ; d j статистического ряда, см. рис 4.2.3. pn x d 0 d1 … d m 1 d m x Рис. 4.2.3. Гистограмма Наряду с гистограммой используют и другое графическое представление статистического ряда – полигон частот. Это ломанная, звенья которой соединяют середины горизонтальных отрезков, ограничивающих гистограмму сверху, см. рис. 4.2.4. pn x d 0 d1 … d m 1 d m x Рис. 4.2.4. Полигон частот Полигон частот используют также для представления статистических данных о дискретной генеральной совокупности X . В этом случае на оси абсцисс откладывают значения z j , полученные в измерениях, и отмечают на координатной плоскости точки z j , n j , затем соседние точки соединяют отрезками прямой. Результаты предварительной обработки выборки несут информацию о законе распределения генеральной совокупности X . Рассмотрим это подробнее. Пример 4.2.1. Покажем, что для любого фиксированного x R последовательность ~ случайных величин Fn x сходится по вероятности при n к значению FX x функции распределения генеральной совокупности X в точке x : ~ p Fn x FX x , n (4.2.2) (теорема Гливенко). ◄Число nx значений выборки x1 , x 2 , ... , x n , удовлетворяющих неравенству xi x можно рассматривать как число успехов в серии из n испытаний Бернулли, где i -е испытание состоит в измерении i -ой реализации x i случайной величины X и успехом считается выполнение условия xi x . Вероятность успеха равна p PX x FX x . ~ Fn x , FX x x 1 x 2 … x n 1 x n x Рис. 4.2.5. Приближённое представление функции распределения FX x с помощью Fn x ~ Согласно теореме Бернулли (один из законов больших чисел) nx p p или n ~ p Fn x FX x при n , т.е. соотношение (4.2.2) выполняется.► Таким образом, эмпирическую функцию распределения Fn x можно ~ рассматривать как приближённое представление функции распределения FX x генеральной совокупности X , см. рис. 4.2.5. С увеличением объёма выборки n точность и достоверность этого представления возрастают. Упражнения 4.2.1. С помощью теоремы Бернулли докажите, что для генеральной совокупности X дискретного типа относительные частоты nj n значений z j (см. табл. 4.2.1) сходятся по вероятности к вероятностям p j PX z j этих значений: nj p p j P X z j , n . n (4.2.3) 4.2.2. Докажите, что для генеральной совокупности X непрерывного типа относительные частоты nj попадания значений выборки в промежутки j (см. n табл. 4.2.2) сходятся по вероятности к вероятностям p j PX j попадания в эти промежутки значений генеральной совокупности X : nj n p p j P X j , n . (4.2.4) Замечания 1. Соотношение (4.2.3) означает, что для генеральной совокупности дискретного типа X статистический ряд (табл. 4.2.1) даёт приближённое представление закона распределения (ряда распределений) X . 2. Из (4.2.3) следует, что в случае генеральной совокупности X непрерывного типа статистический ряд (табл. 4.2.2) приближённо представляет закон распределения X , т.к. позволяет приближённо найти вероятность попадания значений случайной величины X в любое множество, являющееся объединением каких-либо промежутков j 3. Гистограмма относительных частот pn x даёт приближённое представление функции плотности распределения вероятностей f X x генеральной совокупности X В самом деле, из (4.2.3) получаем: nj n p f X x dx . Это означает, что если j длина промежутков j достаточно мала и объём выборки n достаточно велик, то можно утверждать, что с вероятностью, как угодно близкой к 1 приближённое равенство nj f X x j выполняется с как угодно большой точностью ( x j - середина n nj промежутка j ). Отсюда n pn x f X x j , x j . Итак, при большом n и малом pn x f X x , x R , (4.2.5) см. рис. 4.2.6. pn x , f X x … d 0 d1 d m 1 d m x Рис. 4.2.6. Иллюстрация к соотношению (4.2.5) Сказанное выше означает, что предварительная обработка выборки, несмотря на её относительно небольшую трудоёмкость, даёт достаточно полное и наглядное представление о законе распределения генеральной совокупности X . Числовые характеристики выборочного распределения ~ Рассмотрим выборку x1 , x 2 , ... , x n как генеральную совокупность X ~ дискретного типа со значениями x1, x2 , ... , xn , которые X принимает с равными вероятностями PX xi pi , i 1, 2, ... , n . 1 n ~ По определению начальные моменты ~ k и центральные моменты ~ k такой генеральной совокупности равны, соответственно, x ~ M X~ k k n k i pi i 1 1 n n xik i 1 k xi ~1 k pi n1 xi x k , где ~ M X~ M X~ k n n i 1 i 1 x1 n n xi . i 1 Эти числовые характеристики называются выборочными характеристиками. Выборочную характеристику ~ 1 k n n xik (4.2.6) i 1 называют выборочным начальным моментом k -го порядка. В частности, момент ~ x1 1 n n xi (4.2.7) i 1 называется выборочным средним. Выборочная характеристика ~ 1 k n n xi x k (4.2.8) i 1 называется выборочным центральным моментом k -го порядка. В частности, при k 2 получаем выборочную дисперсию 1 ~ DX n n x i x 2 . (4.2.10) i 1 Замечание При большом объёме выборки ( n 50 ) перечисленные характеристики обычно находят по группированным данным (и 4.2.2). Так, если X - генеральная совокупность дискретного типа, то вместо формул (4.2.6) - (4.2.10) для подсчёта выборочных моментов ~ k и ~ k используют равенства ~ 1 k n m k ~ 1 n j z j , 1 n j 1 m ~ 1 n j z j , k n j 1 m n j z j x k j 1 2 1 m , D~ X n j z j x , см. табл. n j 1 4.2.1. Если же генеральная совокупность X относится к непрерывному типу, то соответствующие равенства выглядят так: ~ 1 k n m n j zˆ j k j 1 m k 2 1 m 1 m , x 1 n j zˆ j , ~ k n j zˆ j x , D~ X n j zˆ j x , n n j 1 j 1 n j 1 d d где zˆ j j j 1 - середины промежутков разбиения, см табл. 4.2.2 2 Аналогично вводятся выборочные характеристики многомерных генеральных совокупностей (случайных векторов). Например, пусть x1, y1 , x2 , y2 , ... , xn , yn выборка объёма n из двумерной генеральной совокупности X ,Y . Выборочную характеристику ~ 1 k XY n n xi x yi y i 1 (4.2.11) называют выборочной ковариацией, а характеристику 1 n ~ k XY ~ ~ D X DY ~ XY 1 n n n xi x yi y i 1 n n xi x yi y 2 i 1 1 n xi x yi y i 1 n (4.2.12) n xi x yi y 2 i 1 2 i 1 2 i 1 - выборочным коэффициентом корреляции. Рассмотрим формулы, упрощающие вычисление выборочных характеристик (4.2.10) – (4.2.12). Пример 4.2.2. Покажем, что 1 ~ DX n ~ ◄ DX 1 n n 1 n n xi2 x 2 i 1 1 n 2 xi nx 2 . n i 1 (4.2.13) 1 1 1 1 xi x 2 xi2 2 xxi x 2 xi2 2 x xi x n n n i 1 xi2 2 x 2 x 2 i 1 1 n n n n i 1 xi2 x 2 i 1 n n i 1 i 1 n n i 1 1 n 2 xi nx 2 . n i 1 ~ Заметим, что равенство D X 1 n n xi2 x 2 ~ 2 ~12 для выборочных моментов i 1 является аналогом соответствующей формулы для теоретических (обычных) моментов: DX M X 2 M 2 X 2 X 12 X .► Упражнения 4.2.3. Покажите, что ~ 1 k XY n n xi yi x y . i 1 ~ ~ ~ 4.2.4. Убедитесь в том, что выборочные характеристики x , y , D X , D X , k XY и ~ XY двумерной генеральной совокупности X , Y можно вычислять по выборке x1, y1 , x2 , y2 , ... , xn , yn в следующей последовательности: а) подсчитать суммы n i 1 б) затем вычислить n xi , i 1 n yi , i 1 n xi2 , i 1 yi2 и n xi yi ; i 1 Qx n n xi x 2 i 1 Qy xi2 i 1 n n yi y 2 i 1 Qxy i 1 yi2 2 1 n xi , n i 1 2 1 n yi , n i 1 n n i 1 i 1 n n 1 xi x yi y xi yi xi yi ; n i 1 i 1 в) окончательно найти x 1 n n xi , y i 1 1 n n yi ; i 1 ~ 1 1 1 ~ ~ ~ Qxy . DX Qx , DY Q y , k XY Q xy , XY n n n Q xQ y Задание для самостоятельной работы 1. Решите задачи: [1], №№ 19.5, 19.7, 19.9, 19.11, 19.25, 19.33. 2. Ознакомьтесь с теоретическим материалом: [2], с. 86 – 89. Контрольные вопросы 1. В чём состоят основные задачи математической статистики? 2. Что называется случайной выборкой и просто выборкой из генеральной совокупности и в чём состоит различие между ними? 3. Что называют вариационным рядом? 4. Дайте определение статистического ряда и интервального статистического ряда. 5. Каким образом статистический ряд представляет закон распределения генеральной совокупности? Докажите соответствующее утверждение. 6. Что такое эмпирическая функция распределения? 7. Сформулируйте и докажите теорему Гливенко. Каким образом эмпирическая функция распределения представляет закон распределения генеральной совокупности? 8. Что называют гистограммой относительных частот и полигоном частот? 9. Как гистограмма связана с законом распределения непрерывной генеральной совокупности? 10. По каким формулам вычисляются выборочные начальные и центральные моменты? 11. Запишите формулы для подсчёта выборочных моментов по группированным данным. 4.3. Точечные оценки параметров распределения Одна из задач математической статистики – оценка неизвестных параметров закона распределения генеральной совокупности X . При этом, во многих случаях вид закона распределения X считается известным и задача сводится к нахождению приближённых значений неизвестных параметров этого распределения с использованием выборки из генеральной совокупности. Пусть - неизвестный параметр распределения, а его приближённое значение ~ находится по выборке x1 , x 2 , ... , x n с помощью функции n x1, x2 , ... , xn элементов выборки: n x1, x2 , ... , xn . Для выяснения свойств, которыми должна обладать ~ ~ ~ ~ функция n , её рассматривают как функцию n n X1, X 2 , ... , X n случайной выборки X 1 , X 2 , ... , X n . Любую функцию случайной выборки называют статистикой. Итак, точечной оценкой параметра распределения генеральной совокупности ~ ~ X называется статистика n X 1 , X 2 , ... , X n , реализации которой n x1 , x2 , ... , xn используются в качестве приближённых значений этого параметра. ~ В дальнейшем, наряду со статистикой n X 1 , X 2 , ... , X n , точечной оценкой ~ параметра мы будем называть и функцию n переменных n x1 , x2 , ... , xn . Аналогичным образом можно ввести точечные оценки и для вектора неизвестных параметров 1, 2 , ... , m . Качество оценки характеризуется основными следующими основными свойствами. Несмещённость точечной оценки. ~ Статистику n X 1 , X 2 , ... , X n называют несмещённой оценкой параметра , если её математическое ожидание совпадает с для любого фиксированного n : ~ M n X1, X 2 , ... , X n , n N . (4.3.1) Если же это требование выполняется в пределе, т.е. ~ lim M n X1, X 2 , ... , X n , n то оценку n называют асимптотически несмещённой. ~ Несмещённость оценки означает её верность «в среднем», отсутствие систематической ошибки. Пример 4.3.1. n Докажем, что выборочное среднее x 1 xi (см. (4.2.7)) является несмещённой n i 1 оценкой математического ожидания m M X генеральной совокупности X . ◄Найдём математическое ожидание статистики X 1 M X M n 1 Xi i 1 n n 1 n Xi : n i 1 n M X i (здесь мы учли свойство линейности i 1 математического ожидания). Поскольку случайные величины X i имеют тот же закон распределения, что и генеральная совокупность X , можно записать: M X i M X m . Поэтому M X 1 n n m m , т.е. математическое ожидание i 1 выборочного среднего X равно параметру m , что означает несмещённость статистики X как оценки этого параметра.► Упражнения. n ~ 1 4.3.1. Доказать, что выборочные начальные моменты k xik (см. 4.2.6)) n i 1 являются несмещёнными оценками соответствующих начальных моментов k M X k генеральной совокупности X , k 1, 2, ... . 4.3.2. Докажите, что выборочная дисперсия S 02 1 n n xi m 2 , (4.3.2) i 1 m M X считается известным, является несмещённой оценкой дисперсии DX 2 генеральной совокупности. 4.3.3. Проверьте несмещённость оценок, если n ci 1 : i 1 n а) m~ ci xi для параметра m M X ; i 1 n б) ~ 2 ci xi m 2 для параметра 2 DX , m M X известно. i 1 4.3.4. Докажите формулу для дисперсии выборочного среднего DX 2 , n (4.3.3) где 2 DX . Пример 4.3.2. 1 n ~ Исследуем несмещённость выборочной дисперсии D X n xi x 2 (см. i 1 (4.2.10)) как оценки дисперсии DX 2 генеральной совокупности. ~ ◄Преобразуем формулу для DX : 1 ~ DX n n xi x 2 i 1 1 n n xi m x m2 i 1 1 n n n 1 xi m2 2x m xi m n 1 i i 1 x m 1 n n n n x m 2 n xi m2 2x m2 n nx m2 n xi m2 x m2 . 1 i 1 1 1 i 1 i 1 Отсюда с учётом (4.3.3) для математического ожидания статистики 1 ~ DX n n X i X получаем: i 1 1 ~ M DX M n 2 n i 1 2 X i m2 X m 1 n X n 2 M X i m 2 M m n n 2 i 1 D X i D X 2 D X 2 n 1 2 n n 1 2 . n Итак, M D X ~ n 1 2 ~ 2 , т.е. DX - это смещённая оценка дисперсии DX 2 n генеральной совокупности X . Однако lim M DX lim ~ n n 1 2 2 , что означает n n асимптотическую несмещённость этой оценки.► Замечания n n 1 ~ 1. Из примера 4.3.2 следует, что M DX 2 2 . Поэтому n 1 n 1 n n исправленная выборочная дисперсия S 2 n ~ DX , т.е. n 1 1 n xi x 2 S n 1 i 1 2 (4.3.4) - это несмещённая оценка дисперсии DX 2 . 2. Перечислим несмещённые оценки математического ожидания m и дисперсии 2 генеральной совокупности X : n x1 n xi S 02 1 n S2 (выборочное среднее) – оценка m ; i 1 n xi m 2 (выборочная дисперсия) – оценка 2 при известном m ; i 1 1 n xi x 2 (исправленная выборочная дисперсия) – оценка 2 при n 1 i 1 неизвестном m . Состоятельность статистической оценки ~ Статистику n X 1 , X 2 , ... , X n называют состоятельной оценкой параметра , если с ростом объёма выборки n она сходится по вероятности к этому параметру: ~ n p X 1 , X 2 , ... , X n , n . (4.3.5) Напомним: соотношение (4.3.5) означает, что для любого числа 0 ~ lim P n X 1 , X 2 , ... , X n 1 . Поэтому для состоятельной оценки n ~ n X 1 , X 2 , ... , X n отклонение её от менее, чем на как угодно малую величину становится при большом объёме выборки n событием, близким к достоверному. Иными словами, состоятельность оценки – это возможность с её помощью определить искомый параметр с любой точностью и как угодно большой достоверностью за счёт использования выборки достаточно большого объёма. Понятно, что несостоятельная оценка не представляет практического интереса. Пример 4.3.3. n Докажем, что выборочное среднее x 1 xi является состоятельной оценкой n i 1 математического ожидания m M X генеральной совокупности X с конечной дисперсией DX 2 . n ◄Запишем второе неравенство Чебышёва для статистики X 1 X i : n P X M X 1 DX 2 i 1 . Эта статистика является несмещённой оценкой математического ожидания m M X , см. пример 4.3.1, поэтому M X m . Далее, DX 2 , см. (4.3.3). Поэтому, а также с учётом свойства вероятности P 1 , n можно записать: 1 PX m 1 2 n 2 . Переходя в этих неравенствах к пределу p при n , получим: lim PX m 1 , т.е. X m при n и выборочное n n среднее x 1 xi есть состоятельная оценка параметра m M X .► n i 1 Упражнения. ~ 4.3.5*). Докажите, что если статистика n X 1 , X 2 , ... , X n является несмещённой ~ оценкой параметра и lim D n X1, X 2 , ... , X n 0 , то эта статистика является и n состоятельной оценкой параметра . ~ x1 xn 4.3.6. Проверьте несмещённость и состоятельность оценки m 1,n 2 параметра m M X . Пример 4.3.4. 1 ~ Докажем, что выборочная дисперсия D X n исправленная выборочная дисперсия S 2 n xi x 2 (см. (4.2.10)) и i 1 1 n xi x 2 являются состоятельными n 1 i 1 оценками дисперсии DX 2 генеральной совокупности X , имеющей конечный центральный момент 4 X . ◄В примере 4.3.2 показано, что 1 ~ DX n n X i m2 X m 2 . (4.3.6) i 1 Из состоятельности выборочного среднего как оценки параметра m (см. пример 4.3.3) следует, что p X m2 0 при n . (4.3.7) Из закона больших чисел для случайных величин X i m 2 с учётом существования 4 X имеем: 1 n 1 n 1 1 p M X i m 2 2 2 , т.е. X i m 2 n i 1 n n i 1 n D X i D X 2 n i 1 n p 2 при n . X i m 2 (4.3.8) i 1 ~ ~ p 2 при n , т.е. D X Сопоставив (4.3.6) – (4.3.8), убеждаемся, что DX состоятельная оценка дисперсии DX 2 . Поскольку S 2 n ~ n p DX , и 1 при n , то и S 2 2 , что означает n 1 n 1 состоятельность оценки S 2 .► Замечание. Можно доказать, что все выборочные начальные и центральные моменты (4.2.6), (4.2.8) являются состоятельными оценками соответствующих моментов генеральной совокупности, если последние существуют. Однако все эти оценки, кроме X , являются смещёнными (они асимптотически не смещены). Пример 4.3.5. Для серии из n испытаний по схеме Бернулли с неизвестной вероятностью успеха p найдём оценку параметра p и исследуем её свойства. ◄Пусть k n - число успехов в этой серии испытаний. Представим k n в виде k n n X i , где X i , i 1, 2, ... , n - индикатор успеха в i -м испытании, т.е. случайная i 1 величина, принимающая с вероятностью p значение 1 (успех в i -м испытании) и с вероятностью 1 p - значение 0 (неудача в i -м испытании). Очевидно, M X i 1 p 0 1 p p . В качестве оценки ~p вероятности успеха p рассмотрим относительную частоту успехов k n 1 k n , т.е. статистику ~p X 1, X 2 , ... , X n n n n n Xi . i 1 Эта оценка является несмещённой, т.к. 1 M ~ p X1, X 2 , ... , X n M n 1 Xi i 1 n n n M X i i 1 k Состоятельность оценки ~p n n 1 n n p p . i 1 непосредственно следует из теоремы Бернулли (закон больших чисел), которая утверждает, что k n p p при n .► n Эффективность точечной оценки ~ ~ Пусть имеются две несмещённые оценки 1n и 2n одного и того же параметра . Если дисперсии этих оценок удовлетворяют неравенству D1n D2n для ~ ~ любого фиксированного n , то следует предпочесть оценку D1n , поскольку ~ разброс этой оценки относительно значения меньше и, следовательно, она при одном и том же n даёт более точное значение искомого параметра. В таких случаях говорят, что оценка 1n эффективнее оценки 2n . ~ ~ Если существует такая несмещённая оценка *n параметра , что для любой ~ другой несмещённой оценки n того же параметра выполняется неравенство ~ ~ ~ ~ D *n D n , то оценка *n называется эффективной оценкой параметра . При проверке эффективности оценок используют неравенство Крамера-Рао: для любой несмещённой оценки n параметра выполняется условие ~ ~ D n ln M где I M ln 1 , nI f X X , , X непрерывна p X X , X дискретна 2 2 , . (4.3.9) Пусть для некоторой несмещённой оценки n неравенство (4.3.9) ~ ~ превращается в равенство. Это означает, что дисперсия D n достигла нижней границы для дисперсий всех несмещённых оценок параметра , т.е. оценка n ~ является эффективной. Пример 4.3.6. n Пусть X ~ N m, . Исследуем эффективность несмещённой оценки x 1 xi n i 1 параметра m . ◄Левая часть неравенства (4.3.9) уже найдена, см. (4.3.3): DX 2 . n (4.3.10) Подсчитаем выражение в правой части (4.3.9). В данном случае генеральная совокупность X непрерывна и f X x, m I m M ln M f X X , m m X m 2 2 2 M ln m 1 2 e X m 2 1 2 e 2 2 x m 2 2 2 2 . Поэтому ln M m 2 X m 2 2 2 2 1 M X m 2 2 1 4 2. 4 Таким образом, правая часть (4.3.9) равна 1 2 . nI n (4.3.11) Сравнивая (4.3.10) и (4.3.11), убеждаемся в том, что соотношение (4.3.9) превращается в равенство. Это означает эффективность выборочного среднего x1 n n xi как оценки математического ожидания нормальной генеральной i 1 совокупности X .► Пример 4.3.7. k Покажем, что относительная частота ~p n n успехов в серии из n испытаний по схеме Бернулли (см. пример 4.3.5) есть эффективная оценка вероятности успеха p. ◄Отметим, что оценка ~p является несмещённой. Найдём левую часть неравенства (4.3.9). Учитывая, что число успехов k n 1 n npq pq , т.е. p D k n ~ Bn, p , получаем: D ~ 2 Dk n n2 n n pq . D~ p n (4.3.12) Остановимся теперь на правой части (4.3.9). Генеральная совокупность X с вероятностью p принимает значение 1 и с вероятностью 1 p - значение 0, см. пример 4.3.4. Поэтому M p X X , p p p p ln ln 2 p 2 ln 1 p 1 p 2 ln p 1, p p X 0, p X ln 1 p 1 p p X 1, p p X 0, p p p p 2 2 2 1 1 pq 1 p . 2 q p pq pq p Таким образом, правая часть (4.3.9) равна 1 pq . nI n (4.3.13) Из (4.3.12) и (4.3.13) видно, что неравенство (4.3.9) выполняется как равенство, а это доказывает эффективность относительной частоты успехов как оценки вероятности успеха в одном испытании.► Упражнения n 4.3.7. Покажите, что выборочное среднее x 1 xi является эффективной n i 1 оценкой параметра генеральной совокупности, имеющей экспоненциальное 1 x 1 e , x0 распределение: f X x, . 0, x 0 n 4.3.8. Доказать, что выборочное среднее x 1 xi является эффективной n i 1 оценкой параметра распределения Пуассона. Задание для самостоятельной работы 1. Решите задачи: [1], №№ 19.98 - 19.100, 19.102, 19.103, 19.107, 19.115. Методы получения точечных оценок Рассмотрим основные методы получения оценок параметров распределения генеральной совокупности. 1. Метод максимального правдоподобия. Этот метод, предложенный Р.Фишером, состоит в следующем. Пусть закон распределения генеральной совокупности X описывается функцией плотности распределения f X x, , если X относится к непрерывному типу или вероятностями p X xk , PX xk , если X дискретна. Здесь 1, 2 , ... , r - вектор неизвестных параметров, для которых необходимо получить точечные оценки. Рассмотрим функцию Lx1, x2 , ... , xn , , описывающую закон распределения вектора случайной выборки X X 1 , X 2 , ... , X n . Она называется функцией правдоподобия. Поскольку случайные величины X i независимы в совокупности, функция правдоподобия имеет вид L x1 , x2 , ... , xn , n f X xi , , i 1 n i 1 p X xi , , X непрерывна . X дискретна Метод максимального правдоподобия состоит в том, что в качестве оценок ~ ~ параметров берётся вектор x1, x2 , ... , xn , доставляющий максимум функции правдоподобия при заданных значениях x1, x2 , ... , xn : ~ L x1, x2 , ... , xn , max L x1, x2 , ... , xn , . Точечные оценки, полученные методом максимального правдоподобия, называют МП-оценками. При поиске точки максимума функции Lx1, x2 , ... , xn , для упрощения ~ расчётов можно: а) вместо Lx1, x2 , ... , xn , использовать логарифмическую функцию правдоподобия ln Lx1 , x2 , ... , xn , , т.к. от логарифмирования по основанию e 1 точки максимума не изменяются; б) не учитывать (отбрасывать) в выражении для функции правдоподобия слагаемые и положительные сомножители, не зависящие от параметров , т.к. и это не изменит точек максимума. Как правило, МП-оценки получают из необходимого условия экстремума дифференцируемой функции: L x1, x2 , ... , xn , 0 или ln L x1 , x2 , ... , xn , 0 , j 1, 2, ... , r . (4.3.13) j j Уравнения (4.3.13) называют уравнениями правдоподобия. Для наиболее важных распределений генеральной совокупности уравнения правдоподобия имеют ~ единственное решение x1, x2 , ... , xn , дающее точечную оценку. Пример 4.3.8. Получим МП-оценку параметра p биномиального распределения генеральной совокупности X ~ Bn, p , т.е. для вероятности успеха в любом из n независимых повторных испытаний, если в серии из n испытаний зафиксировано k успехов. ◄В данном случае речь идёт о выборке x1 k объёма 1, т.к. проведена одна серия из n испытаний по схеме Бернулли. Поэтому функция правдоподобия имеет вид Lk , p Cnk p k 1 p . Перейдя к логарифмической функции правдоподобия ln Lk , p ln Cnk k ln p n k ln 1 p , получаем уравнение правдоподобия (4.3.13): k nk ln Lk , p 0, p j p 1 p k откуда находим: ~p (убедитесь в том, что ~p .есть точка максимума функции n ln Lk , p ). Таким образом, МП-оценка вероятности успеха совпадает с относительной частотой успеха в n испытаниях.► Пример 4.3.9. Для нормальной генеральной совокупности X ~ N m, 2 найти МП-оценку вектора параметров m,2 . ◄В данном случае функция плотности распределения вероятностей 1 генеральной совокупности имеет вид f X x, m, 2 22 x m 2 2 2 e . Находим функцию правдоподобия L x1 , x2 , ... , xn , m, 2 n 1 i 1 2 2 xi m 2 2 2 e 1 2 2 n e 1 n xi m 2 2 2 i 1 и логарифмическую функцию правдоподобия n 1 n ln L x1, x2 , ... , xn , m, 2 n ln 2 ln 2 2 xi m 2 . 2 2 i 1 Поскольку число неизвестных параметров r 2 , система уравнений правдоподобия (4.3.13) состоит из двух уравнений: 1 n 2 x i m 0 ln L x1 , x 2 , ... , x n , m, m 2 i 1 . n 2 ln L x , x , ... , x , m, 2 n 1 x i m 0 n 1 2 2 2 2 2 2 2 i 1 Из первого уравнения находим: m m~ второе уравнение, получаем: 2 ~ 2 1 n 1 n n xi x . Подставив это решение во i 1 n xi x 2 DX . ~ i 1 Таким образом, МП-оценками параметров m,2 нормальной генеральной 1 совокупности являются выборочное среднее x n 1 ~ DX n n xi и выборочная дисперсия i 1 n xi x 2 .► i 1 Пример 4.3.10. Пусть генеральная совокупность имеет равномерное распределение: X ~ R a, b . Найдём МП-оценки параметров a и b . ◄Функция плотности распределения генеральной совокупности 1 , x a; b . f X x, a , b b a 0, x a; b Поскольку X ~ R a, b , все значения xi выборки из генеральной совокупности удовлетворяют условиям a xi , b xi ; i 1, 2, ... , n . Поэтому f X xi , a, b (4.3.14) 1 , i 1, 2, ... , n , откуда получаем ba Lx1, x2 , ... , xn , a, b n f X xi , a, b b a n . 1 (4.3.15) i 1 Максимум функции Lx1 , x 2 , ... , x n , a, b из (4.3.15) с учётом ограничений (4.3.14) достигается при a min xi , b max xi , т.к. эти значения доставляют минимум 1i n 1i n знаменателю b a n 0 в выражении (4.3.15) для Lx1 , x 2 , ... , x n , a, b . ~ Итак, МП-оценки параметров a и b имеют вид a~ min xi , b max xi .► 1i n 1i n Упражнения 4.3.9. Найдите МП-оценку параметра p биномиального распределения генеральной совокупности X ~ Bn, p , т.е. для вероятности успеха в любом из n испытаний, если серии по n испытаний проводились N раз и в j -й серии зафиксировано k j успехов, j 1, 2, ... , N . 4.3.10. Найти МП-оценку параметра для генеральной совокупности, распределённой по показательному закону ( X ~ Ex ) с функцией плотности x распределения f X x, 0,e x ,x00 . 4.3.11. Найдите МП-оценку параметра для генеральной совокупности, распределённой по закону Пуассона ( X ~ Pu ). 2. Метод моментов Этот метод, предложенный английским статистиком К.Пирсоном, состоит в следующем. Пусть вид закона распределения генеральной совокупности X известе Предположим, что закон распределения генеральной совокупности X описывается функцией плотности распределения f X x, , если X непрерывна, или вероятностями p X xk , PX xk , если X дискретна. Вектор 1, 2 , ... , r составлен из неизвестных параметров, для которых необходимо найти точечные оценки. Определим теоретически какие-либо r начальных и (или) центральных моментов l X l , j X j распределения случайной величины X : l x l f X x, d x или l x m k j xkl pxk , ; j f X x, d x или j xk m j pxk , , где m M X . k Очевидно, теоретические моменты являются функциями неизвестных параметров: l l 1, 2 , ... , r . j j 1, 2 , ... , r . Приравняем r найденных теоретических моментов к соответствующим выборочным моментам, мы получим систему r уравнений для определения r неизвестных параметров 1, 2 , ... , r : ~ , l 1 , 2 , ... , r l ~ . j 1 , 2 , ... , r j ~ ~ ~ Решение этой системы определяет искомые оценки 1 , 2 , ... , r неизвестных параметров. Точечные оценки параметров распределения, полученные методом моментов, будем называть ММ-оценками. Пример 4.3.11. Найдём ММ-оценки параметров a и b равномерно распределённой генеральной совокупности X ~ R a, b . ◄В качестве теоретических моментов выберем: 1 M X ab b a 2 . и 2 DX 2 12 Соответствующими выборочными моментами являются: ~ x1 1 n n 1 ~ ~ D xi и 2 X n i 1 n xi x 2 . i 1 Составляем и решаем систему уравнений метода моментов ab ~ a x 3 a b 2x 2 x X ~ 2 ~ , b a 2 3 b x 3 b a ~ X X DX 12 ~ ~ D где X X - выборочное среднеквадратическое отклонение. ~ и b~ x 3 ~ . Итак, ММ-оценками параметров a и b являются a~ x 3 X X Они отличаются от МП-оценок тех же параметров, см пример 4.3.10.► Упражнения 4.3.12. Найдите МП-оценку параметра p биномиального распределения генеральной совокупности X ~ Bn, p , т.е. для вероятности успеха в любом из n независимых повторных испытаний, если в серии из n испытаний зафиксировано k успехов. 4.3.13. Найдите МП-оценку параметров a и b гамма-распределения, X ~ a, b , ba a 1 bx x e , a для которого f X x, a, b 0, x0 известно, что M X x0 , где x - гамма-функция, если a a и D X 2 . b b Ответы к упражнениям 4.3.3. а) не смещена; б) не смещена. 4.3.5. Воспользуйтесь неравенством Чебышёва для n . ~ 4.3.6. Не смещена; не состоятельна. 1 4.3.9. ~p nN ~ 4.3.10. N k j . j 1 1 , x1 n x n xi - выборочное среднее. i 1 n ~ 4.3.11. 1 xi . n i 1 k 4.3.12. ~p , т.е. относительная частота успеха. n x2 ~ 1 n 1 n x ~ 4.3.13. a~ ~ , b ~ , где x xi и D X xi x 2 . DX n i 1 n i 1 DX Задание для самостоятельной работы 1. Решите задачи: [1], №№ 19.121, 19.123, 19.124, 19.132 - 19.134. 2. Ознакомьтесь с теоретическим материалом: [2], с. 89 – 100. Контрольные вопросы 1. Что называется точечной оценкой неизвестного параметра распределения генеральной совокупности? 2. Какая точечная оценка параметра называется несмещённой? 3. В чём состоит смысл свойства несмещённости точечной оценки? 4. Какие несмещённые оценки матаматического ожидания и дисперсии Вы знаете? 5. Какую точечную оценку называют состоятельной? 6. Объясните смысл свойства состоятельности точечной оценки. 7. Сформулируйте достаточное условие состоятельности точечной оценки параметра распределения генеральной совокупности. 8. Какие состоятельные оценки математического ожидания и дисперсии Вам известны? 9. Какая точечная оценка называется эффективной? 10. Запишите неравенство Крамера-Рао. 11. Приведите примеры эффективных точечных оценок параметров распределения генеральной совокупности. 12. Запишите выражение для функции правдоподобия. В чём состоит её смысл? 13. В чём состоит метод максимального правдоподобия получения точечных оценок параметров распределения? 14. Опишите метод моментов получения точечных оценок. 4.4. Необходимые сведения о некоторых распределениях Рассмотрим некоторые важные для математической статистики законы распределения случайных величин. Распределение «хи-квадрат» Пусть случайная величина X равна сумме квадратов k независимых случайных величин U j ~ N 0,1 : X k U 2j . j 1 Закон распределения величины X называют распределением «хи-квадрат» с k степенями свободы и обозначают символом 2 k , т.е. X ~ 2 k . Обычно и для самой случайной величины X используется тот же символ, т.е. вместо « X » пишут « 2 k ». Перечислим важные свойства распределения «хи-квадрат». 1. Функция плотности распределения вероятностей: 1 k 2 k 2 k 2 x f 2 k x 0, x 0 2 1 x 2 e , x0 , где t 1e t dt - гамма-функция. 0 2. Основные числовые характеристики: M 2 k k , D 2 k 2k . 3. Композиционная устойчивость: если случайные величины 2 k1 и 2 k 2 независимы, то 2 k1 2 k 2 2 k1 k 2 . 4. При k распределение 2 k асимптотически нормально: 2 k ~ N k , 2k или, в стандартизованном виде, 2 k k ~ N 0,1 . 2k 5. Квантили 2p k распределения 2 k содержатся в специальных справочниках и другой литературе, например, [ ], табл. П5. Напомним: квантилью порядка p распределения случайной величины X называется число t p , для которого PX t p p . Для приближённого вычисления квантилей 2p k при больших k ( k 30 ) используют асимптотическую нормальность распределения 2 k . Это позволяет получить следующие приближённые формулы, точность которых возрастает с увеличением k : 2p k k u p 2k , 2p k (4.4.1) 2 1 u p 2k 1 , 2 (4.4.2) 3 2p k k 1 2 u p 2 , 9k 9k (4.4.3) где u p - квантиль порядка p распределения N 0,1 . Пример 4.4.1. Найти квантили 02,1 5 , 02,9 8 , 02,95 50 , 02,05 75 . ◄Из табл. П5, см. [ ], находим: 02,1 5 =0,554; 02,9 8 =13,4. Определим 02,95 50 несколькими способами. а) По табл. П5: 02,95 50 67,5 . б) По формуле (4.4.1). Поскольку u0,95 1,645 , см. [ ], табл. П1, то 02,95 50 50 u0,95 2 50 50 1,645 10 66,45 . Относительная ошибка приближённого вычисления равна 67,5 66,45 100 % 1,56% . 67,5 в) По формуле (4.4.2): 02,95 50 1,645 2 50 1 67,22 . Относительная 1 2 ошибка 2 67,5 67,2 100 % 0,44% . 67,5 3 г) По формуле (4.4.3): 02,95 50 501 2 1,645 2 67,5 . Относительная 9 50 9 50 ошибка 0 . Квантиль 02,05 75 также определяем несколькими способами. а) Из табл. П5: 02,05 75 56,1 . б) По формуле (4.4.1). Так как u0,05 u0,95 1,645 , то 02,05 75 75 1,645 2 75 54,85 . Относительная ошибка приближённого вычисления 56,1 54,85 100 % 2,2% . 56,1 в) По формуле (4.4.2): 02,05 75 ошибка 2 1 1,645 2 75 1 55,77 . Относительная 2 56,1 55,8 100 % 0,53% . 56,1 3 г) По формуле (4.4.3): 02,05 75 751 2 1,645 2 56,05 . Относительная 9 75 9 75 ошибка 0 . Убедитесь в правильности всех выкладок!► Распределение Стьюдента Пусть U j ~ N 0,1 и 2 k - независимые случайные величины. Рассмотрим случайную величину X U 1 2 k k . Её распределение называют распределением Стьюдента с k степенями свободы и обозначают символом St k , т.е. X ~ St k . Как правило, и для самой случайной величины X используется тот же символ, т.е. вместо « X » пишут « St k ». Впервые распределение Стьюдента применял английский математик Госсет (W.S.Gosset), пользовавшийся псевдонимом Student – Стьюдент. Приведём важные свойства распределения Стьюдента. 1. Функция плотности распределения вероятностей: 1 k 1 2 2 x 2 f Stk x 1 , , где t 1e t dt - гамма-функция. x k k 0 k 2 k 2. Основные числовые характеристики: M St k 0 , k 1, 2, ... ; DStk k , k 3, 4, ... . k 2 3. При k распределение St k приближается к стандартному нормальному распределению N 0,1 : x2 1 2 . lim f Stk x e k 2 4. Квантили t p k распределения St k содержатся в специальных справочниках и другой литературе, например, [ ], табл. П6. Поскольку распределение St k симметрично, его квантили связаны соотношением t p k t1 p k . Это позволяет приводить в справочной литературе значения t p k только для p 0,5 . При больших k ( k 30 ) для квантилей t p k выполняется приближённое равенство t p k u p ( u p - квантиль порядка p распределения N 0,1 ). Более точно квантили t p k можно находить по формуле 2 2 1 up t p k u p 1 4k 2k 1 2 . (4.4.4) Пример 4.4.2. Найти квантили t0,9 8 , t0,1 5 , t0,95 60 , t0,05 120 . ◄Из табл. П6 (см. [ ]) находим: t0,9 8 1,397 . Далее, с помощью той же таблицы определим t0,1 5 : t0,1 5 t0,9 5 1,476 . Квантиль t0,95 60 сначала найдём из табл. П6: t0,95 60 1,671 . Теперь - по приближённому равенству: t0,95 60 u0,95 1,645 (значение u0,95 взято из [ ], табл. П1). Более точная формула (4.4.4) даёт значение 2 1,6452 1 t 0,95 60 1,645 1 2 60 4 60 1 2 1,671 , не отличающееся от табличного. Квантиль t0,05 120 также сначала найдём с помощью табл. П6: t0,05 120 t0,95 120 1,645 . Это совпадает со значением, найденным по приближённому равенству t0,05 120 t0,95 120 u0,95 1,645 . Все выкладки проверьте самостоятельно!► Распределение Фишера Пусть 2 k1 и 2 k 2 - независимые случайные величины. Распределение случайной величины 1 2 k1 k1 X 1 2 k2 k2 называют распределением Фишера с k1 и k2 степенями свободы. Для обозначения этого распределения используют символ F k1,k2 , т.е. пишут: X ~ F k1, k2 . Обычно и сама случайная величина X обозначается тем же символом, т.е. X F k1 , k 2 . Перечислим важные свойства распределения Фишера. 1. Функция плотности распределения вероятностей: k1 k2 k1 2 k 2 1 k1 k2 k2 2 2 f F k1 ,k2 x 0 , x0 k1 1 x2 k1 k2 2 , x0 k 1 1 x k2 , где - гамма-функция. 2. Основные числовые характеристики: M F k1, k2 2k22 k1 k2 2 k2 , k2 2 ; DF k1, k2 , k2 4 . k2 2 k1 k2 22 k2 4 3. Квантили Fp k1 ,k 2 распределения F k1,k2 содержатся в справочниках и другой литературе, см., например, [ ], табл. П7. При k1 , k 2 1 для вычисления квантилей Fp k1 ,k 2 можно использовать приближённую формулу Fp k1, k2 k2 2k1 k2 2 k up 2 , k2 2 k1 k2 4 k2 2 (4.4.5) где u p - квантиль порядка p распределения N 0,1 . Важное свойство квантилей распределения Фишера состоит в том, что F p k1 , k 2 1 , p 0;1 . F1 p k 2 , k1 (4.4.6) Оно позволяет в таблицах квантилей приводить значения Fp k1 ,k 2 только для p 0,5 . ◄Пусть X ~ F k1, k2 . Из определения распределения Фишера следует, что в этом случае 1 ~ F k2 , k1 . Из того же определения видно, что X 0 . Поэтому для X квантили Fp k1 ,k 2 порядка p 0;1 справедливо неравенство Fp k1 , k 2 0 . Отсюда следует, что при X 0 неравенства X Fp k2 ,k1 и 1 1 эквивалентны. С X Fp k2 , k1 учётом сказанного, можно записать: 1 1 1 1 p P X Fp k1, k2 P 1 P или X Fp k1, k2 X Fp k1, k2 1 1 1 P ~ F k2 , k1 , последнее равенство означает, что 1 p . Поскольку X X Fp k1, k2 число 1 есть квантиль порядка 1 p распределения F k 2 , k1 , т.е. что Fp k1 , k2 F1 p k2 , k1 1 . Отсюда и следует доказываемое свойство.► Fp k1, k2 Пример 4.4.3. Найти квантили F0,95 5,8 , F0,017,9 , F0,9 40,60 . ◄Квантиль F0,95 5,8 находим из [ ], табл. П7: F0,95 5,8 3,69 . С помощью той же таблицы и формулы (4.4.6) определяем: F0,017,9 1 F0,99 9,7 1 1,49 . 6,72 Квантиль F0,9 40,60 найдём сначала по приближённой формуле (4.4.5): F0,9 40,60 60 240 60 2 60 60 2 98 60 u 0, 9 1,282 1,427 . Из таблицы 60 2 4060 4 60 2 58 40 56 58 находим точное значение F0,9 40,60 1,44 . Убедитесь в правильности всех выкладок!► Задание для самостоятельной работы Решите задачи: [1], №№ 19.138, 19.139, 19.140. Контрольные вопросы 1. Какая случайная величина по определению имеет распределение «хиквадрат» с k степенями свободы? 2. Перечислите основные свойства распределения «хи-квадрат». 3. Какая случайная величина имеет распределение Стьюдента с k степенями свободы? 4. Перечислите основные свойства распределения Стьюдента. 5. Какая случайная величина имеет распределение Фишера с k1 и k2 степенями свободы? 6. Перечислите основные свойства распределения Фишера. 4.5. Законы распределения основных статистик для нормальной генеральной совокупности В некоторых вопросах представляют интерес законы распределения различных статистик, т.е. функций Z Z X 1 , X 2 , ... , X n случайной выборки X 1 , X 2 , ... , X n из генеральной совокупности X . Например, такими статистиками могут быть выборочное среднее, выборочные дисперсии отношение выборочных дисперсий двух генеральных совокупностей и т.п.: n x1 n Xi S 02 1 n S2 (выборочное среднее), i 1 n X i m 2 (выборочная дисперсия, m M X известно), i 1 1 n X i x 2 (исправленная выборочная дисперсия). n 1 i 1 Рассмотрим законы распределения основных статистик для одной или двух генеральных совокупностей в предположении, что генеральные совокупности имеют нормальный закон распределения. Распределение выборочной дисперсии S 02 1 n n X i m 2 i 1 Поскольку X ~ N m, , то и X i ~ N m, , поэтому Xi m ~ N 0,1 . Ui Представим S 0 в виде S 02 2 n (4.5.1) 2 2 Xi m n i 1 n n U i2 . Учитывая независимость в i 1 совокупности элементов X i случайной выборки и соотношение (4.5.1) получаем: n U i2 ~ 2 n (распределение «хи-квадрат»). Таким образом, S 02 i 1 2 2 n или, в n стандартизованном виде nS02 2 2 n (4.5.2) (напомним, что символом 2 n мы обозначаем не только закон распределения, но и случайную величину, описываемую этим законом). Распределение исправленной дисперсии S 2 1 n X i x 2 n 1 i 1 Для исправленной выборочной дисперсии можно доказать справедливость соотношения, подобного (4.5.2): n 1S 2 2 2 n 1 . (4.5.3) Распределение выборочного среднего x 1 n n Xi ( 2 DX известно) i 1 Как уже отмечалось, X i ~ N m, , поэтому, в силу композиционной устойчивости нормального закона распределения получаем: nx X i ~ N nm, n . n i 1 Далее, поскольку линейное преобразование x nx сохраняет вид закона 1 n распределения, то x ~ N m, . Переходя к стандартизованному распределению n N 0,1 , получаем: x m ~ N 0,1 . n (4.5.4) n Распределение выборочного среднего x 1 X i ( 2 неизвестно) n i 1 Если среднеквадратичное отклонение генеральной совокупности X не известно, то в соотношении, аналогичном (4.5.4), вместо этого параметра используют его точечную оценку S 1 n X i x 2 . Тогда получается n 1 i 1 соотношение x m Stn 1 S n (4.5.5) (напомним: символом St k обозначается как распределение Стьюдента, так и случайная величина с этим законом распределения). Упражнение. 4.5.1. Используя представление статистики x m x m x m 1 S n n S n S x m n , 1 n 1S 2 n 1 2 а также формулы (4.5.3), (4.5.4), убедитесь в справедливости соотношения (4.5.5). Распределение выборочных дисперсий двух генеральных совокупностей с известными математическими ожиданиями Пусть X ~ N m1 , 1 и Y ~ N m2 , 2 - две нормально распределённые генеральные совокупности, параметры m1 и m2 известны, а X 1 , X 2 , ... , X n1 и Y1 , Y2 , ... , Yn2 случайные выборки из совокупностей X и Y соответственно. Рассмотрим закон распределения статистики S 02x S 02y n1 1 n1 X i m1 2 1 n2 Yi m2 i 1 n2 , 2 i 1 которая представляет собой отношение выборочных дисперсий, найденных по этим выборкам. В соответствии с (4.5.2) можно записать n1 S 02x 12 2 n1 , n 2 S 02y 22 2 n 2 или S 02x 12 2 2 n1 , S 02y 2 2 n2 , откуда находим: n1 n2 1 2 n1 S02x 12 n1 12 F n1 , n2 (распределение Фишера). Запишем это соотношение S02y 22 1 2 n 22 2 n2 в стандартизованном виде S02x 22 F n1,n2 . S02y 12 (4.5.6) Упражнение. 4.5.2. Убедитесь в том, что соотношения S02y 12 F n2 ,n1 . S02x 22 (4.5.7) и (4.5.6) эквивалентны. Распределение выборочных дисперсий двух генеральных совокупностей (математические ожидания неизвестны) Рассмотрим теперь закон распределения статистики n S x2 S 2y 1 1 X i x 2 n1 1 i 1 n 2 1 Yi y 2 n2 1 i 1 , которая является отношением исправленных выборочных дисперсий, найденных по случайным выборкам X 1 , X 2 , ... , X n 1 и Y1 , Y2 , ... ,Yn 2 из генеральных совокупностей X и Y соответственно. Соотношения, аналогичные (4.5.6) и (4.5.7), в данном случае имеют вид S 2y 12 S x2 22 F n2 1, n1 1 . F n 1 , n 1 , 1 2 S x2 22 S 2y 12 (4.5.8) Упражнение. 4.5.3. Используя формулу (4.5.3) и определение распределения Фишера, докажите равенства (4.5.8). Распределение разности выборочных совокупностей (дисперсии известны) средних двух генеральных Пусть X ~ N m1 , 1 по-прежнему Y ~ N m2 , 2 и - две нормально распределённые генеральные совокупности, параметры 1 и 2 известны, а X 1 , X 2 , ... , X n 1 и Y1 , Y2 , ... , Yn2 - случайные выборки из совокупностей X и Y соответственно. Рассмотрим закон распределения статистики x y 1 n1 n1 i 1 Xi 1 n2 n2 Yi - разности i 1 выборочных средних, найденных по этим выборкам. Согласно (4.5.4), x ~ N m1, 1 , n1 y ~ N m2 , 2 n2 , поэтому, с учётом композиционной устойчивости нормального закона распределения, получаем: 2 2 x y ~ N m1 m2 , 1 2 или в стандартизованном виде n1 n2 x y m1 m2 ~ N 0,1 . (4.5.9) 12 22 n1 n2 Распределение разности выборочных средних двух генеральных совокупностей (дисперсии равны и неизвестны) Пусть, как и выше, X ~ N m1 , и Y ~ N m2 , - две нормально распределённые генеральные совокупности, дисперсии которых неизвестны, но равны друг другу, а X 1 , X 2 , ... , X n и Y1 , Y2 , ... ,Yn - случайные выборки из этих совокупностей. 1 2 В качестве оценки дисперсии генеральных совокупностей X и Y естественно использовать объединённую выборочную дисперсию S x2, y n1 1S x2 n2 1S 2y n1 n2 2 . Упражнения. 4.5.4. Используя результаты примеров 4.3.2 и 4.3.3, убедитесь в несмещённости и состоятельности оценки S x2,y . 4.5.5. Покажите, что в рассматриваемых условиях x y m1 m2 Stn S xy 1 1 n1 n2 1 n2 2 (4.5.10) Объединим полученные результаты в таблицу. Таблица 4.5.1 Предположения Статистика nS02 X ~ N m, , m известно 2 n 1S 2 X ~ N m, , m неизвестно 2 x m X ~ N m, , 2 известна x m X ~ N m, , 2 неизвестна S n S 02y 12 X ~ N m1 , 1 , Y ~ N m2 , 2 , m1 и m2 известны S 02x 22 S 2y 12 X ~ N m1 , 1 , Y ~ N m2 , 2 , m1 , m2 S x2 22 неизвестны x y m1 m2 X ~ N m1 , 1 , Y ~ N m2 , 2 , 12 и 22 известны X ~ N m1 , 1 , Y ~ N m2 , 2 , n 12 22 2 12 22 n1 n 2 x y m1 m2 S xy неизвестны 1 1 n1 n2 Закон распределен ия статистики 2 n 2 n 1 N 0,1 St n 1 F n 2 , n1 F n 2 1, n1 1 N 0,1 St n1 n2 2 Контрольные вопросы Для следующих основных статистик указать соответствующие стандартизованные статистики, а также их законы распределения в предположении о нормальном распределении генеральных совокупностей. 1. Выборочная дисперсия S02 ( m известно). 2. Исправленная выборочная дисперсия S 2 ( m неизвестно). 3. Выборочное среднее x ( 2 известна). 4. Выборочное среднее x ( 2 неизвестна). 5. Отношение выборочных дисперсий S 02 y S 02x двух генеральных совокупностей ( m1 и m2 известны). 6. Отношение исправленных выборочных дисперсий S 2y S x2 двух генеральных совокупностей ( m1 и m2 неизвестны). 7. Разность выборочных средних x y двух генеральных совокупностей ( 12 и 22 известны). 8. Разность выборочных средних x y двух генеральных совокупностей ( 12 и 22 неизвестны).