Математическая статистика – наука, изучающая методы обработки результатов наблюдений массовых случайных явлений . Целью при этом является выявление этой закономерности. Выводы о закономерностях, которым подчиняются явления, изучаемые методами математической статистики, всегда основываются на ограниченном числе наблюдений. Для вынесения обоснованного заключения о закономерностях изучаемого явления математическая статистика опирается на теорию вероятностей, которая имеет дело с математическими моделями случайных явлений. Обработав результаты наблюдений, исследователь выдвигает ряд гипотез (предположений) о том, что рассматриваемое явление можно описать той или иной вероятностной теоретической моделью. Далее, используя методы математической статистики, можно дать ответ на вопрос, какую из гипотез или моделей следует принять. Принятая модель и будет считаться закономерностью изучаемого явления. Построенные на основании статистических методов закономерности относятся не к отдельным испытаниям, из повторения которых складывается данное массовое явление, а представляют собой утверждения об общих вероятностных характеристиках данного процесса. Такими характеристиками могут быть вероятности, плотности распределения вероятностей, математические ожидания, дисперсии и т.п. Найденные характеристики позволяют построить вероятностную модель изучаемого явления. Применяя к этой модели методы теории вероятностей, исследователь может решать технико–экономические задачи, например, определять вероятность безотказной работы прибора в течение заданного отрезка времени. Связь между теорией вероятностей и математической статистикой, таким образом, получается следующая. Теория вероятностей по вероятностной модели процесса предсказывает его поведение, а математическая статистика по результатам наблюдений за процессом строит его вероятностную модель. Очевидно, что для обнаружения закономерностей случайного массового явления необходимо провести сбор статистических данных, характеризующих отдельные единицы каких–либо массовых явлений. С этой целью формируется так называемая выборка. На основании собранной по выборке информации нужно будет делать выводы о всей совокупности. Она называется генеральная совокупность. Методы математической статистики дают возможность наилучшим способом использовать имеющуюся информацию для получения по возможности более точных характеристик генеральной совокупности. Определение 1. Генеральной совокупностью называется совокупность всех мыслимых наблюдений, которые могли бы быть сделаны при данном реальном комплексе условий измерений. Число членов, входящих в генеральную совокупность, называют объемом генеральной совокупности N. 2 Определение 2. Выборочной совокупностью или просто выборкой объема n называется совокупность n объектов, отобранных из исследуемой генеральной совокупности. Определение 3. Метод, состоящий в том, что на основании характеристик и свойств выборки х1, х2, ..., хn делаются заключения о числовых характеристиках и законе распределения случайной величины Х, называется выборочным методом. Для того чтобы сведения о законах распределения случайной величины Х были объективны, необходимо, чтобы выборка была репрезентативной, т.е. представительной. В математической статистике рассматриваются две основные категории задач: оценивание и статистическая проверка гипотез. Предварительным этапом всегда является первичная обработка данных наблюдений, которая называется описательной статистикой. Описательная статистика Если объём выборки велик, то обрабатывать весь массив собранных данных бывает затруднительно. С целью облегчить вычислительную работу в таких случаях производят так называемую группировку наблюдений. Она бывает также необходима для некоторых статистических процедур. Статистический материал всегда представляют в виде таблицы. Если изучается поведение дискретной случайной величины, то строится таблица из двух строк. В первой помещаются наблюдённые значения в порядке возрастания, а во второй подсчитанные частоты появления одинаковых значений случайной величины Х.В результате получается так называемый статистический ряд: хi mi х2 m x1 m 1 хk m .... .... 2 k При выполнении статистических процедур обычно используется k контроль. В данном случае он очевиден: m i 1 i n Если изучается непрерывная случайная величина, то группировка заключается в разбиении интервала наблюденных значений случайной величины на k частичных интервалов равной длины [x0; x1 [, [x1; x2 [, [x2; x3 [, ...... [xk-1;xk] и подсчете частоты попадания наблюденных значений в частичные интервалы. Иногда вместо частот используют так называемые относительные частоты, которые получаются как отношение частоты 3 данного варианта к общей сумме частот mi Длину частичных интервалов n . как правило выбирают одинаковой. Поскольку неизбежно округление данных следует договориться о концах интервалов. Мы будем использовать полузамкнутые. В результате составляется интервальный статистический ряд следующего вида: Х [x0; x1 [ mi/n m1/n [x1; x2 [ m2/n .... .... [xk-1;xk] mk/n k mi 1 Для такого ряда контроль i 1 n Ряд по частотам рассматривается для случая разбиения на равные интервалы. Относительные частоты предпочтительнее для разбиения на неравные. Мы будем рассматривать первый вариант. Определение 4. Перечень наблюденных значений случайной величины Х (или интервалов наблюденных значений) и соответствующих им частот называется статистическим законом распределения случайной величины. Как правило, для выполнения статистических процедур интервальный ряд подвергают дальнейшим преобразованиям. Длину частичного интервала следует выбирать так, чтобы ряд не был слишком громоздким, но при этом позволял выявлять характерные изменения признака X. Величину R xmax xmin называют размахом выборки. Количество интервалов k выбирается по формуле Стерджесса k 1 3,322 lg n Очевидно, это число округляется до целого. Далее определяется длина интервалов разбиения. Она равна h R k Формируется таблица, в которой интервалы статистического ряда идут в столбце. В каждом из них выбирается середина и ей «приписывается» частота, относящаяся к данному интервалу. Статистические законы позволяют визуально произвести оценку закона распределения исследуемой случайной величины. Это очень важная часть этапа описательной статистики. Одним из наиболее распространённым приемом визуализации данных является гистограмма. Определение 4. Гистограммой называется ступенчатая фигура, состоящая из прямоугольников, в основании которых лежат интервалы разбиения, а высоты равны mi n mi* 4 Такая гистограмма является ненормированной и подходит для простой визуализации данных. Площадь такой ступенчатой фигуры очевидно равна h. С математической точки зрения целесообразнее использовать нормированную гистограмму, в которой на оси ординат откладываются не сами частоты, а плотности распределения наблюдений. Для данной гистограммы по оси ординат откладывают значения mi m* hn h Тогда характер изображения не будет меняться в зависимости от изменения шага разбиения массива данных на интервалы. Нормированная гистограмма обладает важным свойством: сумма площадей всех прямоугольников равна 1. Если строить нормированную гистограмму по частотам, то такая площадь будет равна объёму выборки. Определение 5. Полигоном частот называется ломаная, соединяющая точки с координатами xi , xi 1 . Этот способ изображения используют для случая дискретной вариации. Рассмотрим на примере анализ вариации данных по трафику нескольких отделов фирмы. Выборка имеет вид: 15,2 19,2 10 16,2 14,5 17,3 12,7 13,8 18,2 12,4 17,6 20,1 7,6 12,2 5,4 11,9 17,7 12,6 11,3 19 Объём 8,5 11,6 11,5 20,1 20,4 11,9 21,5 3,6 19,6 15,8 23,8 11,3 9,3 22,3 17,7 16,3 17,1 14,7 9,8 18,1 19 26,5 19,4 11,7 18,4 12,7 18,4 16,3 20,1 7 данной выборки R xmax xmin 26,5 3,6 22,9 10,9 25 19,8 17,6 16,8 14,9 7 19,1 9 16,2 23,6 14,2 7 17,3 17,4 16,4 17,2 14,2 9,6 12,5 n=100. 12,3 14,3 17,6 16,2 16,6 13,9 13,4 13,7 12 12,4 Размах 16,3 14,6 12,6, 20,6 10,7 11,3 15,2 16,2 17,4 17,4 12,2 18,6 14,8 9,8 22,2 11,9 17,4 21,9 11,8 13 вариации Число интервалов k=1+{3,322lgn]=1+[3,322lg100]=1+6=7. Тогда шаг разбиения h=3,2714. По этим данным составим интервальный статистический ряд: Номер интервала Интервал 1 [3,6-6,87) Середина Относительная Частота интервала частота 5,26 2 0,02 m* h 0,0061 5 2 3 4 5 6 7 [6,87-10,14) [10,14-13,41 [13,41-16,68) [16,68-19,95) [19,95-23,22) [23,22-26,5) 8,5 11,78 15,05 18,32 21,59 24,86 11 25 23 26 9 4 0,11 0,25 0,23 0,26 0,09 0,04 0,0336 0,0764 0,0703 0,0794 0,0275 0,0122 Построенные по этим данным гистограмма и полигон частот имеют следующий вид: 30 25 20 15 10 5 0 26 5, 8 5 2 9 6 5 8, 1,7 5,0 8,3 1,5 4,8 1 1 1 2 2 30 25 20 15 10 5 0 5,26 8,5 11,7 15,05 18,32 21,59 24,86 Задача точечного оценивания параметров распределения Выводы о вариации признака на всей генеральной совокупности делают по выборке. Состав выборки случаен, поэтому выводы о параметрах распределения генеральной совокупности не могут быть 6 точными. С ростом объема выборки вероятность правильного вывода должна увеличиваться. Поэтому любому решению, принимаемому по выборке, сопоставляют вероятность, отражающую степень достоверности принятого результата. Задача оценки параметром в общем виде формулируется так. Пусть X –случайная величина с законом распределения F(X,θ). Здесь θпараметр распределения, числовое значение которого неизвестно. Судят о нём по выборке. Определение 6. Всякую однозначно определённую функцию выборочных наблюдений, с помощью которой судят о значении параметра θ, называют оценкой (статистикой) параметра θ. Основной задачей оценивания параметров является получение выборочной оценки для параметра генеральной совокупности. Эта оценка должна быть «хорошеё», а значит, отвечать некоторым свойствам. Определение 7. Оценка называется несмещённой, если её математическое ожидание равно оцениваемому параметру. Такое требование гарантирует отсутствие систематических ошибок при оценке параметров. Поскольку оценка-это статистика, её значение меняется от выборки к выборке. Меру её рассеивания около математического ожидания, как известно из теории вероятностей, характеризует дисперсия. Очевидно, из двух оценок лучшей будет та, рассеивание которой около оцениваемого параметра, будет меньше. Определение 8. Несмещённую оценку, которая имеет наименьшую дисперсию среди всех несмещённых оценок параметра θ, вычисленных по выборке одного и того же объёма, называют эффективной оценкой. Определение 9. Оценку называют состоятельной, если при достаточно большом числе независимых наблюдений с вероятностью, близкой к 1, можно утверждать, что разность между выборочной оценкой и неизвестным параметром по абсолютной величине окажется меньше сколь угодно малого положительного числа δ: P 1 . Здесь ε- положительное число, близкое к нулю. Это означает, что состоятельная оценка подчиняется закону больших чисел, что оправдывает увеличение числа единиц выборки при её применении. Наиболее важными числовыми характеристиками случайной величины являются математическое ожидание и дисперсия. Для их точечного (одним числом) оценивания используют числовые характеристики выборки. 7 Числовые характеристики выборочной совокупности Наиболее распространённой оценкой вариации признака является выборочное среднее. Это обобщающий показатель совокупности, характеризующий уровень изучаемого явления или процесса. Средняя величина обобщает количественное выражение признака и погашает индивидуальные различия статистических величин совокупности, вызванные случайными обстоятельствами. Определение 10. Выборочной средней называется среднее арифметическое всех наблюдаемых в выборке значений: k x1m1 x2 m2 ... xn mn x xi mi* n i 1 Для интервального статистического ряда эта формула приобретает вид k x x m i i 1 i n n ximi* i 1 Здесь используются середины интервалов и относительные частоты. Для проверки свойства несмещённости выборочной средней как точечной оценки будем рассматривать выборку объёма n как систему n ,..., n , каждая из которых имеет тот же независимых случайных величин 1 закон распределения с теми же параметрами, что и случайная величина X, определяющая генеральную совокупность. При таком подходе для всех Mxi M ( i ) M Тогда i=1,…n . Mx M x1 x2 ... xn 1 1 ( M1 ... M n ) nMX MX n n n Итак, выборочное среднее - это несмещённая оценка генерального математического ожидания. Докажем теперь, что выборочное среднее есть состоятельная оценка генеральной средней. По следствию из теоремы Чебышева для одинаково распределённых случайных величин верна сходимость по вероятности 1 2 ... n n MX MX представляет собой генеральную среднюю. Обозначим её MX xã Тогда, используя свойства математического ожидания, получим Mx M x1 x2 ... xn 1 1 ( M1 ... M n ) nMX xã n n n Эффективность этой оценки мы докажем при дополнительном предположении о том, что случайная величина X имеет нормальное 8 распределение: X N(a,σ) . Для доказательства эффективности необходимо показать, что дисперсия Dx совпадает с минимальной дисперсией, 2 равной в случае нормального распределения n : 1 n 1 n nD X 2 Dx D xi 2 D( xi ) n2 n n i 1 n i 1 Для решения вопроса о количественной характеристике степени рассеивания наблюдаемых значений относительно их среднего используют выборочную дисперсию. Это среднее арифметическое квадратов уклонений наблюдений относительно их средней. Определение 11. Выборочной дисперсией называется значение случайной величины n xi x 2 i 1 n Dâ Учитывая известные из теории вероятностей свойства дисперсии эту величину вычисляют следующим образом: для дискретного вариационного ряда n Dâ x i 1 i x mi 2 n n xi x mi* ; 2 i 1 для интервального вариационного ряда k Dâ x x m i 1 2 i i n k xi x mi* i 1 2 , x где i - середина i-го интервала. Выборочная дисперсия вычисляется по похожим формулам и обладает свойствами, сходными со свойствами дисперсии дискретной случайной величины. Естественно ожидать, что выборочная дисперсия будет хорошей оценкой для генеральной дисперсии. Проверим, обладает ли она как точечная оценка свойством несмещённости. Используем известное свойство дисперсии: 1 n 1 n 2 2 2 MDâ M xi MX X MX M xi MX n i 1 n i 1 1 n 1 2 M X MX nDX DX DX n n Оказывается, чтобы получить несмещённую оценку дисперсии генеральной совокупности, нужно умножить выборочную дисперсию на 9 n n 1 . n Dâ Тогда получится величина n 1 , называемая n исправленной выборочной дисперсией. Коэффициент n 1 называется s2 поправкой Бесселя. 2 Итак, величины x , s являются несмещёнными, состоятельными и эффективными точечными оценками математического ожидания и дисперсии генеральной совокупности. Найдём эти величины для нашего примера. Номер Середина Частота интервала интервала m xi 1 2 3 4 5 6 7 Сумма mi x i m *i mi ( xi ) 2 10,52 93,5 294,5 346,15 476,32 194,31 99,44 1514,74 002 0,11 0,25 0,23 0,26 0,09 0,04 1 0,5533 7,9475 33,9421 52,0955 87,2518 41,9515 24,7207 248,4624 i 5,26 8,5 11,78 15,05 18,32 21,59 24,86 2 11 25 23 26 9 4 100 x 1514,74 15,1474 100 Для вычисления выборочной дисперсии можно воспользоваться свойством:: k m x Dâ xi i 1 2 * i 2 248,4624 15,148 19 2 Исправленная выборочная дисперсия будет равна s2 100 19 19,191 100 1 Использование среднего квадратического отклонения в анализе массовых явлений обусловлено тем очевидным фактом, что индивидуальные значения признака различаются между собой и в силу этого отклоняются от средней выборочной в ту или другую сторону. Величина отклонений индивидуальных значений от средней показывает, в какой мере эти значения отличаются друг от друга, а значит, показывают размер вариации. При вычислении оценок полезно использовать свойства дисперсии и среднего квадратического отклонения, известные из теории вероятностей. 10 1. Если все значения признака увеличить на одну и ту же величину, то на ту же величину увеличится их средняя. Отклонения же останутся без изменения. Значит, среднее квадратическое отклонение не изменится, если все значения признака изменить на константу. 2. Если все значения признака умножить на одно и то же число, то их средняя увеличится во столько же раз, отклонения, естественно, тоже. Поэтому при умножении всех индивидуальных значений на 2 константу k дисперсия увеличится в x k раз, а среднее квадратическое отклонение в k раз. Медианой называется такое значение признака, которое делит весь ряд значений пополам. Медиана не зависит от величины крайних вариантов. Поэтому её часто используют как более надежный показатель типичного значения признака, (чем выборочное среднее ), если ряд значений неоднороден, в нём встречаются резкие отклонения от среднего. В интервальном ряду распределения для нахождения медианы применяется формула: Me X 0 h f f 0,5 Me1 f Me где X0 h Ме – медиана; – нижняя граница интервала, в котором находится медиана; – величина (размах) интервала; 1 – накопленная частота в интервале, предшествующем f Me медианному; fMe – частота в медианном интервале. В нашем примере медианным будет четвёртый интервал. Поэтому Me 13,41 3,27 0,5 100 38 15,12 23 Важное значение имеет такая величина признака, которая встречается в изучаемом ряде распределения чаще всего. Такую величину принято называть модой. В дискретном ряду мода определяется без вычисления как значение признака с наибольшей частотой. Обычно встречаются ряды с одним модальным значением признака. Если в ряду распределения встречаются два или несколько равных значений признака, то он считается соответственно бимодальным или мультимодальным. Это свидетельствует о неоднородности выборки. В интервальном ряду распределения интервал с наибольшей частотой является модальным. Внутри этого интервала находят условное значение признака, вблизи которого плотность распределения (число единиц совокупности, приходящихся на единицу измерения варьирующего признака) достигает максимума. Это условное значение и считается 11 точечной модой. Логично предположить, что такая точечная мода располагается ближе к той из границ интервала, за которой частота в соседнем интервале больше частоты в интервале за другой границей модального интервала. Отсюда получаем формулу: Mo X 0 h где Х0 fMo fMo-1 fMo+1 h f Mo f Mo1 , ( f Mo f Mo1 ) ( f Mo f Mo1 ) Мо – мода; – нижнее значение модального интервала; – частота в модальном интервале; – частота в предыдущем интервале; – частота в следующем интервале за модальным; – величина интервала. Приблизительное суждение о моде получить просто. Для этого нужно указать интервал с наибольшей плотностью, а на гистограмме он хорошо виден. В нашем примере мода находится в интервале от16,68 до 19,95. Mo 16,68 3,27 26 23 17,17 (26 23) (26 9) Интервальные оценки параметров распределения Точечные оценки, найденные по выборке объемом n, не позволяют непосредственно ответить на вопрос, какую ошибку мы допускаем, принимая вместо точного значения неизвестного параметра его приближенное значение. Поэтому во многих случаях выгоднее пользоваться интервальной оценкой, основанной на определении некоторого интервала, внутри которого с определенной вероятностью находится неизвестное значение параметра. Пусть найденная по результатам выборки объема n статистическая характеристика ( x1 , x 2 ,..., x n ) является точечной оценкой неизвестного параметра . Чем меньше разность , тем лучше качество оценки, тем она точнее. Таким образом, положительное число характеризует точность оценки Однако статистический метод не позволяет категорически утверждать, что оценка удовлетворяет данному неравенству в смысле математического анализа. Можно только говорить о вероятности (1-), с которой это неравенство выполняется. Такую вероятность называют доверительной. 12 Определение 12. Доверительной вероятностью оценки называют вероятность (1-) выполнения неравенства . Обычно доверительная вероятность оценки задается заранее. Наиболее часто полагают (1-) равным одному из чисел: 0,95; 0,99; 0,9973. Доверительная вероятность точечной оценки показывает, что при извлечении выборки объема n из одной и той же генеральной совокупности в (1-) 100% случаях параметр будет накрываться данным интервалом. Неизвестный параметр заключен внутри интервала , . Этот интервал называется доверительным. Границы интервала определяются по выборочным данным, они являются статистиками. Поэтому доверительный интервал случаен. Он может накрывать параметр или нет. Данное случайное событие дает возможность сформулировать следующее определение. Определение 13. Если выполняется соотношение P ˆ ˆ 1 , то интервал , называется доверительным, который накрывает неизвестный параметр с заданной надежностью (1-). В практических приложениях важную роль играет длина доверительного интервала. Чем меньше длина доверительного интервала , , тем , очевидно, точнее оценка. Длина доверительного интервала равна 2. Величины , (1-) и n тесно взаимосвязаны и, задавая определенные значения двум из них, можно определить величину третьей. Если известно среднее квадратическое отклонение , то доверительный интервал, накрывающий неизвестное математическое ожидание генеральной совокупности с заданной доверительной вероятностью (1-), имеет следующий вид: _ x u 2 n _ a x u 2 n , _ где x - выборочное среднее; n – объем выборки; u квантиль стандартного нормального распределения N(0,1), 2 определяемый по доверительной вероятности (1-); u 2 n точность (предельная погрешность) точечной оценки математического ожидания. 13 Для наиболее употребительных значений доверительной вероятности (1-) квантили стандартного нормального распределения приведены в сокращенной таблице: Таблица квантилей нормального распределения N(0,1) P 0,9 0,95 0,975 0,99 0,995 0,999 0,9995 up 1,282 1,645 1,960 2,326 2,576 3,090 3,291 Анализируя формулу доверительного интервала, задаваемого системой неравенств, можно заметить, что: а) увеличение объема выборки n приводит к уменьшению длины доверительного интервала; б) увеличение доверительной вероятности (1-) приводит к увеличению длины доверительного интервала, т.е. к уменьшению точности ε uα n 2 ; в) если задать точность и доверительную вероятность (1-), то из соотношения ε uα 2 n можно найти минимальный объем выборки, который обеспечивает заданную точность. Если же неизвестно, тогда доверительный интервал, накрывающий неизвестное математическое ожидание а, имеет следующий вид: _ x t 2 где t 2 ;n 1 ; n 1 _ S S , a x t ; n 1 n n 2 - квантиль распределения Стьюдента, определяемый по таблицам по заданной доверительной вероятности P = (1-) и числу степеней свободы = n-1 (n – объем выборки); _ точечные распределения; x, S - t 2 S ; n 1 n - несмещенные предельная оценки параметров нормального погрешность точечного оценивания математического ожидания СВ ХN (a, ) при неизвестном обладает теми же свойствами, что и при известном . Доверительный интервал для среднего квадратического отклонения задается системой неравенств S n 1 2 2 ; n 1 S n 1 2 , 1 ; n 1 2 14 где 2 2 ; n 1 ; 2 1 ; n 1 2 - квантили 2 распределения, определенные по таблице распределения 2 по заданной доверительной вероятности (1-) и числу степеней свободы = n-1. Значение величин 1 n 1 2 2 ; n 1 и 2 n 1 2 приведены в таблице. 1 ; n 1 2 Проверка статистических гипотез При проведении статистического исследования возникают вопросы о свойствах генерального распределения и выборки. Для ответов на эти вопросы выдвигаются гипотезы, требующие статистической проверки на основе полученной выборки. Гипотеза о виде распределения строится на основе графических данных. График эмпирической функции распределения должен быть похож на график функции распределения гипотетического закона, а гистограмма – на график плотности гипотетического распределения. Для часто встречающихся на практике законов распределения эти графики имеют известный вид. Статистической гипотезой H называется предположение относительно параметров или вида распределения случайной величины X . Проверяемая гипотеза называется нулевой гипотезой и обозначается H 0 . Наряду с гипотезой H 0 рассматривают одну из альтернативных (конкурирующих) гипотез H 1 . Выдвинутую гипотезу проверяют на основе выборки. Для этого формируется функция выборочных элементов (статистика), по значениям которой судят о справедливости гипотезы. Эта статистика называется критерием значимости Z. В основе большинства критериев значимости лежит простой принцип: если есть гипотеза о том, что событие имеет очень малую вероятность, но в результате всего лишь одного испытания это событие произошло, то следует подвергнуть сомнению справедливость выдвинутой гипотезы. События, имеющие большую вероятность, считаются достоверными. Этот принцип реализуется следующим образом. Перед анализом выборки устанавливается некоторая малая вероятность , называемая уровнем значимости. Она выбирается исходя из конкретики задачи. Пусть V множество значений статистики . Указывается область маловероятных значений Z Vk V попадание в которую статистики Z позволит принять или отвергнуть гипотезу H 0 . Определение 15. Критической областью критерия значимости называется подобласть значений статистики Z,вероятность попадания в 15 которую для этой статистики при условии истинности проверяемой гипотезы равна уровню значимости: P( Z Vk / H 0 ) . Очевидно попадание значения статистики в дополнительную область V \ Vk , называемую допустимой, будет означать принятие проверяемой гипотезы. Уровень значимости определяет «размер» критической области. Критическая область выбирается исходя из требований задачи. Она может представлять собой полуось или объединение двух полубесконечных интервалов. В зависимости от вида критической области критерии подразделяют на правосторонние левосторонние и двусторонние. По выбранному уровню значимости и по выборочным значениям признака определяется величина статистики критерия. Если оно попало в критическую область, то гипотеза отвергается. Но она может оказаться справедливой, просто случайно произошло событие, которое имеет очень малую вероятность α. Таким образом α представляет собой вероятность отвержения правильной гипотезы. С уменьшением уровня значимости α расширяется критическая область и тем самым увеличивается вероятность принятия проверяемой гипотезы, когда она неверна. Определение 16. Ошибкой первого рода называется ошибка отвержения правильной гипотезы. Ошибкой второго рода называется ошибка принятия неверной гипотезы. Вероятность ошибки первого рода: Вероятность ошибки второго рода: P( Z Vk / H 0 ) , P(Z V \ Vk / H1 ) Число 1-β называют мощностью критерия. Его выбор осуществляют таким образом, чтобы мощность была максимальной. Общая схема проверки статистических гипотез: 1. Выдвигаются проверяемая и альтернативная гипотезы H 0 , H1 2. Выбирается уровень значимости α. Обычно это 0.001; 0.01; 0.05; 0.1. 3. Выбирается статистика Z критерия значимости и соответствующая ей, уровню значимости и проверяемым гипотезам, критическая область. 4. Вычисляется выборочное значение статистики Z. 5. Если выборочное значение статистики попало в критическую область, то гипотеза отвергается, если нет –принимается. Критериев существует много. Мы ограничимся рассмотрением наиболее распространённого критерия значимости. Применение критерия согласия 2 16 Будем считать, что по виду гистограммы выборки выдвинуто предположение о том, что распределение генеральной совокупности X имеет функцию распределения F (x) . Разобьём множество значений исследуемого признака на непересекающиеся промежутки i , считая, что это множество представляло собой всю вещественную ось. Крайние промежутки при этом будут полубесконечными. Обозначим pi PX i Для выборки, по которой мы изучаем нашу генеральную n1 ,...nk частоты попадания совокупность, обозначим вариант в соответствующие промежутки. Очевидно, в случае справедливости выдвинутой гипотезы относительные частоты nk n при большом объёме 2 выборки должны быть близки к вероятностям p i . Статистика критерия (ni npi ) 2 . имеет вид npi i 1 k Со свойствами её распределения можно ознакомиться в Применение критерия Пирсона основано на проверке согласованности частот (отсюда название «критерий согласия») эмпирического распределения с теоретическими частотами. Практические действия по проверке выдвинутой гипотезы начинаются с разбиения числовой оси. Как правило, используют те же промежутки, которые были найдены при построении гистограммы выборки. Если для каких-либо промежутков частота индивидуальных значений признака оказывается мала (меньше 5), то соседние промежутки нужно объединить. Определяют число степеней свободы (число независимых аргументов) статистики 2 . Аргументами являются частоты выборки, они связаны одним равенством (их сумма равна объёму выборки). В остальном они будут независимыми в силу независимости элементов выборки. Поэтому функция 2 имеет k-1 независимых аргументов (число частот минус одна связь). В случае неизвестных параметров генерального распределения их оценивание производится по той же выборке, что уменьшает число степеней свободы статистики хи-квадрат. Критерий Пирсона является правосторонним, его критической областью будет промежуток ( 12 r ,), где 12 r - квантиль распределения порядка 1-α распределения хи-квадрат с r=k-l-1 степенями свободы. Число l зависит от ситуации. Оно представляет собой число параметров распределения генеральной совокупности, оцениваемых по выборке. Квантили представлены в таблице с двумя входами (Приложения, таблица 2). 17 Статистический вывод формируется на основе сравнения двух значений статистики Пирсона – наблюдаемого и теоретического. Если â2 12 r , то гипотеза H 0 принимается, в противном случае отвергается. Теоретической основой используемого алгоритма является теорема Р. Фишера: статистика критерия хи-квадрат асимптотическти с ростом n распределена по закону хи-квадрат с числом степеней свободы6 равным r=k-l-1, где l – число параметров, оцениваемых по выборке. Вернёмся к нашему примеру. Для исследуемой выборки был построен интервальный ряд, содержащий 7 промежутков. На основе этого ряда были x 15,15 вычислены выборочные характеристики вариации и s s 2 19,19 4,38 . Значение медианы 15,12 является близким, поэтому есть основания выдвинуть гипотезу H 0 о том, что данное распределение будет нормальным. Вид гистограммы подтверждает это. Проверим с помощью критерия согласия хи-квадрат справедливость данной гипотезы при уровне значимости α=0,05. Поскольку в двух промежутках (первом и последнем) оказалось число индивидуальных значений признака меньшее, чем 5, их нужно объединить с соседними интервалами. Получится 5 интервалов, для которых мы продолжим расчёты в таблице. Целью этих расчётов будет получение наблюдаемого по данной 2 выборке значения статистики íàáë . I Границы i ni ai 1 bi ai x s 0 bi pˆ i 0 bi o bi 1 n pˆ i ni npˆ i 2 npˆ i ai 1 2 3 4 5 10,14 10,14 13,41 13,41 16,68 16,68 19,95 19,95 ∑ - 13 25 23 26 13 -1,14 -1,14 -0,40 -0,40 0,35 0,35 1,10 1,10 100 - -0,5 -0,37 -0,37 -0,16 -0,16 0,14 0,14 0,36 0,36 0,5 - 0,13 13 0 0,21 21 0,76 0,3 30 1,63 0,22 22 0,72 0,14 14 0,07 1.00 100 3,18 2 íàáë 3,18 . 18 Число оцениваемых параметров в нормальном распределении равно 2, поэтому число степеней свободы асимптотического закона хи-квадрат равно r=k-l-1= 5-2-1=2. По таблице квантилей распределения 2 находим квантиль 1 r 0,95 2 5,99 . Теперь сравниваем выборочное (наблюдаемое) значение статистики с 2 2 теоретическим. 3,18 íàáë 0,95 2 5,99 . Статистический вывод в данном случае: с вероятностью 0,95 гипотеза о нормальном распределении трафика согласуется с данными измерений. 2 2 Индивидуальные задания по разделу «Математическая статистика» По своему варианту номер i студентом выбирается строка приведённой ниже таблицы. Значения выборочных наблюдений находятся в 15 следующий строках матрицы, начиная со строки номер i (всего 150 штук). Нужно записать исходную выборку в виде таблице. Затем провести анализ вариации признака X по следующему плану: 1. Сгруппировать выборку и записать статистические ряды абсолютных и относительных частот. 2.Представить выборку графически: по строить полигон абсолютных частот; полигон относительных частот; нормированную гистограмму. 3. Построить выборочную функцию распределения F (x) , ее график. 4. Найти оценки вариации: выборочное среднее, дисперсию, среднее квадратическое отклонен ие, моду и медиану. 5. Найти относительную погрешность за счет группировки в вычислении среднего. 6. Выдвинуть и проверить с уровнем значимости α=0,05 гипотезу о нормальном законе распределения генеральной совокупности, построить график подобранной функции плотности (вместе с гистогра ммой) 7. Построить доверительные интервалы д ля параметров распределения генеральной совокупности . 8. Сформулировать статистические выводы. Они должны содержать сводные результаты по каждому пункту исследования. При защите данной работы студент должен быть готов ответить на контрольные вопросы. 19 Номер варианта i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Индивидуальные значения признака Х 48 25 43 38 30 37 43 37 43 40 44 33 40 44 44 33 48 42 39 43 39 37 44 32 34 42 37 43 41 48 30 41 37 38 48 31 47 37 34 45 39 31 46 40 43 42 30 30 45 52 51 42 48 50 50 48 26 47 37 41 44 48 46 41 41 37 37 49 46 38 38 48 48 44 47 43 33 42 48 45 43 34 34 46 41 38 32 44 50 44 45 40 45 46 47 38 31 35 47 30 37 38 37 48 38 46 39 27 33 37 43 41 46 50 38 34 51 46 30 41 44 49 35 47 40 36 36 48 34 39 39 35 43 39 37 42 34 34 47 39 35 52 34 36 34 41 42 31 37 34 41 43 41 37 52 46 41 35 51 40 34 39 42 34 40 44 42 44 33 35 34 37 36 41 33 45 38 41 33 38 43 40 41 51 33 47 48 41 47 40 44 47 41 47 34 37 40 34 33 36 34 37 32 42 35 39 34 35 39 45 44 43 36 48 34 32 36 33 42 36 38 45 37 36 27 36 41 46 35 34 45 37 37 27 36 40 45 38 41 27 32 45 41 38 35 32 49 45 41 33 40 48 42 44 42 34 46 41 37 36 33 44 41 33 51 30 36 40 31 36 38 42 37 48 34 41 37 45 44 50 43 49 34 40 41 48 48 34 39 42 37 48 40 42 43 44 49 35 39 34 47 42 39 39 45 45 39 36 29 50 37 34 48 37 41 39 36 36 42 44 40 31 42 38 38 43 49 33 46 42 43 50 37 36 43 39 40 43 39 42 45 38 30 45 27 41 33 36 30 48 46 32 49 46 41 32 27 20 39 41 46 49 42 36 45 39 50 41 31 36 32 32 30 51 47 45 48 42 37 46 38 40 38 40 38 40 47 42 36 39 50 44 46 38 32 42 36 40 39 48 20 Номер варианта i 1 41 42 43 44 45 46 47 Индивидуальные значения признака Х 48 36 40 43 44 49 27 51 39 36 38 38 41 43 49 53 43 32 45 30 47 52 46 48 44 32 40 59 52 50 39 49 34 36 40 42 51 30 47 53 34 49 50 41 38 30 26 45 32 27 42 33 50 26 49 27 43 45 37 42 39 50 52 43 40 30 50 38 50 27 29 48 46 35 39 44 48 49 44 44 Контрольные вопросы Что такое генеральная совокупность, выборка? Что такое статистический ряд? Что такое полигон частот? Что такое оценка генеральной числовой характеристики? Перечислите основные выборочные оценки генеральных числовых характеристик. 6. Что такое группированный статистический ряд? 7. Что такое гистограмма выборки? 8. Дайте определение точечной статистической оценки. 9. Что такое статистика? 10. Какая оценка называется несмещённой, состоятельнойё эффективной? 11. Какими свойствами обладает выборочное среднее? 12. Зачем нужна поправка Бесселя? 13. Какие свойства имеет выборочная дисперсия? 14. Дайте определение доверительного интервала. 15. Что такое точность и надёжность оценки? 16. Что такое статистическая гипотеза? 17. Что такое критерий значимости, статистика критерия значимости? 18. Что такое уровень значимости? Как он связан с доверительной вероятностью? 19. Что такое критическая область критерия? 20. Изложите общую схему проверки статистических гипотез. 21. Что такое критерий согласия? 22. Какие ошибки называются ошибками первого и второго рода? 23. Какие критерии называются односторонними и двусторонними? 24. Как формулируется теорема Фишера об асимптотическом поведении статистик критерия хи-квадрат? 25. Как формулируется критерий хи-квадрат для проверки гипотезы о законе распределения генеральной совокупности с неизвестными параметрами? 1. 2. 3. 4. 5. 21 Приложения Таблица 1. Значения нормированной функции Лапласа x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0,29 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 x 0.77 0.78 0.79 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0/93 0.94 0.95 0.96 0.97 0.98 0.99 1.00 1.01 1.02 1.03 1.04 1.05 1.06 0.2794 0.2823 0.2852 0.2881 0.2910 29.39 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.3159 0.3186 0.3339 0.3565 0.3389 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 x 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 1.81 1.82 1.83 0.3869 0.3883 0.3907 0.3929 0.4032 0.4049 22 0.30 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60 0/61 0/62 0.63 0.64 0.65 0.66 0.1179 0,1217 0.1225 0.1293 0.1331 0.1368 0.1406 0.443 0.1480 0.1517 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 0.3577 0.3599 0.3621 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 0.3849 0.3869 0.3883 0.3907 0.3929 0.4032 0.4049 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 0.3643 1.84 1.85 1.86 1.87 1.88 1.89 1.90 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.31 2.32 2.33 2.334 2.35 2.36 2.37 2.38 2.39 2.40 2.41 2.42 2.43 2.44 2.45 2.46 2.47 2.48 2.49 2.50 2.51 2.52 2.53 2.54 2.55 2.56 2.57 2.58 2.59 2.60 2.61 2.62 2.63 2.64 2.65 2.66 23 0.67 0.68 0.69 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.2486 0.2517 0.2549 0.2580 0.2611 0.2642 0.2673 0.2703 0.2734 0.2764 1.33 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 0.3849 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28 2.29 2.30 2.67 2.68 2.69 2.70 2.71 2.72 2.73 2.74 2.75 2.76 2.77 2.78 2.79 2.80 2.81 2.82 2.83 2.84 2.85 2.86 2.87 2.88 2.89 2.90 2.91 2.92 2.93 2.94 2.95 2.96 2.97 2.98 2.99 3.00 3.20 3.40 3.60 24 3.80 4.00 4.50 5.00 25