t 0,0 0,1 F(t) 0,5000 0,5398 f(t) Ф(t) 0,3989 0,0000 0,3970 0,0797 t F(t) f(t) Ф(t) 1,6 0,9452 0,1109 0,8904 1,7 0,9554 0,0940 0,9109 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,3910 0,3814 0,3683 0,3521 0,3332 0,3123 0,2897 0,1585 0,2358 0,3108 0,3829 0,4515 0,5161 0,5763 1,8 1,9 2,0 2,1 2,2 2,3 2,4 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,0790 0,0656 0,0540 0,0440 0,0355 0,0283 0,0224 0,9281 0,9426 0,9545 0,9643 0,9722 0,9786 0,9836 0,9 1,0 1,1 1,2 1,3 1,4 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,2661 0,2420 0,2179 0,1942 0,1714 0,1497 0,6319 0,6827 0,7287 0,7699 0,8064 0,8385 2,5 2,6 2,7 2,8 2,9 3,0 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,0175 0,0136 0,0104 0,0079 0,0060 0,0044 0,9876 0,9907 0,9931 0,9949 0,9963 0,9973 1,5 0,9332 0,1296 0,8664 3,1 0,9990 0,0033 0,9981 97,72% встречающихся значений нормально распределённой случайной величины имеют значения, не превышающие 2t (t=µ+σ, где µ - математическое ожидание; σ – стандартное отклонение) 99,38% - µ + 2,5σ 99,87% - µ + 3σ 68,27% наиболее часто встречающихся значений нормально распределённой случайной величины лежат в интервале от -t до +t (t=µ±σ, где µ - математическое ожидание; σ – стандартное отклонение 95,45% - в интервале µ ± 2σ 99,73% - в интервале µ ± 3σ Эти соотношения широко используются в статистических критериях. Например, мы можем считать аномальной геохимическую пробу, в которой содержание элемента индикатора превысит 3t, при этом вероятность ошибки будет составлять всего 0,13% t F(t) 3,0 0,9987 Пример: Пусть среднее фоновое содержание Pb*10-3 % на участке равно 10 и стандартное отклонение 5. Тогда минимально аномальное содержание для единичной пробы будет = µ + 3σ = 10+3*5 = 25. (для нескольких смежных проб эта граница уменьшается до 3 / n , где n – число смежных проб ≤ 9. Например, для 9 смежных проб минимально аномальным содержанием будет µ + σ = 10+5 = 15) Чтобы использовать эти вероятности, надо выполнить ряд условий, которые редко осуществимы на практике. Мы обычно не знаем истинных значений параметров распределения (μ и σ2), т.к. не можем измерить всё множество элементов генеральной совокупности. Вместо этого, мы оцениваем эти параметры по выборке. Наши оценки допускают некоторую степень неопределённости, которую можно учесть, если использовать распределение с более широкой областью значений, чем у нормального распределения. Одно из распределений такого типа называется t – распределением Стъюдента. Распределение Стьюдента (t – распределение) Критерий Стьюдента был разработан английским химиком У.Госсетом (William Sealy Gosset) , когда он работал на пивоваренном заводе Гиннеса и по условиям контракта не имел права открытой публикации своих исследований. Поэтому публикации своих статей по t-критерию У.Госсет сделал в 1908г. в журнале "Биометрика" под псевдонимом "Student", что в переводе означает "Студент". В отечественной же литературе принято писать "Стьюдент". Коварная простота вычисления t-критерия Стьюдента, а также его наличие в большинстве статистических пакетов и программ привели к широкому использованию этого критерия даже в тех условиях, когда применять его нельзя. k 1 k 1 1 2 t2 2 1 f k (t ) , k k πk Г 2 Г Функция плотности вероятности k 1 k 1 Г t 2 2 1 2 1 x Fk (t ) dx, k πk Г k 2 Интегральная функция Параметром распределения Стьюдента является Число степеней свободы k , зависящее от объёма выборки. При увеличении значения k распределение приближается к нормальному и в пределе (при k = ) совпадает с ним. Практически уже при k = 20 можно пользоваться таблицами нормального распределения. Коэффициенты вероятности t распределения Стьюдента при заданной вероятности и степени свободы k Вероятность k 0,10 0,05 0,02 0,01 0,005 0,002 0,001 1 6,314 12,706 31,821 63,657 127,321 318,309 636,619 2 2,920 4,303 6,965 9,925 14,089 22,327 31,599 3 2,353 3,182 4,541 5,841 7,453 10,214 12,924 4 2,132 2,776 3,747 4,604 5,597 7,173 8,610 5 2,015 2,571 3,365 4,032 4,773 5,893 6,869 6 1,943 2,447 3,143 3,707 4,317 5,208 5,959 7 1,895 2,365 2,998 3,499 4,029 4,785 5,408 8 1,860 2,306 2,896 3,355 3,833 4,501 5,041 9 1,833 2,262 2,821 3,250 3,690 4,297 4,781 10 1,812 2,228 2,764 3,169 3,581 4,144 4,587 11 1,796 2,201 2,718 3,106 3,497 4,025 4,437 12 1,782 2,179 2,681 3,055 3,428 3,930 4,318 13 1,771 2,160 2,650 3,012 3,372 3,852 4,221 14 1,761 2,145 2,624 2,977 3,326 3,787 4,140 15 1,763 2,131 2,602 2,947 3,286 3,733 4,073 16 1,746 2,120 2,583 2,921 3,252 3,686 4,015 17 1,740 2,110 2,567 2,898 3,222 3,645 3,985 18 1,734 2,101 2,552 2,878 3,197 3,610 3,922 19 1,729 2,093 2,540 2,861 3,174 3,579 3,883 20 1,725 2,086 2,528 2,845 3,153 3,552 3,849 22 1,717 2,074 2,508 2,819 3,119 3,505 3,792 24 1,711 2,064 2,492 2,797 3,091 3,467 3,745 26 1,706 2,056 2,479 2,779 3,067 3,435 3,707 28 1,701 2,048 2,467 2,763 3,047 3,408 3,674 30 1,697 2,042 2,457 2,750 3,030 3,385 3,646 40 1,684 2,021 2,423 2,704 2,971 3,307 3,551 50 1,676 2,009 2,403 2,678 2,937 3,261 3,496 100 1,660 1,984 2,364 2,626 2,871 3,174 3,390 >100 1,645 1,960 2,326 2,576 2,807 3,090 3,291 –t 0 +t t Логнормальное распределение. Случайная величина X имеет логнормальное распределение с параметрами μ, σ, если X = exp(Y), где Y имеет нормальное распределение с параметрами μ, σ. Случайная величина с логнормальным распределением является непрерывной, и принимает только положительные значения. Графики плотности Логнормальным законом удовлетворительно описывается частота появления низких содержаний химических элементов. Академик А.Н.Колмогоров теоретически обосновал логнормальное распределение частиц при дроблении, что используется при гранулометрическом анализе обломочных пород. При расчетах вначале находят натуральные или десятичные логарифмы значений случайной величины. Далее вся работа ведется с логарифмами: вычисляют их среднее значение, дисперсию, среднеквадратичное отклонение, асимметрию, эксцесс, а по таблицам нормального закона определяют вероятности. Так как логарифм нуля равен –, обычно нулевые содержания заменяют какими-то минимальными значениями, например половиной предела чувствительности анализа. При логнормальном распределении: 2 M exp 2 Математическое ожидание D 2 exp 2 2 * (exp 2 1) exp 2 * exp 2 1 2 V exp 2 1 В этих формулах: Дисперсия Стандартное отклонение Коэффициент вариации 2 - среднее значение натуральных логарифмов исходных данных - дисперсия натуральных логарифмов исходных данных Геологическое приложение одномерной статистической модели. Точечная оценка погрешности (ошибки) среднего значения Интервальная оценка математического ожидания случайной величины. Расчёт необходимого числа измерений n для достижения заданной погрешности среднего значения. Выделение аномальных значений. Проверка гипотез о равенстве математических ожиданий (сравнение средних). Точечная оценка погрешности (ошибки) среднего значения Среднее значение x из n независимых значений случайной величины x также является случайной величиной. Если случайная величина x имеет дисперсию 2, то среднее значение x имеет дисперсию 2 в n раз меньше. Распределение x стремится к нормальному при увеличении n. s2 se n 2 Дисперсия выборочных средних значений Стандартное отклонение выборочных средних значений se называется стандартной ошибкой среднего или абсолютной ошибкой среднего, Относительная погрешность среднего se s V x x n n В этих формулах: x - Среднее значение случайной величины x s - Выборочное стандартное отклонение V - Коэффициент вариации V s x s n (x x) i 1 i n 1 2 se s n Интервальная оценка математического ожидания случайной величины. Стандартная ошибка среднего se, вычисленная по выборке, определяет интервал значений, в пределах которого с определённой вероятностью q находится математическое ожидание генеральной совокупности. x tq ,n se t q ,n - коэффициент вероятности t-распределения Стьюдента для заданной вероятности q и объёма выборки n+1 Интервальная оценка среднего x – t < М(х) < x + t. При n>100: Вероятность q = Ф(t) Коэффициент вероятности t Доверительный интервал 0,683 1 + 0,954 2 + 2 0,997 3 + 3 Коэффициенты вероятности t распределения Стьюдента при заданной вероятности и степени свободы k k Вероятность 0,10 0,05 0,02 0,01 0,005 0,002 0,001 1 6,314 12,706 31,821 63,657 127,321 318,309 636,619 2 2,920 4,303 6,965 9,925 14,089 22,327 31,599 3 2,353 3,182 4,541 5,841 7,453 10,214 12,924 4 2,132 2,776 3,747 4,604 5,597 7,173 8,610 5 2,015 2,571 3,365 4,032 4,773 5,893 6,869 6 1,943 2,447 3,143 3,707 4,317 5,208 5,959 7 1,895 2,365 2,998 3,499 4,029 4,785 5,408 8 1,860 2,306 2,896 3,355 3,833 4,501 5,041 9 1,833 2,262 2,821 3,250 3,690 4,297 4,781 10 1,812 2,228 2,764 3,169 3,581 4,144 4,587 11 1,796 2,201 2,718 3,106 3,497 4,025 4,437 12 1,782 2,179 2,681 3,055 3,428 3,930 4,318 13 1,771 2,160 14 1,761 2,145 15 1,763 2,131 16 1,746 2,120 17 1,740 2,110 18 1,734 2,101 19 1,729 20 1,725 22 2,650 3,012 3,372 3,852 2,093 4,221 Если вы оценили среднее значение ( x ) 2,977 3,787 4,140 se ) и2,624 стандартную ошибку ( 3,326 2,602 2,947 3,286 3,733 4,073 по 21 наблюдению, 2,583 2,921 3,252 3,686 4,015 то интервальная оценка математического ожидания 2,567 2,898 3,222 3,645 3,985 совокупности ( ) 2,552 2,878 3,197 3,610 3,922 будет равна x 2.086 2,540 2,861 3,174 se 3,579 3,883 2,086 2,528 2,845 3,153 3,552 3,849 1,717 2,074 2,508 2,819 3,119 3,505 3,792 24 1,711 2,064 2,492 26 1,706 2,056 28 1,701 2,048 30 1,697 2,042 40 1,684 50 1,676 100 Другими словами, в 95 случаях из 100 2,797 3,091 3,467математическое 3,745 2,479 2,779 3,067 3,707 ожидание совокупности, из которой 3,435 извлечена выборка, 2,467 2,763 3,047 3,408 Будет лежать в интервале x 2.086 s 3,674 2,457 2,750 3,030 3,385 e 3,646 2,021 2,423 2,704 2,971 3,307 3,551 2,009 2,403 2,678 2,937 3,261 3,496 1,660 1,984 2,364 1,645 1,960 2,326 2,871 3,174 3,390 СТЬЮДРАСПОБР Значение 2,626 t можно получить в MS EXEL функцией 2,576 2,807 3,090 3,291 Интервальная оценка математического ожидания случайной величины. С вероятностью 68,2% выборочное среднее будет попадать в интервал 1 С вероятностью 95 % выборочное среднее будет попадать в интервал 1,96 0.4 И наоборот, математическое ожидание совокупности 0.2 находится в интервале с вероятностью 95,4% 0.0 -4 -3 -2 -1 1 x 1se 2 3 4 Вероятность q = Ф(t) Коэффициент вероятности t Доверительный интервал 0,682 1 ± se 0,954 2 ± 2se 0,997 3 ± 3se se x 1,96 se q = 95 % q = 68,2 % Интервальная оценка математического ожидания случайной величины. Графическая форма представления интервальной оценки – диаграмма размаха (ящик с усами) Расчёт необходимого числа измерений n для достижения заданной относительной погрешности среднего значения s s V e x x n n 2 Vt st n x 2 В этих формулах: x - Среднее значение случайной величины x n s - Выборочное стандартное отклонение V - Коэффициент вариации se V - Стандартная ошибка среднего s s x s se n t - Коэффициент вероятности распределения Стьюдента (x x) i 1 2 i n 1 Значения вероятностей нормального распределения (могут использоваться в качестве приближённых значений коэффициентов вероятности распределения Стьюдента при объёме выборки > 30) Вероятность q = Ф(t) Коэффициент вероятности t Доверительный интервал 0,682 1 ± se 0,954 2 ± 2se 0,997 3 ± 3se Выделение аномальных значений. Распространенный способ выделения аномальных значений называется правилом «трех сигм» и основан на том, что случайная величина при нормальном законе распределения практически полностью (на 99,7 %) заключена в пределах от x 3 до x 3 Если значение случайной величины отличается от среднего значения больше чем на 3, то оно является аномальным. При этом испытуемое значение не должно участвовать в расчете среднего значения и среднеквадратичного отклонения. Если распределение случайной величины логнормальное, то правило «трех сигм» применяется к логарифмам значений, что используется при геохимическом методе поисков месторождений для выделения геохимических аномалий. x 3s x 3s =1,195+3*0,5419=1,195+1,62=2,815 x 3s =1,279+3*0,6278=1,279+1,884=3,163 =0,2787+3*0,6897=0,2787+2,0691=2,3478 e 2,3478 = 10,46 Критерий Н.В. Смирнова x xmin U1 2 sсм Un xmax x 2 sсм Если U1 > критического значения Ua при выбранном уровне значимости α или Un > Ua, нулевая гипотеза отклоняется, т. е. выброс xmin или xmax не случаен, не характерен для рассматриваемой совокупности данных. В этом случае значение xmin или xmax исключают из рассмотрения, а найденные ранее оценки x и s подвергают корректировке с учетом отброшенных результатов. x - выборочное среднее значение случайной величины n 1 2 2 - смещённая выборочная дисперсия sсм s2 sсм n Использование критерия Н.В.Смирнова предполагает нормальное нормальноераспределение распределение изучаемой случайной величины. Критерий действителен для наиболее широко встречающихся случаев, при которых генеральные параметры неизвестны, а известны лишь их оценки, произведенные на основании анализируемой выборки. Критические значения uα для уровня значимости α и объема выборки n для отбрасывания резко выделяющихся результатов испытаний при неизвестной генеральной дисперсии (Критерий Смирнова) n uα n α = 0.10 0.05 0.01 3 1.15 1.15 1.15 4 1.42 1.46 5 1.60 6 uα α = 0.10 0.05 0.01 15 2.25 2.41 2.70 1.49 16 2.28 2.44 2.75 1.67 1.75 17 2.31 2.48 2.78 1.73 1.82 1.94 18 2.34 2.50 2.82 7 1.83 1.94 2.10 19 2.36 2.53 2.85 8 1.91 2.03 2.22 20 2.38 2.56 2.88 9 1.98 2.11 2.32 21 2.41 2.58 2.91 10 2.03 2.18 2.41 22 2.43 2.60 2.94 11 2.09 2.23 2.48 23 2.45 2.62 2.96 12 2.13 2.29 2.55 24 2.47 2.64 2.99 13 2.17 2.33 2.61 25 2.49 2.66 3.01 14 2.21 2.37 2.66 30 2.70 2.93 3.40 40 2.79 3.02 3.48 50 2.86 3.08 3.54 100 3.08 3.29 3.72 250 3.34 3.53 3.95 500 3.53 3.70 4.11 Критерий Титьена – Мура Если из нормально распределенной совокупности, содержащей N значений, исключить n максимальных или минимальных значений, то дисперсия уменьшится , и по степени ее уменьшения можно судить об аномальности исключенных значений. 2N - дисперсия исходной совокупности N n 2N n L , где 2N n - дисперсия после исключения n предполагаемых аномальных значений. N 2N N 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 Критерий Титьена – Мура при = 0,05 Количество исключенных значений n 1 0,003 0,051 0,125 0,203 0,273 0,326 0,372 0,418 0,454 0,489 0,517 0,540 0,556 0,575 0,594 0,608 0,624 0,639 0,696 0,730 0,762 0,784 0,802 0,820 2 3 4 5 6 7 8 9 10 0,001 0,018 0,055 0,106 0,146 0,194 0,233 0,270 0,305 0,337 0,363 0,387 0,410 0,427 0,447 0,462 0,484 0,550 0,599 0,642 0,672 0,696 0,722 0,010 0,032 0,064 0,099 0,129 0,162 0,196 0,224 0,250 0,276 0,300 0,322 0,337 0,354 0,377 0,450 0,506 0,554 0,588 0,618 0,646 0,022 0,045 0,070 0,098 0,125 0,150 0,174 0,197 0,219 0,240 0,259 0,277 0,299 0,374 0,434 0,482 0,523 0,556 0,588 0,034 0,054 0,076 0,098 0,122 0,140 0,159 0,181 0,200 0,209 0,238 0,312 0,376 0,424 0,468 0,502 0,535 0,042 0,060 0,079 0,097 0,115 0,136 0,154 0,168 0,188 0,262 0,327 0,376 0,421 0,456 0,490 0,050 0,066 0,082 0,100 0,116 0,130 0,150 0,222 0,283 0,334 0,378 0,417 0,450 0,055 0,072 0,086 0,099 0,115 0,184 0,245 0,297 0,342 0,382 0,414 0,062 0,074 0,088 0,154 0,212 0,264 0,310 0,350 0,383 0,066 0,126 0,183 0,235 0,280 0,320 0,355 Проверка гипотез о равенстве математических ожиданий (сравнение средних). Задача сравнения средних значений возникает при решении широкого круга геологических задач: вопрос о комагматичности эффузивных и интрузивных образований о принадлежности интрузивных тел к определённому магматическому комплексу нескольких вулканических построек к одному глубинному очагу внешний контроль опробования вопрос о возможности замены трудоёмких и дорогих аналитических методов более быстрыми и дешёвыми степень влияния состава пород на геохимический фон возможность использования геофизических методов для выделения пород разного состава Статистические методы используются в тех случаях, когда путём визуального сравнения средних невозможно уверенно решить вопрос об их сходстве или различии. Особенно часто это бывает, когда объем выборок невелик, а значения свойств обладают большой изменчивостью Для решения подобных задач в статистике используются параметрические и непараметрические критерии. Параметрические критерии основаны на известных законах распределения (Стьюдента, Фишера и др.). Для их применения необходимо, чтобы выборочные данные соответствовали определённому закону распределения. Непараметрические критерии могут использоваться при любом, в том числе и неизвестном законе распределения. Они часто применяются при малых объёмах выборок, когда из-за недостаточного количества данных невозможно провести тест на соответствие определённому закону распределения. Кроме того, непараметрические методы позволяют анализировать данные, измеренные в порядковой шкале. Однако непараметрические критерии обладают меньшей мощностью (т.е большей вероятностью принятия ошибочного решения) и менее чувствительны. Параметрические критерии. t-критерий Стьюдента. Для независимых выборок |xy| t sx y t x y 12 22 n1 n2 2 . n1 n2 n1 n2 x и y - выборочные средние случайных величин x и y s x2 и s y2 - дисперсии выборок случайных величин x и y n x и n y - объёмы выборок случайных величин x и y Количество степеней свободы = nx n y 2 Для зависимых выборок |xy| t sx y sx y s x2 2rs x s y s y2 n 1 s x2 и s y2 - выборочные дисперсии основных x и контрольных y проб r – коэффициент линейной корреляции x и y n – количество сравниваемых пар x и y t-критерий Стьюдента. Величина t распределена по закону Стьюдента с числом степеней свободы = n1+n2-2 Критерий двухсторонний. Критические значения можно найти по таблицам коэффициентов вероятности t распределения Стьюдента. в пакете STATISTICA с помощью вероятностного калькулятора, в MS EXEL с помощью функции СТЬЮДРАСПР Если рассчитанное значение t превысит критическое при заданном уровне значимости и числе степеней свободы = n1+n2-2, гипотеза о равенстве средних отвергается. Ограничения применения t-критерия Стьюдента и проверка гипотезы о равенстве дисперсий Для использования t-критерия выборки должны быть отобраны из совокупностей, имеющих нормальное распределение и равные дисперсии При этом отклонение от нормальности распределения оказывает небольшое влияние на результат, в то время как при неравенстве дисперсий применять t-критерий не рекомендуется. Равенство дисперсий легко проверяется с помощью F-критерия Фишера: где s12 и s22 - дисперсии выборок, причём s12 > s22 s12 F 2 s2 (В числитель всегда ставится большая дисперсия). Параметрами распределения Фишера являются числа степеней свободы числителя n1 и знаменателя n2 Число степеней свободы равно объёму выборки - 1. График плотности вероятности F-распределения Если рассчитанное значение F превысит критическое при заданном уровне значимости a и числах степеней свободы числителя и знаменателя n1 и n2, гипотеза о равенстве дисперсий отвергается c вероятностью ошибки = a. Проверка равенства дисперсийй с помощью F-критерия Фишера Критерий односторонний. Критические значения можно найти по таблицам коэффициентов вероятности F распределения Фишера, в пакете STATISTICA с помощью вероятностного калькулятора, в MS EXEL с помощью функции ФТЕСТ Если рассчитанное значение F превысит критическое при заданном уровне значимости a и числе степеней свободы n1, n2, гипотеза о равенстве средних отвергается с вероятностью 1-a Непараметрические критерии сравнения средних. Если гипотеза о равенстве дисперсий отвергается, надо применять непараметрические критерии сравнения средних. Непараметрические методы сравнения средних основаны на замене выборочных значений групп их рангами в обобщённой выборке. В качестве примера можно рассмотреть U - критерий Манна-Уитни, который представляет собой непараметрическую альтернативу t-критерию для независимых выборок. U-статистика представляет собой общее число тех случаев, в которых элементы второй выборки превосходят элементы первой выборки. Если гипотеза об отсутствии различий в средних значениях верна, то при объёме выборок > 20, U-статистика распределена нормально с математическим ожиданием mn/2 и дисперсией nm(n+m+1)/12, где n и m объёмы выборок. Порядок вычислений: 1) разделить единый ранжированный ряд на два, состоящие соответственно из элементов первой и второй выборок; Выборка 1 6 7 7 8 8 Выборка 2 Ранги 9 9 8 9 10 9 9 11 11 11 12 12 12 13 13 1 2,5 2,5 5 5 5 9 9 9 9 9 12 14 14 14 17 17 17 19,5 19,5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2) подсчитать отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно — на долю элементов второй выборки; 3) определить большую из двух ранговых сумм (Tx), соответствующую выборке с nx элементов; 4) определить значение U-критерия Манна — Уитни по формуле U n1n2 nx (nx 1) Tx ; 5) По таблице определить критическое значение критерия для данных n1 и n2. 2 6) Сравнить рассчитанное значение с критическим и принять решение. Гипотеза об отсутствии различий отвергается, если рассчитанное значение U окажется МЕНЬШЕ или равно табличному критическому значению. Критические значения критерия U Манна-Уитни при объёме выборок > 20, U-статистика распределена нормально с математическим ожиданием mn/2 и дисперсией nm(n+m+1)/12, где n и m объёмы выборок.