Математическая статистика Задачи математической статистики • Оценка неизвестной функции распределения. • Оценка неизвестных параметров распределения. • Статистическая проверка гипотез. Выборочный метод. Генеральная совокупность. Выборка • Опр. Исследуемая совокупность N объектов наз. генеральной совокупностью ( N - очень велико, в некоторых случаях количество значений, образующих генеральную совокупность, можно считать и бесконечным). • Опр. Совокупность объектов n , отобранных случайным образом из генеральной совокупности наз. выборочной совокупностью (выборкой), где n N . • Число n наз. объемом выборки. • Метод основанный на том, что по выборочной совокупности выделенной из данной генеральной совокупности делается заключение о всей генеральной совокупности наз. выборочным методом Виды выборок Собственно-случайная • Выборка образованная случайным выбором элементов без расчленения на части или группы. Механическая • Выборка, в которую элементы из генеральной совокупности отбираются через определенный интервал. Например, если объем выборки должен составлять 10% (10%-я выборка), то отбирается каждый 10-й элемент. Типическая • Выборка, в которую случайным образом отбираются элементы из типических групп, на которые по некоторому признаку разбивается генеральная совокупность. Серийная • Выборка, в которую случайным образом отбираются не элементы, а целые группы совокупности(серии), а сами серии подвергаются сплошному наблюдению. Способы образования выборки Повторный отбор • Каждый элемент, случайно отобранный и обследованный, возвращается в общую совокупность и может быть повторно отобран. Бесповторный • Отобранный элемент не возвращается в общую совокупность Статистический ряд. Статистическое распределение. Эмпирическая функция распределения • Варианты: x1 , x2 , x3 ,..., xn . • Вариационный ряд: x1 x2 x3 ... xn • или x1 x2 x3 ... xn . • Из генеральной совокупности извлечена выборка объема n : • x1 наблюдалась n1 раз; • x2 наблюдалась n 2 раза; • x3 наблюдалась n3 раза; • ………………………………… • наблюдалась раз. k k n x k • Причем . n n i i 1 • Числа n , n ,...., n 1 2 k называются частотами. • Числа ni wi n , где i 1,2,..., k наз. относительными частотами. Статистическое распределение выборки x1 n1 x3 n3 x2 n2 k n i 1 i n ………… xk ………… nk Полигон частот nk n3 n1 n2 x1 x 2 x3 .......... xk Полигон относительных частот wk w3 w1 w2 x1 x 2 x3 .......... xk Эмпирическая функция распределения • Эмпирическая функция распределения это функция равная отношению числа вариант, меньших x , к объему выборки: . n( x ) F ( x) n Свойства эмпирической функции распределения • 1) • 2) 0 F ( x) 1; F (x ) - неубывающая; • 3) если x1 наименьшая варианта, то F ( x) 0, при x x ; 1 4) если x k наибольшая варианта, то F ( x ) 1, при k xx. Пример. По данному распределению выборки построить эмпирическую функцию. xi 2 6 10 ni 12 18 30 3 n ni 60 i 1 0, 12 , 60 F ( x) 12 18 , 60 1, x 2; 2 x 6; 6 x 10;. x 10. 0, 0,2 , F ( x) 0 , 5 , 1, x 2; 2 x 6; 6 x 10 ; x 10 . F (x) 1 0,5 0,2 0 2 6 10 x Статистическая совокупность x0 ; x1 x1 ; x2 x2 ; x3 n1 n2 n3 ………… ………… xk 1 ; xk nk h x1 x0 x2 x1 .... xk xk 1 • Число интервалов определяется по формуле Стерджеса k 1 3,22 lg n Гистограмма частот • Ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиною высоты равны отношению (плотность частот). ni h h ,а ni h n2 h n1 h nk h x1 x 2 x3 xk 1x k • Площадь гистограммы частот k S S i , i 1 тогда ni S i h ni , h k S ni n. i 1 Гистограмма относительных частот • Ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиною высоты равны отношению wi h (плотность относительных частот). h,а wi h w2 h w1 h wk h x1 x 2 x3 xk 1x k Площадь гистограммы относительных частот k S S i , i 1 wi Si h wi , h тогда k k k n i ni i 1 n S wi 1. n n i 1 i 1 n Статистические оценки параметров распределения Точечные оценки • Оценка, которая определяется одним число, наз. точечной. Интервальные оценки • Оценка, которая определяется двумя числами, являющимися концами интервала, содержащего неизвестный параметр, называется интервальной. Свойства точечных оценок Несмещенность • Статистическая оценка наз. несмещенной, если её математическое ожидание равно оцениваемому параметру при любом объеме выборки: M ( ) . Эффективность • Статистическая оценка наз. эффективной, если она имеет наименьшую возможную дисперсию. Состоятельность • Статистическая оценка наз. состоятельной, которая при n стремится по вероятности к оцениваемому параметру : lim P n 1. • Теорема. Если дисперсия несмещенной оценки при n стремится к нулю, то такая оценка состоятельна. • Док-во: Оценка параметра несмещенная, т.е. M , поэтому при из неравенства Чебышева D P M 1 2 следует D P 1 2 . Но D 0 при n . Значит при n , для каждого фиксированного : D а 1 Но тогда D 2 2 0, 1. P 1 при n . Генеральная средняя N или xг x i i 1 N k x г x N i i 1 N i . Выборочная средняя n или x в x i i 1 n x k в x n i 1 n i i . Генеральная дисперсия N (x Dг i i 1 xг ) 2 N или D k (x x ) N 2 г i i 1 г N i . Выборочная дисперсия x n Dв i 1 i xв n 2 x x n k 2 в i D в i 1 n i , n 2 2 1 Dв xi x г x в x г . n i 1 • Выборочная средняя является несмещенной и состоятельной: 1.Рассмотрим выборочную среднюю, как случайную величину n Xв X i 1 n i M ( X1 ) M ( X 2 ) ... M ( X n ) M ( X ) xг , D( X 1 ) D( X 2 ) ... D( X n ) D( X ) . 2 г X 1 M (X ) M M n n 1 n M (X ) M (X ) x , n n i i 1 в n i 1 1 X n i г • т.е. M ( xв ) x г . n i 1 M (X ) i X 1 1 D ( X ) D D X n n n 1 1 n D( X ) D( X ) . n n n n i 1 в n i 2 i 1 2 г 2 i 2 n i 1 D( X ) i 2.Используем неравенство Чебышева: P X m 1 D . 2 D( X в ) P X в M (X в ) 1 2 ; P X в xг 1 . 2 n 2 г Пусть n тогда т.е. lim P X n в P X в x г 1, xг 1. • Значит выборочная средняя является статистической оценкой генеральной средней. • Выборочная дисперсия является смещенной оценкой: 1 2 2 M ( Dв ) M ( X i x г ) ( X в x г ) n 1 2 2 M ( X i xг ) M ( X в xг ) n 1 2 2 M ( X i M ( X i )) M ( X в M ( X в )) n 1 n 1 2 n 1 2 n D( X ) D( X в ) г г Dг Dг . n n n n 2 г M ( Dв ) Dг . • Несмещенная оценка генеральной дисперсии - исправленная выборочная дисперсия: n S Dв . n 1 2 Статистические характеристики Мода (nk nk 1 ) h M 0 xk (nk nk 1 ) (nk nk 1 ) Медиана n Ti 1 2 M e xi h . ni Асимметрия • Асимметрия распределения характеризуется тем, что вариант, меньших и больших моды неодинаковое число. 3 A 3 , в 3 n (x x ) i i n в 3 . • При M0 x A 0 асимметрия положительная; При M0 x A 0 асимметрия отрицательная. • Если A 0,1 , то распределение почти симметрично; если A 0,5 , то распределение сильно асимметрично. Эксцесс • Эксцесс характеризует крутовершинность кривой распределения. 4 E 4 3, в 4 n (x x ) i i n в 4 . • Если E 0,1, то распределение считается близким к нормальному; • если E 0,5, то распределение значительно отклоняется от нормального. Метод произведений u i-условные варианты, xi C ui , C h -условный нуль. xi u i h C , x k в n (C u h) C k x n i 1 n i i 1 n k i 1 1 C hМ , i 1 i i n h k n i n u i 1 n i i n k М n i 1 i u k i . n xв C h М 1 2 2 1 Dв ( М ( М ) ) h 2 3 h ( М 3М М 2( М ) ), 3 3 1 2 3 1 4 h ( М 4М М 6М ( М ) 3( М ) ). 4 4 1 3 2 2 1 4 1 Статистическая проверка статистических гипотез • Нулевая гипотеза ( H 0 ) - выдвинутая гипотеза. • Конкурирующая гипотеза ( H 1 ) - гипотеза, которая противоречит нулевой гипотезе. Простая гипотеза – гипотеза, содержащая одно предположение: H : 0 5, где параметр распределения Пуассона. Сложная гипотеза – гипотеза, которая состоит из конечного или бесконечного числа простых гипотез: H : 0 5, где параметр распределения Пуассона. • Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. • Ошибка второго рода состоит в том, что будет принята неправильная гипотеза. • Уровень значимости ( ) – вероятность совершить ошибку первого рода. • Статистический критерий (K ) случайная величина, которая служит для проверки нулевой гипотезы. • Наблюдаемым значением ( K набл ) значение критерия, вычисленное по выборке. • Критическая область – совокупность значений критерия, при которых нулевую гипотезу отвергают. • Область принятия гипотезы совокупность значений критерия, при которых нулевую гипотезу принимают. • Критические точки ( K кр ) - точки, отделяющие критическую область от области принятия гипотезы. • Правосторонняя критическая область – критическая область определяющаяся неравенством: K K кр , K кр 0 0 K кр K кр ищут, исходя из требования чтобы P( K K кр ) . • Левосторонняя критическая область – критическая область, определяющаяся неравенством: K K кр , K кр 0. K кр 0 K кр ищут, исходя из требования чтобы P( K K кр ) . • Двусторонняя критическая область – критическая область, определяющаяся неравенством: K K1 , K K 2 . K1 0 K2 K1 , K 2 ищут, исходя из требования чтобы P( K K1 ) P( K K 2 ) . • Если распределение критерия симметрично относительно 0 и имеются основания выбрать симметричные относительно нуля точки: K кр и K кр ( K кр 0), то P( K K кр ) P( K K кр ). Тогда P( K заменится K1 ) P(K K 2 ) P( K K кр ) P( K K кр ) или P( K K кр ) / 2. • Доверительная вероятность (надежность)- вероятность с которой осуществляется неравенство , т.е. P . • Доверительный интервал – интервал, который покрывает неизвестный параметр с заданной надежностью . Доверительный интервал для оценки математического ожидания нормального распределения при известном . xв Число t t n a xв t n определяется из равенства Ф (t ) 2 . Доверительный интервал для оценки математического ожидания нормального распределения при неизвестном . xв Число t S n a xв t S n t определяется по таблице t t ( , n). • Критерий согласия – критерий проверки гипотезы о предполагаемом законе неизвестного распределения. • Критерии согласия: ( хи квадрат) Пирсона, Колмогорова, Смирнова и др. 2 Проверка гипотезы о нормальном распределении генеральной совокупности Критерий Пирсона • В качестве критерия проверки H 0 примем случайную величину (ni ni) , ni 2 2 где ni -эмпирические частоты; ni -теоретические частоты. • Строим правостороннюю критическую область, исходя из требования, что P( ( ; k )) 2 2 кр в предположении справедливости H 0 , где - уровень значимости; k - число степеней свободы. • Число степеней свободы находят по формуле k s r 1, где s - число групп(частичных интервалов) выборки; r - число параметров предполагаемого распределения, которые оценены по данным выборки. Если предполагаемое распределение нормальное, то оценивают два параметра и тогда k s 2 1, k s 3. • Если обозначить 2 набл при 2 набл при 2 кр 2 кр 2 набл (ni ni ) 2 , то ni гипотезу H 0 принимают; гипотезу H 0 отвергают. Критерий согласия Колмогорова • Если функция распределения F (x ) случайной величины X непрерывна, то практически ее эмпирическая функция F (x) распределения при n F ( x) сходится к . • Если F (x) непрерывна, то функция распределения величины Dn ( Dn max Fn ( x) F ( x) n ) при n имеет пределом функцию k 2 k 2 2 K ( ) 1 e , которая не зависит от вида функции F (x) • По таблице найдем значение функции K ( ) и затем значение функции P ( ) 1 K ( ) . Если 1 , то расхождение между эмпирическими и теоретическими функциями распределения несущественно, если 0 , то расхождение существенно. Сравнение двух дисперсий нормальных генеральных совокупностей • В качестве критерия проверки нулевой гипотезы о равенстве генеральных дисперсий примем случайную величину , причем отношение большей исправленной дисперсии к меньшей: 2 б 2 м S F . S F • Величина при условии справедливости H 0 имеет распределение Фишера-Снедекора со степенями свободы k1 n1 1 и k 2 n2 1, где n1 - объем выборки, по которой вычислена большая исправленная дисперсия. Элементы теории корреляции Основные задачи теории корреляции О форме корреляционной связи между X и Y в виде некоторой функциональной зависимости, которая хотя бы приближенно изображала расплывчатую корреляционную зависимость. Об оценке тесноты корреляционной связи между X и Y , т.е. о степени близости корреляционной зависимости к функциональной. Регрессии • Регрессией Y от X называется функциональная зависимость между значениями x и соответствующими условными средними значениями y ( x ) . • Регрессии можно представить геометрически в виде ломанных линий, соединяющих или точки A ( x ; y ( x )), или точки B (x ( y ) ; y ). • Эти линии называются эмпирическими (полученными из опыта) ломаными линиями регрессии. • Плавную кривую можно получить и иначе, – если ломаную линию регрессии “сгладить” посредством какой-либо известной линии (прямой, параболы, гиперболы и т.п.). • Уравнение сглаживающей линии даст хотя и приближенно, но аналитическое – в виде формулы – выражение регрессии. Подобные формулы называют эмпирическими Задача отыскания эмпирической формулы распадается на две • 1. Выбор типа линии, выравнивающей ломанную регрессии, т.е. типа линии, около которой группируются экспериментальные точки A ( x ; y ( x ) ) или B ( x ( y ) ; y ). • 2. Определение параметров, входящих в уравнение линии выбранного типа, таким образом, чтобы из множества линий этого типа взять ту, которая наиболее близко проходит около точек ломаной регрессии. Выбор типа линии, выравнивающей ломаную линию регрессии • Для выбора типа линии, выравнивающей ломаную линию регрессии, необходимо хорошо знать простейшие виды линий и их уравнения. Определения параметров в уравнении выравнивающей линии выбранного типа • Метод средних применяют в тех случаях, когда выбранный тип уравнения выравнивающей линии содержит лишь один параметр. • Метод проб используют, когда выбранная формула содержит несколько параметров . • Метод выровненных (или выбранных) точек состоит в выборе по чертежу нескольких точек (не обязательно совпадающих с точками линии регрессии), через которые проводят выравнивающую линию и определяют ее уравнение по координатам этих выбранных точек. • Метод наименьших квадратов служит для оценки неизвестных величин по результатам измерений, содержащим случайные погрешности. Метод наименьших квадратов • Необходимо минимизировать сумму S n 2 ( y ( x ) y ) i i i 1 где x i , yi – значения опытных данных; y( xi ) – значение функции, взятое из эмпирической зависимости в точке x i ; n– число опытов. • В случае линейной эмпирической формулы сумма принимает вид n S (a; b) (axi b yi ) , 2 i 1 а в случае квадратической зависимости – следующий вид: n S (a; b; c) i 1 2 (axi 2 bxi c yi ) . 2 a xi b xi xi yi , i 1 i 1 i 1 n n a xi bn yi . i 1 i 1 n n n n n n n 4 3 2 2 a xi b xi c xi xi yi , i 1 i 1 i 1 i n1 n n n a x 3 b x 2 c x x y , i i i i i i 1 i 1 i 1 i 1 n n n 2 a xi b xi cn yi . i 1 i 1 i 1 Оценка тесноты корреляционной зависимости • Для оценки тесноты корреляционной зависимости служит корреляционное отношение: ( yx ) 2 ( y) 2 где ( y ) – выборочная дисперсия случайной величины Y , вычисленная по всей таблице; 2 ( y x ) – дисперсия условных средних относительно общей средней, так называемая внешняя дисперсия. 2 Критерий Фишера Fэмп 2 ост 2 воспр. ср , • 2 где ост 1 n 2 ( y y ) i – n l i 1 i остаточная дисперсия; l – число коэффициентов в уравнении регрессии; y i – ордината линии регрессии в точке xi ; 2 воспр. ср – дисперсия воспроизводимости средних, равная исправленной внутренней дисперсии, деленной на число m экспериментов , по которым вычислялись условные средние y i : 2 в оспр. ср . 1 m 1 2 2 в нутр. в нутр. m m 1 m 1 • Величина Fэм п имеет распределение Фишера с k1 n l и k2 n(m 1) числами степеней свободы ( n – число задаваемых экспериментатором значений величины X , m – число проводимых опытов, l – число коэффициентов в уравнении регрессии). Из таблицы критических точек распределения Фишера находим . • Если Fэм п< Fкрит , уравнение регрессии адекватно. • Если Fэм п > Fкрит расхождение между теоретической и эмпирической линиями регрессии значимо, уравнение не адекватно, следует взять многочлен более высокого порядка. Линейная корреляция • Из всех корреляционных зависимостей надо особо выделить линейную корреляцию, т.е. такую, когда точки регрессии располагаются вблизи некоторой прямой линии. Виды регрессии • 1) регрессия Y на X в виде функциональной зависимости y x yx x b ; • 2) регрессия X на Y в виде функциональной зависимости x y xy y d . Выборочный коэффициент корреляции rв n xy xy n x y n x y Выборочное уравнение прямой линии регрессии Y на X y y x y rв ( x x) x 1 rв 1 Выборочное уравнение прямой линии регрессии X на Y x x y x rв ( y y) y 1 rв 1 • Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам : xi C1 Ui h1 , Vj y j C2 h2 Выборочный коэффициент корреляции rв n uv n u v n u v uv nu nv u , v , u v n n u u ( u) , v v ( v) . 2 2 2 2 x u h1 C1 , y v h2 C2 x u h1 , y v h2 .