Федеральное агентство связи Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» _____________________________________________________________________________ Кафедра «Программное обеспечение и управление в технических системах» (наименование кафедры) «УТВЕРЖДАЮ» Заведующий кафедрой _____ПОУТС_______ _______________________Тарасов В.Н._____ подпись, Фамилия И.О. « _31_ » _______08______ 2012 г. УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС ПО УЧЕБНОЙ ДИСЦИПЛИНЕ Статистические методы в инженерных исследованиях (наименование учебной дисциплины) Для направления подготовки магистров: 230400 Информационные системы и технологии; (код и наименование направления (специальности) подготовки) Обсуждено на заседании кафедры ПОУТС «__31_» _________08_______ 2012 г. протокол № __1__ Самара 2012 Федеральное агентство связи Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» __________________________________________________________________________ Кафедра «Программное обеспечение и управление в технических системах» (наименование кафедры) КОНСПЕКТ ЛЕКЦИЙ ПО УЧЕБНОЙ ДИСЦИПЛИНЕ Статистические методы в инженерных исследованиях (наименование учебной дисциплины) по направлению подготовки магистров: 230400 Информационные системы и технологии наименование специальности (направления подготовки) Самара 2012 Лекция 1 1 ОДНОМЕРНЫЕ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ. ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ СЛУЧАЙНЫХ ВЕЛИЧИН 1.1 Случайные величины Случайная величина − такая величина, которая в результате опыта принимает то или иное значение, неизвестное заранее и зависящее от случайных причин. Это значение называют возможным значением случайной величины. Обозначение случайных величин: X, Y, Z и т.д. Обозначение возможных значений случайной величины X: x1, x2, x3, ... . Примеры: 1. Число очков при бросании игральной кости –случайная величина, возможные значения которой 1, 2, 3, 4, 5, 6. 2. Число мальчиков среди 100 новорожденных − случайная величина возможные значения которой 0, ..., 100. 3. Расстояние R, которое пролетит снаряд, есть случайная величина, возможные значения которой принадлежат некоторому отрезку [a, b]. Дискретная случайная величина − величина, которая принимает отдельные возможные значения из счетного множества с определенными вероятностями. Возможные значения дискретной случайной величины можно перечислить. Для задания дискретной случайной величины необходимо перечислить все возможные значения и соответствующие их вероятности. Непрерывной случайной величиной называется величина, возможные значения которой заполняют некоторый промежуток (несчетное множество) и нельзя перечислить все возможные значения этой случайной величины. Законом распределения вероятностей дискретной случайной величины называют соответствие между возможными значениями этой величины и их вероятностями. Этот закон задают в виде таблицы, которую называют рядом распределения Ряд распределения будет иметь вид X 1 P 1 x 2 p 2 x x 3 p 3 … x n p … p . n События (X=x1), (Х=х2),..., (Х=хn) образуют полную группу, т.е. n ∑ pi = 1. i =1 Пример 1.1. В лотерее 100 билетов. Разыгрывается 1 выигрышный по 50 руб. и 10 выигрышных по 1 руб. Составить закон распределения случайной величины X−стоимости возможного выигрыша по 1 билету. X 50 1 0 P 0,01 0,1 0,89 Для наглядности ряд распределения можно изобразить в виде многоугольника распределения (см. рис.2.1). Рис. 1.1 Ряд распределения можно указать только для дискретной случайной величины, для непрерывной случайной величины такой характеристики нельзя построить, так как нельзя перечислить все возможные значения непрерывной случайной величины. 1.2 Функция распределения вероятностей случайной величины Отдельные возможные значения непрерывной случайной величины не обладают отличными от нуля вероятностями, по аналогии с тем, что отдельные точки тела не обладают массой. Поэтому для количественной характеристики любой случайной величины удобно воспользоваться не вероятностью события (Х=х), а вероятностью события (Х<х). Вероятность этого события Р(Х<х) есть функция F(x) и она называется функцией распределения вероятностей случайной величины F(x)= P(X<x). Ее также называют интегральным законом или интегральной функцией распределения вероятностей. Данную функцию можно построить для любых случайных величин. Геометрически равенство F(x)=P(X<x) можно истолковать таким образом: функцию F(x) можно представить как вероятность того, что случайная величина X примет на числовой оси возможные значения левее точки х (рис.1.2). Рис. 1.2. Случайная величина X называется непрерывной, если ее функция распределения есть непрерывная кусочно-дифференцируемая функция с непрерывной производной. Свойства функции распределения: 1. 0≤F(x)≤l; 2. F(x) - неубывающая, т .е. F(x1)≤F(х2) если x1<х2; 3. F(−∞) = lim F(x) = 0, F(+∞) = lim F(x) = 1 ; x → −∞ x → +∞ 4. Р(х1≤х<х2)= F(x2)−F(х1); 5. F(x) = F(x − 0) = lim F(y) , т.е. F(x) – непрерывная слева функция. y→x −0 Докажем, например, свойство 4. Для определения вероятности Р[α≤х<β) попадания случайной величины Х в заданный промежуток [α, β) введем 3 события: А−(Х<β); B−(X<α); C – (α≤X<β). Тогда A=B+C и Р(A)=Р(В)+Р(С) и F(β)=F(α)+Р(α≤x<β). β Отсюда Р(α≤x<β)=F(β)−F(α)= ∫ F'(x)dx. α Вероятность попадания случайной величины в промежуток ∆х есть приращение функции распределения P(x≤X<x+ ∆ x)=F(x+ ∆ x)−F(x)→0 при ∆ х→0. Таким образом, вероятность того, что непрерывная величина примет некоторое определенное значение, равна 0. Пример 1.2. Построить функцию распределения для дискретной случайной величины Х, заданной рядом распределения X 1 4 8 P 0,3 0,1 0,6 При х<1 F(x)=0; 1≤х<4 F(x)=0,3; 4≤х<8 F(x)=0,4; х≥8 F(x)=l. Рис. 1.3 1.3 Плотность распределения вероятностей непрерывной случайной величины Кроме функции распределения, непрерывную случайную величину можно задать с помощью так называемой функции плотности распределения вероятностей. Эту функцию называют дифференциальной функцией или дифференциальным законом распределения вероятностей. Плотностью распределения называют функцию f(x)=F'(x). Таким образом, для описания дискретной случайной величины эта функция неприменима. Вероятность попадания случайной величины на заданный участок можно β представить как Р(α≤x<β)= ∫ f(x)dx . α Свойства плотности распределения: 1. f(x) ≥0; ∞ 2. ∫ f(x)dx =l; −∞ x2 3. P(x1 ≤ X < x 2 ) = ∫ f(x)dx ; x1 4. Р(Х=х)=0. Вероятностный смысл функции плотности: f F(x + ∆x) − F(x) (x)= lim . ∆x → 0 ∆x Отсюда следует, что P(x≤X<x+∆x)≈f(х)∆х. Вероятность того, что случайная величина X примет значение, принадлежащее интервалу [х, х+∆х), приблизительно равна произведению функции плотности на длину этого промежутка. P( x ≤ X < x + ∆ x ) P( x ′ ≤ X < x ′ + ∆ x ) x + ∆x x′ x′ + ∆ x Рис. 1.4 Пример 1.3. Задана плотность распределения вероятностей случайной величины X: 0, x < 0; f(x) = 2x, 0 ≤ x < 1; 0, x ≥ 1. Найти вероятность того, что случайная величина X примет значение из интервала (0,5; 1). 1 Решение. Р(0,5<X<1)= ∫ 2xdx = x 2 0,5 1 0,5 =1−0,25=0,75. Нахождение функции распределения по известной функции плотности: x F(x) = ∫ f (x)dx . −∞ На практике иногда встречаются случайные величины, которые нельзя отнести ни к дискретным, ни к непрерывным случайным величинам, как показывает следующий пример. Пример 1.4. На перекрестке стоит автоматический светофор, в котором τ1=1мин. горит зеленый свет, τ2= 0,5 мин. – красный, снова 1мин. – зеленый, 0,5мин. – красный и т.д. В случайный момент времени, не связанный с работой светофора, к перекрестку подъезжает автомобиль. Покажем, что случайная величина Х – время ожидания у перекрестка не является ни дискретной, ни непрерывной. Обозначим τ=τ1+τ2=1,5 мин. цикл работы светофора. С одной стороны, с вероятностью τ1/τ=2/3 автомобиль проедет перекресток не останавливаясь, т.е. Х принимает значение ноль с вероятностью 2/3>0. Поэтому Х не может быть непрерывной случайной величиной. С другой стороны, на второй 0,5 – минутной части цикла время ожидания Х может принять любое значение от 0 до 0,5. Значит, Х не может быть также дискретной случайной величиной. Таким образом, здесь Х представляет «смесь» дискретной и непрерывной случайных величин. Построим график функции распределения вероятностей случайной величины Х. При х≤0 F(х)=0. Если 0<х≤0,5, то событие (Х<х) происходит в том случае, когда автомобиль либо попадает на первую часть цикла работы светофора (зеленый свет), либо подъедет к светофору при красном свете, но до включения зеленого света остается время, меньшее х. Тогда по определению геометрической вероятности τ + x x +1 F(x) = P(X < x) = 1 = . τ 1,5 Поскольку автомобиль в любом случае проведет у перекрестка не более 0,5 мин., то F(х)=1, х>0,5. Таким образом, 0, x +1 F(x) = , 1, 5 1, x ≤ 0; 0 < x ≤ 0, 5; x > 0, 5. График функции F(х) приведен на рисунке 1.5 Рис. 1.5 1.4 Примеры дискретных распределений вероятностей 1.4.1 Биномиальное распределение Пусть производится n испытаний, в каждом из которых некоторое событие А может появиться либо не появиться. Вероятность наступления события А во всех испытаниях постоянна и равна р, тогда вероятность непоявления этого события q=l−p. В качестве дискретной случайной величины X рассмотрим число появления события A в n испытаниях. Возможные значения x1=0, x2=l, …, xn+1=n, а их вероятности определяются по формуле Бернулли: Pn(k)=Cnk·pk·qn-k , k=0, …, n. Биноминальным называется распределение вероятностей, определенное по формуле Бернулли, т. к. правую часть формулы Бернулли можно рассматривать как общий член разложения бинома Ньютона (p+q)n=Cnn·pn+Cnn-1·pn-1·q+…+Cn0·qn . Ряд распределения в этом случае выглядит таким образом: X P n pn n-1 npn-1q ... ... k Cnk·pk·qn-k ... 0 . . . qn 1.4.2 Распределение Пуассона Рассмотрим те же условия задачи что и в предыдущем пункте, но значение n велико, вероятность р мала. Это случай «массовых», но «редких» событий. В этом случае вероятность λk ⋅ e − λ Pn(k)≈ , где λ= n·р. k! Тогда ряд распределения имеет, вид: X р 0 e-λ 1 λе-λ/1! Такое распределение распределением Пуассона. 2 … 2 -λ λ е /2! … вероятностей k λk·e-λ/k! случайной величины называют 1.4.3 Геометрическое распределение Пусть производятся n испытаний, в каждом из которых вероятность появления события А равна р (0<р<1). Вероятность непоявления события q=l−p. Испытания заканчиваются, как только появится событие А. Следовательно, если событие А появилось в k-м испытании, то в предшествующих (k−1) испытаниях оно не появилось. Введем дискретную случайную величину Х − число испытаний, которые нужно провести до первого появления события А. Возможные значения Х: x1=l, x2=2, ... . По формуле умножения вероятностей независимых событий, вероятность того, что число испытаний равно k P(X=k)=qk-1·p. Полагая в этой формуле k=l, 2, ... получим геометрическую прогрессию с первым членом р и со знаменателем q:p, pq, pq2, ..., pqk-1. Такое распределение вероятностей называется геометрическим. Ряд распределения Х: X 1 2 … K P р p·q … p·qk-1 Пример 1.5. Из орудия производится стрельба по цели до первого попадания. Вероятность попадания при одном выстреле 0,6. Найти вероятность того, что попадание произойдет при третьем выстреле. Решение. По условию р=0,6; q=0,4; k=3. Тогда P(X=3)=0,42·0,6=0,096. 1.5 Примеры непрерывных распределений 1.5.1 Закон равномерного распределения вероятностей Распределение вероятностей называется равномерным, если на интервале, которому принадлежат возможные значения случайной величины, плотность распределения сохраняет постоянное значение. Функция плотности равномерного распределения f(х) имеет вид: x < a; 0, f(x) = 1/(в − a), a ≤ x ≤ в; 0, х > в. Отсюда следует, что функция распределения х < a; 0, х − a F(x) = , а ≤ х ≤ в; в − а х > в. 1, Графики плотности f(х) и функции распределения F(х) приведены на рис. 2.6 а) и 2.6 б). а) б) 1 в−а Рис.1.6 Вероятность попадания равномерно распределенной случайной величины в интервал (α, β): Р(α<х<β)=(β−α)/(в−а). Пример 1.6. Шкала измерительного прибора проградуирована в некоторых единицах. Ошибку при округлении отсчета до ближайшего целого деления можно рассматривать как случайную величину X, которая может принимать с постоянной плотностью вероятности любое значение между двумя соседними целыми делениями. Таким образом, X распределена по равномерному закону с функцией плотности: x < a; 0, f(x) = 1/(в − а), а ≤ х ≤ в; 0, х > в. Пример 1.7. Случайная величина Х, равномерно распределенная в интервале [0,1] имеет плотность распределения 1, 0 ≤ x ≤ 1; f(x) = 0, в противном случае. x x 0 0 Тогда функция распределения F(x) = ∫ f(y)dy = ∫1dy = x . Графики функций f(x) и F(x) приведены на рис. 1.7 а) и 1.7 б). a) б) f(x) F(x) 1 1 0 x 1 0 1 х Рис.1.7 Вероятность попадания такой случайной величины Х в интервал 0≤х<х+∆х≤1 x + ∆x P(x ≤ X < x + ∆x) = ∫ f(y)dy = F(x + ∆x) − F(x) = (x + ∆x) − x = ∆x . x Отсюда следует, что случайная величина Х, равномерно распределенная в интервале [0, 1], с одинаковой вероятностью попадет в любой интервал длиной ∆х∈[0, 1]. Именно поэтому такая величина Х имеет огромное значение в имитационном моделировании, т.к. она служит основой генерирования на компьютерах любых случайных величин, потоков событий и случайных процессов. 1.5.2 Нормальный закон распределения Случайная величина X называется распределенной по нормальному закону, если ее плотность распределения имеет вид: φm, σ(x) = 1 ⋅ e− (x − m)2 /(2σ 2) . σ 2π Нормальное распределение зависит от двух параметров: m, называемого математическим ожиданием или средним значением, и σ, называемого средним квадратическим отклонением. Этот закон распределения называют еще предельным или законом Гаусса. Функция нормального распределения имеет следующий вид: Φm, σ(x) = x − (x − m) 2 1 ∫e σ 2π − ∞ 2σ 2 dx . Общим называется нормальное распределение с параметрами m, σ, где −∞<m<+∞- математическое ожидание, σ>0 − среднее квадратическое отклонение. Стандартным нормальным распределением называется распределение с параметрами m =0, σ=1. Путем линейной замены общее нормальное распределение можно привести к стандартному нормальному распределению. Плотность стандартного распределения записывается в − x2 / 2 виде: φ(x) = 1 ⋅ e , а функция распределения: 2π x 2 Φ(x)= 1 ∫ e− t / 2dt . 2π − ∞ Эти функции были использованы ранее в локальной и интегральной формулах Муавра – Лапласа (см. п.1.10, 1.11). На рис. 1.8 а) и 1.8 б) приведены графики функций φm,σ(х) и Φm,σ(x) для различных значений m и σ. а) б) Рис. 1.8 Таким образом, относительно функции плотности нормального распределения можно утверждать следующее: l) функция φm,σ(х) определена и непрерывна на всей числовой оси (−∞;+∞); 2) область значений функции у∈[0, 1/(σ 2π )]; 3) lim φm,σ(х)=0; x → ±∞ = 1/(σ 2π ) ; 4) y max x =m 5) график функции симметричен относительно прямой х=m; 6) точки перегиба: х1=m−σ , х2=m+σ. Вероятность попадания в заданный интервал нормально распределенной случайной величины: β P(α<Х<β)=Φm,σ(β)−Φm,σ(α) = ∫ φm,σ (x)dx =1/(σ 2π )= α β =∫e α − (x − m)2 /(2σ 2 ) (β − m) / σ − y2 / 2 dx = 1 e dy . ∫ 2π (α − m) / σ Проводя замену у=(х−m)/σ, получим β − m α − m Р(α<Х<β)= Φ 0 (1.1) − Φ0 . σ σ Из этой формулы можно определить вероятность отклонения случайной величины от математического ожидания: Р(Х-m<δ)=2Ф0(δ/σ). (1.2) Правило трех сигма. Преобразуем формулу (2.2). Для этого обозначим δ=σt. Тогда Р( |X−m|<σt)=2Ф0(t). Положим t=3 , тогда Р(|Х−m|<3σ)=2Ф0(3)=0,9973. Если случайная величина X распределена по нормальному закону, то абсолютная величина ее отклонения от математического ожидания m не превосходит утроенного значения среднего квадратического отклонения, и вероятность этого отклонения близка к 1, а вероятность противоположного события составляет 0,0027. Таким образом, можно считать практически достоверным событие, что возможные значения случайной величины, распределенной по нормальному закону, попадут в интервал (m−3σ, m+3σ) (см. рис.1.10). Рис. 1.10 1.5.3 Экспоненциальный закон распределения Случайная величина X называется распределенной по экспоненциальному (показательному) закону, если ее функция плотности имеет вид: x < 0; 0, f(x) = − λx λe , x ≥ 0, где λ>0−параметр экспоненциального распределения. Тогда функция распределения будет иметь вид: x < 0; 0, F(x) = − λx 1 − e , x ≥ 0. Графики функции плотности распределения f(x) и функции распределения F(x) приведены на рис.1.11. а) б) Рис.1.11 Вероятность попадания показательно распределенной случайной величины в заданный интервал определяется по формуле: P(α<X<β)=F(β)−F(α)=e-λα− e-λβ. (1.3) Экспоненциальный закон распределения занимает важное место в теории массового обслуживания, теории надежности и других областях. Например, функция R(t)=1−F(t)=e-λt называется показательным законом надежности. Пример 1.8. Случайная величина Т – время работы радиолампы – имеет показательное распределение. Найти вероятность того, что время работы лампы будет не меньше 600 часов, если среднее время работы лампы 400 часов. Решение. Р(Т≥600)=1−Р(Т<600)= =1−( е(1/400)·0−e-(1/400)600 )=е-1,5≈0,2231. 1.5.4 Распределение Вейбулла Случайная величина X распределена по закону Вейбулла с параметрами α>0, β>0, если ее плотность распределения имеет вид: αβ− αxα −1e− (x / β)α , x ≥ 0; f (x) = 0, x < 0. Параметр α называется параметром формы, а β − масштабным параметром распределения. Тогда функция распределения Вейбулла будет иметь следующий вид: 1 − e− (x / β)α , x ≥ 0; F(x) = 0, x < 0. Графики функций плотности и распределения Вейбулла при β=1 приведены на рис.1.12 а) и 1.12 б). Считается, что распределению Вейбулла подчиняются времена безотказной работы многих технических устройств и времена выполнения задач. а) б) f(x) 1,2 1,0 α=3 0,8 α=2 0,6 α=1 0,4 α=1/2 0,2 0 1 2 3 4 5 x Рис. 1.12 При α=1 распределение Вейбулла переходит в экспоненциальное распределение, а при α=2–в так называемое распределение Релея. 1.5.5 Гамма – распределение Другим распределением, также достаточно хорошо описывающим времена безотказной работы различных технических устройств, и времена выполнения каких-либо задач, является гамма-распределение с плотностью β − α x α −1e − x/β , x ≥ 0; f(x) = Γ(α) 0, x < 0, ∞ где Г(α) – гамма-функция, Γ(z) = ∫ t z −1e− t dt для любого вещественного числа 0 z>0. Для вычислений полезно знать следующие свойства функции Г(z): 1. Г(z+1)=z·Г(z), для любого z>0; 2. Г(k+1)=k!, для любого неотрицательного целого числа k; 3. Г(k+1/2)= π ⋅ 1 ⋅ 3 ⋅ 5 ⋅ ... ⋅ (2k − 1)/2k , для любого положительного целого числа k, Γ(1/2) = π . Как и в случае с распределение Вейбулла, α>0 – параметр формы, β>0 – масштабный параметр. В случае, если 0<α<1, то конечной формы функции распределения не существует, имеются лишь ее приближения. Если α – положительное целое число, тогда функция распределения имеет вид: n −1 (x/βxj − x/β , x ≥ 0; ∑ 1 − e F(x) = j! j= 0 0, x < 0. Замечания. 1. При α=1, гамма-распределение, как и распределение Вейбулла переходит в экспоненциальное распределение. 2. Для положительного целого числа r (α=r), гамма-распределение переходит в распределение Эрланга порядка r, которое широко используется в теории массового обслуживания. 3. Гамма−распределение при α=k/2, β=2 представляет не что иное, как распределение χ2 (хи – квадрат)с k степенями свободы, роль которого трудно переоценить в математической статистике. Наконец, на рис. 1.13 приведены графики функций плотности f(x) и распределения F(x) при различных значениях параметра α при β=1. а) б) F(x) 1,0 α=1/2 0,8 0,6 α=3 α=2 α=1 0,4 0,2 0 1 2 3 4 5 x Рис.1.13 Примеры 1.1 Длительность времени X безотказной работы элемента имеет экспоненциальное распределение с параметром λ=0,02 ч-1. Вычислите вероятность того, что за время t =100ч элемент: а) выйдет из строя; б) будет исправно работать. Ответ: а) 1−е-2≈0,865; б) е-2≈0,135. 1.2 Измерительный прибор имеет систематическую погрешность 5 м. Случайные погрешности подчиняются нормальному закону со средним квадратическим отклонением, равным 10 м. Какова вероятность того, что погрешность измерения не превзойдет по абсолютному значению 5 м ? Ответ: 0,3413. 1.3 Время X (в часах) безотказной работы электрической лампочки имеет распределение Вейбулла с параметрами α=0,5 и β=50. Определите вероятность того, что лампочка проработает не менее 10000 ч. 1/ 2 − (0,02 ⋅10000) Ответ: Р(Х > 10000) = e ≈ 0,14 . 1.4 Время X (в месяцах) безотказной работы некоторой системы, состоящей из одного основного и двух резервных элементов, имеет гамма-распределение с параметрами α=3 и β=20. Найдите вероятность того, что система проработает не менее 5 лет. Ответ: Р(Х > 60) =е-3(1+3=32/2)≈0,42. Лекция 2 ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Вероятности любых событий, связанных с каждой случайной величиной, полностью могут быть определены ее законом распределения. Причем законом распределения вероятностей для дискретной случайной величины является ряд распределения, или же функция распределения. Непрерывная случайная величина полностью может быть описана функцией распределения или плотностью распределения. Закон распределения полностью характеризует случайную величину, т.е. является ее полной характеристикой. Однако часто на практике этот закон распределения бывает неизвестен, или нет необходимости его указывать. Тогда ограничиваются меньшими сведениями. Для этого используют числовые характеристики случайной величины (неслучайные числа). 2.1 Математическое ожидание случайной величины Определение. Математическим ожиданием (средним значением) дискретной случайной величины Х называют сумму произведений возможных значений хi на их вероятности pi: M(X)= ∑ x i pi . i При этом, если множество возможных значений Х счетно, предполагается, что ∞ ∑ | xi | pi < +∞ , т.е. ряд должен сходиться абсолютно. Аналогичная формула i =1 существует в теоретической механике. Пусть на прямой расположена система n n материальных точек с массами рi ( ∑ p i = 1 ) и пусть хi – координата i-й точки. i =1 Тогда центр масс системы имеет координату X = n ∑ xipi . i =1 Пример 2.1. Математическое ожидание случайной величины распределенной по биноминальному закону (схема Бернулли) будет равно Х, n n n k =0 k =0 k =0 n −1 M(X) = ∑ kPn (k) = ∑ kCkn p k q n − k = ∑ k n! pkq n −k = k!(n − k)! n −1 (n − 1)! p k −1q n − k = np ∑ Cnj −1p jq n −1− j = np ∑ Pn −1 (j) = np . (k − 1)!(n − k)! k =1 j= 0 j= 0 Пример 2.2. Найдем математическое ожидание случайной величины Х, имеющей геометрическое распределение: ∞ ∞ ∞ 1 M(X) = ∑ kpq k = pq ∑ kq k −1 = pq( ∑ q k )′q = pq( )′ = 1− q k =0 k =0 k =0 pq pq q = = = . (1 − q)2 p 2 p Пример 2.3. Пусть случайная величина Х имеет распределение Пуассона. Тогда ∞ ∞ λ k −1 ∞ λj λk −λ −λ M(X) = ∑ k e = λ ∑ e = λ ∑ e − λ = λe λ e − λ = λ . k =1 (k − 1)! j= 0 j! k = 0 k! Связь математического ожидания со средним арифметическим наблюденных значений случайной величины. Пусть производится N независимых испытаний, в которых случайная величина X приняла m1 раз значение x1, m2 раз−значение х2,…, mn раз значение xn (m1+m2+…+mn=N). Найдем среднее арифметическое этих значений m x + m 2 x 2 + ... + m n x n X= 1 1 . N Отношение mi/N для всех i есть частота события (Х=xi). При достаточно большом N отношение mi/N приблизительно равно вероятности этого события рi. Тогда получим, что X ≈М(X), следовательно, среднее арифметическое наблюденных значений случайной величины Х при увеличении числа опытов будет приближаться к ее математическому ожиданию М(Х). Указанная выше связь между средним арифметическим и математическим ожиданием составляет одну из форм закона больших чисел. Для непрерывной случайной величины Х математическим ожиданием n = ∑ np +∞ (средним значением) называют интеграл М(х)= ∫ x·f(x)dx , где f(x)−функция −∞ плотности распределения. Для существования математического ожидания несобственный интеграл должен сходиться абсолютно. Пример 2.4. Найдем математическое ожидание равномерно распределенной на отрезке [а, в] случайной величины Х +∞ в −∞ a M(X) = ∫ xf (x)dx = ∫ x dx = 1 ⋅ 1 (в2 − а 2) = в + а , в−a в−a 2 2 т.е. М(Х) совпадает с серединой отрезка [а, в]. Пример 2.5. Найдем математическое ожидание нормально распределенной случайной величины Х +∞ 1 +∞ − (x − m) 2 /2σ 2 dx . ∫ xe σ 2π −∞ −∞ Делая замену переменной у=(х−m)/σ, получаем +∞ σy +∞ 1 +∞ 2 2 σ +∞ − y 2 /2 M(x) = ∫ e − y /2dy + m ∫ e− y /2dy = ye dy + m ∫ ∫ φ(y)dy . 2π 2π 2π −∞ −∞ −∞ −∞ Первый интеграл равен нулю в силу нечетности подынтегральной функции, а второй равен единице как интеграл от стандартной нормальной плотности. Тогда М(Х)=m, т.е. параметр m имеет смысл математического ожидания случайной величины Х. Пример 2.6. Найдем математическое ожидание экспоненциально распределенной случайной величины Х M(X) = ∫ xφ m,σ (x)dx = ∞ ∞ 0 0 M(X) = ∫ xf (x)dx = λ ∫ xe− λxdx . Интегрируя по частям, получим М(Х)=1/λ. Пример 2.7. Математическое ожидание случайной величины Х, распределенной по закону Вейбулла может быть найдено путем замены переменной в подынтегральной функции у=(х/β)α. Опуская несложные выкладки и используя определение гамма – функции, запишем β 1 M(X) = Γ( ) . α α Пример 2.8. Математическое ожидание случайной величины Х, имеющей гамма – распределение, задается выражением М(Х)=α·β. 2.2 Дисперсия случайной величины. Моменты высших порядков Математическое ожидание не полностью характеризует случайную величину. Например, возьмем две случайные величины Х и Y, заданные законами распределения X P -0,01 0,5 0,001 и 0,5 Y P -100 0,5 100 0,5 Очевидно, что М(Х)=M(Y)=0.Таким образом, хотя математические ожидания одинаковые, но возможные значения этих случайных величин по-разному рассеяны вокруг среднего. Поэтому, чтобы оценить разброс возможных значений вокруг математического ожидания, вводят такую числовую характеристику как дисперсия. Введем понятие отклонения случайной величины от ее математического ожидания как разность между случайной величиной и ее математическим o ожиданием X =Х−М(Х). o Таким образом X − центрированная случайная величина, и ее математическое ожидание o М( X )=0. Определение. Дисперсией случайной величины X называется математическое ожидание квадрата отклонения случайной величины D(X)=M[X−M(X)]2. (2.1) Для дискретной случайной величины эту формулу можно записать в виде: D(X)=(x1−M(X))2·р1+(х2−М(Х))2·р2+…+(хn−М(Х))2·рn. (2.2) Для практических вычислений существует более удобная формула D(X)=M(X2)−[M(X)]2. (2.3) Формула (3.3) следует из формулы (3.1). Для непрерывной случайной величины +∞ D(X)= ∫ [x−M(X)]2·f(x)dx. (2.4) −∞ Более удобная формула для вычисления дисперсии следует из формулы (2.4) +∞ D(X)= ∫ x2·f(x)dx−[M(X)]2. (2.5) −∞ Свойства дисперсии: 1. D(C)=0, где С=const. 2. D(CX)=C2D(X). D(X±Y)=D(X)+D(Y), если X и Y – независимые случайные величины. Все эти свойства легко доказываются с использованием определения дисперсии и свойств математического ожидания. Определение. Средним квадратическим отклонением случайной величины Х называют квадратный корень из дисперсии σ(X) = D(X). Эта мера рассеяния возможных значений случайной величины вокруг ее математического ожидания имеет размерность самой случайной величины. В формулах для определения дисперсии случайной величины присутствует выражение М(Х2) – математическое ожидание квадрата случайной величины: и m 2 = M(X 2 ) = ∑ x i2 pi для дискретной случайной величины Х i +∞ m 2 = M(X 2 ) = ∫ x 2f(x)dx для непрерывной случайной величины Х. −∞ Эту величину называют вторым начальным моментом распределения случайной величины. Так как дисперсия D(Х) по определению является o вторым моментом центрированной случайной величины X = X − M(X) , то дисперсию иногда называют вторым центральным моментом распределения случайной величины. Определение. Начальным моментом k-того порядка mk случайной величины Х называют математическое ожидание k-й степени Х: m k = M(X k ) = ∑ x ik pi , если Х – дискретная случайная величина, и i +∞ m k = M(X k ) = ∫ x k f(x)dx , если Х – непрерывная случайная величина. −∞ o Определение. Центральным моментом k-го порядка mk случайной величины Х называют математическое ожидание k-й степени центрированной случайной величины o X = X − M(X ) : o m k = M[X − M(X)]k = ∑ [xi − M(X)]k pi , если Х – дискретная случайная i величина, и +∞ o m k = M[X − M(X)]k = ∫ [x − M(X)]k f(x)dx , если Х – непрерывная −∞ случайная величина. Замечание. Начальный момент первого порядка совпадает с математическим ожиданием, центральный момент первого порядка равен нулю, центральный момент второго порядка является дисперсией. Рассмотрим еще некоторые, часто применяемые на практике числовые характеристики случайных величин. Случайную величину Х называют симметрично распределенной относительно математического ожидания, если Р[Х<М(Х)−х]= Р[Х>М(Х)+х] для любого х. Отсюда следует, что непрерывная случайная величина Х является симметричной тогда и только тогда, когда график ее плотности распределения симметричен относительно прямой х=М(Х) (см. нормальное распределение). При анализе эмпирических (статистических) распределений часто возникает задача количественной оценки степени их различия от нормального. Определение. Асимметрией АS случайной величины Х называют отношение o третьего центрального момента m 3 к кубу среднего квадратического отклонения σ: o As = m3 /σ3 . Для нормального распределения АS=0. Определение. Эксцессом Еk случайной величины Х называют отношение o четвертого центрального момента m 4 к квадрату дисперсии за вычетом числа 3: o E k = (m 4 /σ 4 ) − 3. o Для нормального распределения величина ( m 4 /σ4)=3, следовательно Еk=0. Смысл эксцесса пояснен на рис.3.2. Он используется для оценки большего и меньшего подъема кривой распределения по сравнению с нормальной кривой. Рис. 2.2 Лекции 3-4 Основные задачи математической статистики Математические законы теории вероятностей не являются лишь абстрактными, лишенными физического содержания. Они представляют собой математическое выражение реальных закономерностей в массовых случайных явлениях природы. В основе таких понятий, как события и их вероятности, случайные величины, их законы распределения и числовые характеристики лежит опыт; каждое исследование случайных явлений методами теории вероятностей опирается на экспериментальные опытные данные или систему наблюдений. Разработка методов регистрации, описания и анализа статистических (экспериментальных) данных, получаемых в результате наблюдения массовых случайных явлений и составляет предмет науки – математической статистики. В зависимости от характера решаемого практического вопроса и от объема экспериментального материала задачи математической статистики можно разделить на типичные. 1. Задача определения закона распределения случайной величины по статистическим данным. На практике нам всегда приходится иметь дело с ограниченным количеством экспериментальных данных, в связи с этим результаты наблюдений и их обработки всегда содержат больший или меньший элемент случайности. При этом важно уметь выделить как постоянные и устойчивые признаки явления, так и случайные, проявляющиеся в данной серии наблюдений только за счет ограниченного объема экспериментальных данных. В связи с этим возникает характерная задача группировки, сглаживания или выравнивания статистических данных, представления их в компактном виде с помощью аналитических зависимостей. 2. Задача проверки правдоподобия гипотез. Статистические данные могут с большим или меньшим правдоподобием подтверждать или не подтверждать справедливость той или иной статистической гипотезы. Например, ставится такой вопрос: согласуются или нет данные эксперимента с гипотезой о том, что данная случайная величина или признак подчинены тому или иному закону распределения? Другой подобный вопрос: указывают ли данные наблюдений на наличие объективной зависимости случайной величины от одной или нескольких случайных величин? Для решения подобных вопросов существуют методы проверки статистических гипотез с помощью критериев согласия. 3. Задача определения неизвестных параметров распределения. Часто при обработке статистических данных нет необходимости определения законов распределения исследуемых случайных величин (признаков). Или же характер закона распределения известен заранее (до опыта). Тогда возникает более узкая задача обработки данных – определить только некоторые числовые характеристики случайной величины, оценить их точность и надежность. Таким образом, здесь перечислены только те задачи математической статистики, которые наиболее важны по своим практическим применениям. 2 Статистическая распределения совокупность и статистическая функция Предположим, что изучается некоторая случайная величина Х, закон распределения которой неизвестен и требуется определить этот закон по данным наблюдений (опытным данным). Совокупность наблюдений Х1, Х2, …, Хn и представляет собой статистическую совокупность. Иногда говорят, что получена выборка объема n. При большом n весь диапазон значений Хi делят на k интервалов (разрядов) и подсчитывают количество значений mi, приходящихся на i-й интервал. Это число делят на общее число наблюдений n и получают частоту, соответствующую данному интервалу: p∗i = mi /n . Для контроля: сумма частот всех интервалов равна единице. Тем самым значения Хi будут отсортированы в порядке возрастания. Таблица с указанием разрядов и соответствующих им частот значений Хi называется статистическим рядом. Таким образом, мы получаем сгруппированные данные. Определение. Статистической функцией распределения случайной величины Х называется частота события Х<х в данной статистической совокупности: Fn(x)=p*(X<x). Для того, чтобы найти значение статистической функции распределения при данном х, достаточно подсчитать число опытов, в которых величина Х приняла значение меньше х, и разделить на общее число n произведенных опытов. Статистическая функция распределения любой случайной величины (дискретной или непрерывной) представляет собой ступенчатую функцию, скачки которой соответствуют наблюденным значениям случайной величины и по величине равны частотам этих значений. Но при больших значениях n (когда сотни скачков), построение функции Fn(x) трудоемко и себя не оправдывает. Другой способ построения Fn(x) будет рассмотрен ниже. При увеличении числа опытов n, согласно теореме Бернулли, частота события сходится по вероятности к вероятности этого события. Следовательно, при увеличении n статистическая функция распределения Fn(x) сходится по вероятности к подлинной функции распределения F(x) случайной величины Х. По сути самого определения статистической функции распределения Fn(x), для нее справедливы те же свойства, что и для функции F(x). Пример 1.1. Для разработанной имитационной модели системы массового обслуживания отмечены времена Хi между поступлениями (мин.) 200 требований в систему за 1 час моделирования. Статистическая совокупность приведена в табл.1.1. Табл. 1.1. Интервалы времени n=199 между поступлениями требований (мин.), отсортированные в порядке возрастания 0,01 0,05 0,08 0,12 0,21 0,26 0,36 0,45 0,53 0,69 0,95 0,02 0,05 0,09 0,12 0,21 0,26 0,37 0,45 0,53 0,69 0,97 0,02 0,05 0,09 0,13 0,21 0,26 0,37 0,46 0,53 0,70 1,00 0,03 0,06 0,10 0,13 0,21 0,26 0,38 0,47 0,54 0,72 1,05 0,03 0,06 0,10 0,14 0,21 0,26 0,38 0,47 0,54 0,72 1,05 0,03 0,06 0,10 0,14 0,22 0,27 0,38 0,47 0,55 0,72 1,17 0,04 0,06 0,10 0,14 0,22 0,28 0,38 0,48 0,55 0,74 1,18 0,04 0,07 0,10 0,14 0,22 0,28 0,38 0,49 0,56 0,75 1,24 0,04 0,07 0,10 0,15 0,23 0,29 0,38 0,49 0,57 0,76 1,24 0,04 0,07 0,10 0,15 0,23 0,29 0,38 0,49 0,57 0,77 0,04 0,07 0,10 0,15 0,23 0,30 0,39 0,49 0,60 0,79 0,04 0,07 0,10 0,15 0,23 0,31 0,40 0,50 0,61 0,84 0,05 0,07 0,11 0,15 0,23 0,31 0,40 0,50 0,61 0,86 0,05 0,07 0,11 0,17 0,24 0,32 0,41 0,50 0,63 0,87 0,05 0,07 0,11 0,18 0,25 0,35 0,41 0,51 0,63 0,88 0,05 0,07 0,11 0,19 0,25 0,35 0,43 0,51 0,64 0,88 0,05 0,08 0,11 0,19 0,25 0,35 0,43 0,51 0,65 0,90 0,05 0,08 0,12 0,19 0,25 0,36 0,43 0,52 0,65 0,93 0,05 0,08 0,12 0,20 0,25 0,36 0,44 0,52 0,65 0,93 Построим по данным наблюдений статистический ряд (табл. 1.2). Табл.1.2 Ii [0;0,1) mi 41 ∗ 0,206 pi Ii [0,6;0,7) mi 11 0,055 p ∗i Ii [1,2;1,3) mi 2 [0,1;0,2) 34 0,171 [0,7;0,8) 9 0,045 [0,2;0,3) 30 0,151 [0,8;0,9) 5 0,025 [0,3;0,4) 20 0,101 [0,9;1) 5 0,025 [0,4;0,5) 19 0,095 [1;1,1) 3 0,016 [0,5;0,6) 18 0,090 [1,1;12) 2 0,010 p ∗i 0,010 Здесь через Ii обозначены интервалы значений времени; mi – число наблюдений в данном интервале; p∗i = mi / n − соответствующие частоты. Для построения статистической функции распределения будем использовать границы х1, х2, … разрядов, которые используются в статистическом ряде. Построим приближенно статистическую функцию распределения по данным табл.1.2 (рис. 1.1). F199(0,0)=0; F199(0,3)=0,528; F199(0,6)=0,814; F199(0,9)=0,939; F199(1,2)=0,99; F199(0,1)=0,206; F199(0,4)=0,629; F199(0,7)=0,869; F199(1,0)=0,964; F199(1,3)=1,0. F199(0,2)=0,377; F199(0,5)=0,724; F199(0,8)=0,914; F199(1,1)=0,98; Рис.1.1 3 Гистограммы Статистический ряд часто оформляется графически в виде гистограммы. Гистограмма строится следующим образом. По оси абсцисс откладываются разряды, и на каждом из разрядов строится прямоугольник, площадь которого равна частоте данного разряда. Таким образом, высота каждого прямоугольника равна p∗i / h , где h – длина разряда. Тогда полная площадь гистограммы равна единице. По отношению к статистической совокупности гистограмма является по существу графической оценкой графика плотности распределения случайной величины Х. Поэтому гистограмма может быть хорошей подсказкой в выборе распределений, которые можно дальше использовать как модель данных наблюдений. Иногда визуально достаточно просто отнести гистограмму к определенной плотности распределения вероятностей, которые были рассмотрены в разделе 2. Однако, у такого подхода есть свои недостатки. Это выражается в отсутствии четких правил по выбору числа k интервалов (разрядов) и длины h разрядов. Посмотрим это на примере статистической совокупности, приведенной в табл.1.1. Ниже (рис.1.2,1.3, 1.4) приведены три гистограммы для одних и тех же статистических данных с различными длинами разрядов: h=0,05; h=0,075; h=0,1. Наиболее ровная гистограмма получена для h =0,1, ее форма напоминает форму графика плотности экспоненциального распределения. Рис. 1.2. Рис.1.3 Рис.1.4 4 Числовые характеристики статистического распределения В разделе 3 были рассмотрены числовые характеристики случайных величин: математическое ожидание, дисперсия, начальные и центральные моменты различных порядков. Аналогичные числовые характеристики существуют и для статистических распределений. Для основной характеристики положения случайной величины − математического ожидания – такой аналогией является среднее арифметическое значение статистической совокупности {xn}: n X(n) = ( ∑ x i )/n , i =1 (1.1) где xi – значение случайной величины Х в i-м опыте, n – число опытов. Эту характеристику называют также статистическим средним или выборочной средней. Статистической (выборочной) дисперсией случайной величины Х называют среднее арифметическое квадратов отклонений наблюдаемых значений случайной величины от их среднего значения: n D X(n) = [ ∑ (x i − X(n))2 ]/n . i =1 (1.2) Исправленной дисперсией называют величину n S2 (n) = D X(n) . (1.3) n −1 Аналогично определяются статистические начальные и центральные моменты любых порядков: n mS (n) = ( ∑ x Si )/n , i =1 o n mS (n) = [ ∑ (x i − X(n))S ]/n . i =1 (1.4) (1.5) Все эти определения полностью аналогичны определениям числовых характеристик случайной величины, с той разницей, что в них везде вместо математического ожидания присутствует среднее арифметическое. При увеличении числа опытов все статистические характеристики будут сходиться по вероятности к соответствующим характеристикам случайной величины и при достаточно большом n могут быть приняты приближенно равными им. При очень большом количестве опытов вычисление статистических характеристик по формулам (1.1) – (1.5) становится трудоемким и тогда используют следующий прием: в статистическом ряде или гистограмме берут ∗ среднее значение разрядов ~ xi и их частоты pi и используют для вычисления характеристик как средневзвешенных. Таким образом, статистические характеристики будут выражаться приближенными формулами: k X(n) = ∑ ~ x i p∗i , (1.6) i =1 k D X(n) = ∑ (~ x i − X(n))2 p∗i , i =1 k mS (n) = ∑ ~ x iSp∗i , i =1 (1.7) (1.8) o k mS (n) = ∑ (~ x i − X(n))S p∗i , i =1 (1.9) где ~ xi −середина i-го разряда, p∗i − частота i-го разряда, k− число разрядов. При решении задачи определения законов распределений нами будут использованы еще две статистические характеристики: Статистический коэффициент вариации cv(n) = S2 (n)/X(n) (1.10) и статистическая асимметрия AS (n) = m3 (n)/(S2 (n))3/2 . (1.11) Воспользуемся вышеперечисленными характеристиками для подбора подходящих законов распределений для данных статистической совокупности, предполагая данные Х1, Х2, …, Хn независимыми и одинаково распределенными. Составим так называемую итоговую статистику (табл.1.3). Табл.1.3 Функция Минимум, максимум Среднее m Итоговая статистика Х1, Хn X(n) Примечание [Х1, Хn] – оценка интервала наблюдений. Для непрерывных и дискретных данных. Оценка среднего значения. Для Медиана x0,5 Дисперсия σ2 X ((n +1)/2) , n − нечетное; x 0,5 (n) = [X (n/2) + X ((n/2) +1) ] 2 , n − четное . 2 S (n) Коэффициент вариации cv = σ 2 /m Коэффициент Лексиса τ=σ2/m Асимметрия o AS = m3 /(σ 2 )3/2 cv(n) = S2 (n)/X(n) τ(n) = S2 (n)/X(n) o AS (n) = m3 (n)/(S2 (n))3/2 непрерывных и дискретных данных. Альтернативный показатель среднего значения. Для непрерывных и дискретных данных. Показатель изменчивости. Для непрерывных и дискретных данных. Альтернативный показатель изменчивости. Для непрерывных данных. Альтернативный показатель изменчивости. Для дискретных данных. Показатель симметрии. Для непрерывных и дискретных данных. С помощью указанных функций в некоторых случаях можно выдвинуть предположение относительно семейства распределений. Для симметричного распределения (например, нормального), среднее m равно медиане х0,5. Следовательно, если оценки X(n) и x̂ 0,5 (n) примерно одинаковы, можно предположить, что распределение данной совокупности симметрично. Иногда информацию о форме непрерывного распределения можно получить с помощью коэффициента вариации cv. В частности, cv=1 для экспоненциального распределения. Для гамма – распределения и распределения Вейбулла значение cv больше 1, равно 1 или меньше 1, когда параметр формы α соответственно меньше 1, равен 1 или больше 1. Для гиперэкспоненциального распределения cv≥1. Для остальных распределений, рассмотренных в разделах 2 и 3, величина cv<1. Для дискретного распределения коэффициент Лексиса (lexis ratio) τ выполняет ту же роль, что и коэффициент вариации для непрерывного распределения. Его целесообразно использовать при определении распределений Пуассона, биномиального и отрицательного биномиального (геометрического). Для этих распределений τ=1, τ<1 и τ >1 соответственно. Асимметрия АS– показатель симметрии распределения. Как было сказано уже в разделе 2, АS =0 для симметричного распределения, подобного нормальному. Если АS >0 (для экспоненциального распределения АS=2), распределение смещено вправо, а если АS <0, оно смещено влево. Таким образом, асимметрия может использоваться для того, чтобы выяснить, какую форму имеет лежащее в основе статистических данных распределение. Определим эти функции итоговой статистики для статистической совокупности по временам Хi между поступлениями требований из примера 1.1. Итоговая статистика Значение Минимум 0,01 Максимум 1,24 Среднее 0,351 Медиана 0,260 Дисперсия 0,081144 Коэффициент вариации 0,813953 Асимметрия 1,000 Из этой таблицы следует, что среднее и среднеквадратическое отклонение примерно равны. Коэффициент вариации близок к единице, асимметрия положительная, т.е. распределение смещено вправо. Результаты итоговой статистики говорят в пользу экспоненциального распределения, как наиболее подходящего среди рассмотренных в разделе 2. Приведенный на рис.1.1 приближенный график статистической функции распределения, гистограммы и результаты итоговой статистики позволяют выдвинуть гипотезу о том, что данные распределения времени поступления требований в систему массового обслуживания распределены по экспоненциальному закону. Так как теоретическая кривая экспоненциального распределения зависит от одного параметра λ=1/М(Х), то подставив вместо математического ожидания М(Х) величину X(n) , получим оценку параметра λ̂ = 1/0,351 ≈ 2,849 . Тогда, вычислив значения функции f(x)=2,849e−2,849x на границах разрядов х 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 f(x) 2,85 2,14 1,61 1,21 0,91 0,69 0,52 0,39 0,29 0,22 0,17 , х 1,1 1,2 1,3 f(x) 0,12 0,09 0,07 построим график этой функции поверх гистограммы (рис.1.5). Рис.1.5 Из графика видно, что теоретическая кривая плотности распределения f(x), сохраняя в основном существенные особенности статистического распределения, свободна от случайных неправильностей хода гистограммы. На этом завершается рассмотрение первой из трех основных задач математической статистики. Лекция 5-6 Критерии согласия. Согласованность теоретического и статистического распределений В этом разделе рассматривается вопрос о согласованности теоретического и статистического распределений. Допустим, что для данного статистического распределения подобрано теоретическое распределение (например, экспоненциальное). Между ними неизбежны некоторые расхождения. Поэтому возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или же они являются существенными и связаны с тем, что плохо подобрано теоретическое распределение. Ответ на этот вопрос дают так называемые критерии согласия. Рассмотрим наиболее старый критерий согласия – критерий «хи – квадрат» К. Пирсона (К.Pearson, 1900), в котором мера расхождения между теоретическим и статистическим распределением обозначается χ2. Проверяя согласованность теоретического и статистического распределений, исходят из расхождений между теоретическими вероятностями pi− попадания случайной величины в каждый из разрядов статистического ряда и полученными ∗ частотами pi . Пусть результаты n опытов сведены в k разрядов и оформлены в статистический ряд i [α 1;α2) p1∗ [α2 ;α3) p∗2 [αk; αk+1) p∗k и пусть подобрана плотность распределения f(х). Тогда теоретические вероятности попадания случайной величины в i-й разряд статистического ряда α i +1 pi = ∫ f(x)dx − для непрерывных данных, pi = αi ∑ p(x i ) − для дискретных данных, α i ≤ x i α i +1 где р – вероятностная мера подобранного распределения (например, геометрического). Тогда статистика критерия χ2 определяется по формуле k (p∗ − p ) 2 2 i χ = n∑ i . pi i =1 Для удобства вычислений (чтобы не иметь дела со слишком малыми величинами) можно ввести n под знак суммы и использовать критерий в виде k (m − np ) 2 2 i χ =∑ i . npi i =1 Отсюда видно, что величина χ2 – случайная и ее распределение зависит от параметра r, называемого числом степеней свободы распределения. Число степеней свободы r равно числу разрядов k минус число независимых условий ∗ (связей), наложенных на частоты pi . Например, таким условием может быть k ∗ ∑ pi = 1 . i =1 В частности, если предполагаемое распределение экспоненциальное, то r = k−2. Если нормальное, то r = k−3. Ранее было отмечено, что распределение χ2 является частным случаем гамма – распределения при α=r/2 и β=2. Таким образом, распределение χ2 с r степенями свободы является распределением суммы квадратов r независимых случайных величин Хi, каждая из которых подчинена нормальному закону с параметрами mx=0, σx=1. Это распределение имеет плотность r −1 − u u 2 e 2 , u ≥ 0; r f r (u) = 2 r 2 Γ( 2 ) u < 0, 0, ∞ где Γ(z) = ∫ t z −1e− t dt − гамма – функция аргумента z. 0 Объясним теперь понятие критерия согласия. Критерий согласия – это статистический критерий для проверки гипотезы, применяемый, чтобы формально оценить, являются ли данные наблюдений Х1, Х2, …, Хn независимой выборкой из определенного распределения с функцией распределения F(х) или плотностью f(x). Таким образом, критерий согласия используют для проверки так называемой нулевой гипотезы Н0: Хi – независимые и одинаково распределенные случайные величины с функцией распределения F(х) или плотностью f(х). После выбора определенного критерия множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, другое – при которых она принимается. Так как любой критерий представляет из себя одномерную случайную величину, то все ее возможные значения принадлежат некоторому интервалу. Рассмотрим сказанное на примере критерия «хи − квадрат». 2 Зададимся вопросом нахождения такого значения χ кр (α,r) при заданной вероятности (уровне значимости) α и заданном числе степеней свободы r, при котором было бы выполнено условие: 2 P(χ 2 > χ кр ( α, r)) = α . Тогда, если найденное по статистическому ряду значение χ2 будет больше 2 критического χ кр (α,r), то при заданном уровне значимости гипотезу Н0 отвергают. Если же найденное значение χ2 меньше критического, то нет оснований, чтобы отвергнуть нулевую гипотезу. 2 На рис.1.6 показано нахождение критической точки χ кр (α,r) и построение критической области для критерия χ2. 2 χ кр ( α, r ) Рис.1.6 2 Таблица значений χ кр (α,r) для различных α и r приведена в приложении (табл. 4). Это таблица с двумя входами, где α значение вероятности и r – число степеней свободы. Числа, стоящие в таблице, представляют собой соответствующие значения χ2. Таблицу значений χ2 можно использовать двояко. Во-первых будем исходить из того, что величина Х действительно распределена по закону F(x). Тогда вероятность α, определенная по таблице при полученных значениях r и χ2, есть вероятность того, что за счет чисто случайных причин мера расхождения χ2 (1.3) будет не меньше, чем фактическое значение χ2 в данной серии опытов. Если эта вероятность мала, то результат опыта следует считать противоречащим гипотезе Н0. Напротив, если вероятность α сравнительно велика, можно признать расхождения между теоретическим и статистическим распределениями несущественными и отнести их за счет случайных причин. Тогда гипотезу Н0 можно считать правдоподобной или не противоречащей опытным данным. Во-вторых, по заданному уровню значимости (α=0,05, α=0,1) и числу степеней 2 свободы r из статистического ряда находят по таблице χ кр (α,r). Если значение χ2 2 (7.13) не превышает χ кр (α,r), то говорят, что мы не опровергаем Н0 на заданном уровне α. На практике при использовании критерия χ2 должно быть достаточно большим не только общее число опытов n, но и числа наблюдений mi в отдельных разрядах (не менее 5-10 наблюдений). Если числа наблюдений в отдельных разрядах малы (1-2), имеет смысл их объединить. Пример 1.2. Рассмотрим сказанное выше на данных из примера 1.1. Вычислим вначале значение критерия χ2 для статистического ряда, представленного таблицей 1.2. При этом три последних разряда объединены в один. Выкладки для вычисления критерия показаны в табл.1.4. Табл.1.4 i 1 2 3 4 5 6 7 8 9 10 11 Интервал [xi , xi+1) [0; 0,1) [0,1; 0,2) [0,2; 0,3) [0,3; 0,4) [0,4; 0,5) [0,5; 0,6) [0,6; 0,7) [0,7; 0,8) [0,8; 0,9) [0,9; 1,0) [1,0; ∞) − λˆ xi mi e 41 34 30 20 19 18 11 9 5 5 7 1,0 0,752 0,566 0,425 0,320 0,241 0,181 0,136 0,102 0,077 0,058 − λˆ x i+1 pi npi 0,752 0,566 0,425 0,320 0,241 0,181 0,136 0,102 0,077 0,058 0 0,248 0,186 0,141 0,105 0,079 0,060 0,045 0,034 0,025 0,019 0,058 49,35 37,01 28,06 20,89 15,72 11,94 8,96 6,77 4,98 3,78 11,54 e Из таблицы значений χ2(приложение табл.4) находим для r=9: при χ2 =10,66 α=0,30; (mi − npi )2 npi 1,41 0,24 0,13 0,04 0,68 3,08 0,46 0,73 0,00 0,39 1,79 2 χ =8,95 при χ2=8,34 α=0,50. Следовательно, искомая вероятность α при χ2=8,95 приближенно равна 0,44. Эта вероятность малой не является и поэтому гипотезу об экспоненциальном законе распределения интервалов времени между поступлениями требований можно считать правдоподобной. С другой стороны зададимся уровнем значимости α=0,05. По таблице χ2 при 2 α=0,05 и r =9 находим χ кр (0,05; 9) = 16,92 . Так как 8,95<16,92, то можно говорить, что при уровне значимости 0,05, гипотезу об экспоненциальном распределении не отвергаем. Итак, величина критерия не дает нам оснований считать, что 2,849e− 2,849x , x ≥ 0; экспоненциальное распределение с плотностью f(x) = плохо 0, x < 0 согласуется с данными табл.7.1 Другой подход к определению значения критерия χ2 называется равновероятным подходом. В этом случае устраняется некоторая неоднозначность в выборе длины разрядов в статистическом ряде и длины разрядов выбирают так, чтобы выполнялось условие: р1=р2=…=рk. Тогда критерий χ2 является приближенно достоверным, если k≥3 и npi ≥5 для всех i. Например, если для вышеприведенного примера сформировать k=20 интервалов с рi=1/20=0,05, то n·рi=199·0,05=9,95. Границы разрядов хi можно определить по формуле xi=−0,351ln(1−i/20) для i=1,2,…, 20, что эквивалентно условию F̂(x i ) = i/20 , где F̂(x) = 1 − e − x/0,351 для х≥0. При этом х0=0, х20=∞. Определение значения критерия χ2 по равновероятному подходу и сравнение его с предыдущим значением, проделать самостоятельно. Рассмотрим еще один критерий согласия – критерий Колмогорова - Смирнова. В отличие от критерия «хи-квадрат» критерий Колмогорова – Смирнова позволяет сравнить статистическую функцию распределения Fn(x) c функцией предполагаемого распределения F̂(x) . Для этого критерия не нужно каким – либо образом группировать данные и следовательно, нет сложности с определением границ разрядов. Однако у него есть свои недостатки. Во – первых, область его применения более ограниченна, чем у критерия «хи квадрат», т.к. нет готовых критических значений для работы с дискретными данными. Во – вторых, исходная форма критерия достоверна только в том случае, если известны все параметры предполагаемого закона. Если же использовать вместо параметров их оценки по данным, то критерий может давать завышенные значения вероятности, чем точно установленные. Для определения меры расхождения (статистики), лежащей в основе критерия Колмогорова – Смирнова, мы будем использовать статистическую функцию распределения количество Хi < x Fn (x) = = p∗(X < x) n и подобранную функцию распределения Fˆ ( x ) . Тогда статистика этого критерия Dn – это наибольшее (вертикальное) расстояние между Fn(x) и F̂(x) для всех значений х: D n = max | Fn (x) − F̂(x) | . А.Н.Колмогоров доказал, что какова бы ни была функция распределения Fˆ ( x ) непрерывной случайной величины Х, при неограниченном возрастании числа независимых наблюдений n вероятность неравенства n D n ≥ λ стремится к +∞ P(λ( = 1 − ∑ (−1)k e − 2k пределу k = −∞ 2 2 λ . (1.14) Значения вероятности Р(λ), подсчитанные по формуле (1.14) приведены в табл. 1.5 Табл.1.5 λ Р(λ) 0,0 0,1 0,2 0,3 0,4 1,000 1,000 1,000 1,000 0,997 λ 0,5 0,6 0,7 0,8 0,9 Р(λ) λ Р(λ) λ Р(λ) 0,964 0,864 0,711 0,544 0,393 1,0 1,1 1,2 1,3 1,4 0,270 0,178 0,112 0,068 0,040 1,5 1,6 1,7 1,8 1,9 2,0 0,022 0,012 0,006 0,003 0,002 0,001 Схема применения критерия следующая: 1) строятся статистическая функция распределения Fn(x) и предполагаемая теоретическая функция распределения F̂(x) и определяется максимум модуля разности между ними (рис.1.7); 2) определяется величина λ = n D n и по таблице 1.5 находится вероятность Р(λ). Если вероятность Р(λ) весьма мала, то гипотезу Н0 отвергают; при сравнительно больших Р(λ) гипотезу Н0 считают совместимой с опытными данными. Пример 1.3. Применим критерий Колмогорова – Смирнова к данным статистической совокупности из табл.1.1. На рис.1.7 приведен график разности между функциями распределения для данных об интервалах времени между поступлениями требований и подобранного экспоненциального распределения F̂(x) = 1 − e − x/0,351 . Fn (x) − F̂(x) Рис.1.7 Максимальная разность между двумя функциями Fn(x) и Fˆ (x) в точке хi=0,35 составляет −0,083. Тогда Dn=0,083 и λ=1,171. По табл. 1.5 находим Р(1,1)=0,178 и Р(1,2)=0,112. Следовательно, как и в случае применения критерия «хи – квадрат», гипотезу Н0 – об экспоненциальном распределении данных на уровне Р=0,14 мы не опровергаем. В качестве замечания отметим тот факт, что с ростом n прямо пропорционально растет и объем вычислений для статистики Dn. Для сравнения ниже приведены результаты расчетов по программе «Statistica» (рис.1.8, 1.9). Результаты ручного счета и программы «Statistica» – для статистики Колмогорова - Смирнова совпадают. Расхождения по критерию «хи - квадрат» объясняются тем, что в программе «Statistica» при вычислении статистики χ2 разряды берутся другие, а именно (αi, αi+1] вместо [αi, αi+1) при ручном счете. Следовательно, в программе «Statistica» статистическая функция распределения Fn(x) непрерывна «справа», а не «слева», как мы допускали в п.1.2. Это важно, особенно в тех случаях, когда данные в статистической совокупности могут повторяться, как в рассматриваемом нами примере. Рис. 1.8 Рис. 1.9 Далее в качестве модели теоретического распределения для данных статистической совокупности из таблицы 1.1 вместо экспоненциального распределения рассмотрим гамма – распределение. Ниже на рисунках 1.10, 1.11, 1.12 приведены расчеты по программе «Statistica». Рис. 1.10 Рис. 1.11 Рис. 1.12 Результаты расчета показывают, что данные статистической совокупности не противоречат и гипотезе о гамма – распределении с параметром формы α=3,87 и масштабным параметром β=1,36. При этом статистика критерия Колмогорова – Смирнова Dn=0,072 вместо 0,083 в предыдущем случае (что лучше, так как вероятность равна 0,26), а статистика критерия «хи – квадрат» − χ2=11,85 вместо 9,49 (что хуже, так как вероятность стала 0,158 вместо 0,394). Учитывая, что экспоненциальное распределение содержит один параметр, а гамма – распределение – два параметра, то для дальнейшего моделирования удобнее пользоваться экспоненциальным распределением. 6 Статистические оценки для неизвестных параметров распределения Определив при решении первой задачи математической статистики один или несколько законов распределений, мы должны задать значения их параметров, чтобы распределения были полностью определены и могли применяться при дальнейшем моделировании. При выдвижении гипотезы о виде распределения использовались независимые и одинаково распределенные опытные данные Х1, Х2, …, Хn, и эти же данные будем использовать, чтобы получить оценки параметров, входящих в выбранное распределение. В таком случае говорят, что оценивают неизвестный параметр по данным статистической совокупности (выборки). Например, если уже установлено, что закон распределения случайной величины Х нормальный, то необходимо оценить параметры m и σ. Или же, если величина распределена по закону Пуассона, то подлежит определению только один его параметр − математическое ожидание М(Х)=λ. Рассмотрим следующую общую задачу. Имеется случайная величина Х, закон распределения которой содержит неизвестный параметр θ. Обозначим θ̂ оценку параметра θ, причем оценка является числовой функцией величин Х1,Х2,…,Хn и следовательно, сама является величиной случайной. Закон распределения θ̂ зависит от закона распределения величины Х, от самого неизвестного параметра θ и числа опытов n. Предъявим к оценке θ̂ ряд требований по «качеству». 1. Несмещенной называют статическую оценку θ̂ , математическое ожидание которой равно оцениваемому параметру θ, т.е. M = (θ̂) = 0 . В этом случае исключается систематическая ошибка в сторону завышения или занижения. 2. Оценка θ̂ при увеличении числа опытов n должна сходиться по вероятности к оцениваемому параметру θ. Оценка, обладающая этим свойством, называется состоятельной. 3. Эффективной называют статическую оценку, которая по сравнению с другими имеет наименьшую дисперсию, т.е. D(θ̂) = min. Рассмотрим два типа оценок − это оценки по методу моментов (К. Пирсона) и оценки максимального правдоподобия (Р. Фишера). Согласно методу моментов, неизвестные параметры распределения выбираются с таким расчетом, чтобы несколько моментов теоретического распределения были равны соответствующим статическим моментам, вычисленным для данной статистической совокупности. Пример 1.4. По данным статистической совокупности Х1,Х2,…,Хn найти методом моментов оценку неизвестного параметра λ экспоненциального распределения с функцией плотности f(x) = λe − λx ( x ≥ 0) . Решение. Приравняем начальный теоретический момент первого порядка начальному статическому моменту первого порядка: m1=m1(n). Учитывая, что m1=M(X), m1 (n) = X(n) , получим M(X) = X(n) . Так как для экспоненциального закона M( X ) = 1 / λ , то оценкой для параметра λ будет λ̂ = 1/X(n) . Пример 1.5. По данным статической совокупности Х1,Х2,…,Хn найти методом моментов оценки неизвестных параметров m и σ нормального распределения с функцией плотности 2 2 1 φ m,σ (x) = e-(x -m) /(2σ ) . σ 2π Решение. Приравняем начальные теоретические и статические моменты первого порядка, а также центральные и статистические моменты второго порядка: o o o m1=m1(n), m 2 = m 2 (n ) .Учитывая, что m1=m, m 2 = σ 2 , получим ˆ = DX(n) . m̂ = X(n) , σ Замечание. Результаты примера 1.2 мы уже использовали в п. 1.4. Рассмотрим теперь оценки максимального правдоподобия. Допустим, что вид функции плотности f(x) для независимых и одинаково распределенных данных Х1,Х2,…,Хn установлен, но неизвестен параметр этого распределения θ. Функцией правдоподобия для непрерывной случайной величины Х называют функцию L(Х1,Х2,…,Хn; θ)=f(Х1, θ) f(Х2, θ)… f(Хn, θ). В качестве оценки параметра θ принимают такое его значение θ̂ , при котором функция L достигает максимума. Функции L и lnL достигают максимума в одной и той же точке, поэтому ищут (что удобнее) максимум функции lnL. Пример 1.6. Для экспоненциального распределения θ=λ (λ>0). Составим логарифмическую функцию правдоподобия: n lnL = nlnλ − λ ∑ Xi . i =1 Найдем первую производную по λ: dlnL n n = − ∑ Xi . dλ λ i =1 Так как lnL – строго возрастающая функция, то приравняв нулю первую производную, найдем точку максимума n λ̂ = n/ ∑ X i = 1/X(n) . i =1 Пример 1.7. Функция правдоподобия для нормального распределения имеет вид: n 1 L= n exp( − (Xi − m) 2 /2σ 2 ) , ∑ n σ ( 2π ) i =1 а следовательно логарифмическая функция правдоподобия n 1 lnL = −nlnσ + ln − ∑ (Xi − m) 2 /(2σ 2 ) . ( 2ππn i =1 Найдем частные производные по m и σ: n n ∂lnL ∂lnL = ( ∑ X i − nm)/σ 2 ; = − n/σ + ∑ (Xi − m) 2 /σ 2 . ∂m ∂σ i =1 i =1 Приравняв частные производные нулю и решив полученную систему двух уравнений относительно m и σ, получим: m̂ = X(n) , σˆ 2 = DX(n) . Заметим, что первая оценка несмещенная, а вторая смещенная. Теперь подробнее рассмотрим требования, предъявляемые к оценкам. 7 Оценки для математического ожидания и дисперсии Пусть имеется случайная величина Х с математическим ожиданием mx и дисперсией Dx и при этом обе характеристики неизвестны. В результате n независимых опытов получены результаты X1, X2, …, Xn. Требуется найти несмещенные и состоятельные оценки числовых характеристик mx и Dx. В качестве оценки для mx рассмотрим среднее арифметическое n X(n) = ( ∑ X i )/n . Найдем его математическое ожидание i =1 n M(X(n)) = ( ∑ m x )/n = m x . i =1 Отсюда следует, что X(n) является несмещенной оценкой для математического ожидания mx. При рассмотрении закона больших чисел мы убедились, что при увеличении n величина X(n) сходится по вероятности к mx. Тогда эта оценка является и состоятельной. Определим теперь дисперсию этой оценки: n D(X(n)) = D( ∑ X i )/n 2 = D x /n . i =1 Эффективность или неэффективность оценки зависит от вида распределения величины Х. Например, доказано, что если величина Х распределена по нормальному закону, то величина D(X(n)) = D X /n будет минимальной, т.е. оценка X(n) будет эффективной. Перейдем к оценке для дисперсии Dx. Рассмотрим для этого статистическую дисперсию 1 n D X(n) = ∑ (Xi − X(n))2 = X 2 (n) − (X(n))2 . (1.15) n i =1 Проверим, является ли эта оценка состоятельной. Величина X 2 (n) есть среднее арифметическое n значений случайной величины X2 и она сходится по вероятности к М(Х2). Второе слагаемое сходится по вероятности к m 2x . Тогда дисперсия D X(n) сходится по вероятности к M(X 2 ) − m 2x = D x , т.е. оценка D X(n) является состоятельной. Проверим, является ли оценка D X(n) также и несмещенной. Для этого раскроем выражение (1.15): n n i =1 n i =1 n D X(n) = ( ∑ X i2 )/n − ( ∑ Xi /n)2 = = ( ∑ X i2 )/n − ( ∑ X i2 )/n 2 − 2 ∑ X i X j/n 2 = i =1 i =1 i< j n −1 n 2 2 ∑ X i − 2 ∑ X i X j. n 2 i =1 n i< j Найдем математическое ожидание величины (7.16): 2 n −1 n M(D X(n) ) = 2 ∑ M(Xi2 ) − 2 ∑ M(Xi X j ) . n i =1 n i< j (1.16) = (1.17) Так как статистическая дисперсия не зависит от того, в какой точке выбрать начало координат, выберем его в точке mx. Тогда o M(Xi2 ) = M(X i2) = D x ; o n ∑ M(Xi ) = nD x ; 2 i =1 o M(Xi , X j ) = M(Xi X j ) = cov(Xi , X j ) = 0 . Последнее равенство следует из того, что Xi и Xj − независимы. Подставив последние выражения в (1.17), получим n −1 M(D X(n) ) = Dx . n Отсюда следует, что статистическая дисперсия не является несмещенной n оценкой для Dx. Тогда введя поправку и умножив статистическую n −1 дисперсию на эту величину, получим «исправленную» дисперсию в качестве оценки для Dx: n ∑ (Xi − X(n)) 2 n D X(n) = i =1 . n −1 n −1 При больших значениях n обе оценки - смещенная D X(n) и несмещенная S2(n) S2 (n) = − будут различаться очень мало и тогда введение поправочного множителя теряет смысл. 8 Доверительный интервал и доверительная вероятность В предыдущих разделах рассмотрен вопрос об оценках неизвестных параметров распределений одним числом. Такие оценки называются «точечными». В ряде задач требуется не только найти оценку параметра θ, но и оценить его точность и надежность. Требуется знать – к каким ошибкам может привести замена параметра θ его точечной оценкой θ̂ и с какой степенью надежности можно ожидать, что эти ошибки не выйдут за известные пределы ? Такого рода задачи особенно актуальны при малом числе наблюдений над случайной величиной Х, когда точечная оценка θ̂ в значительной мере случайна и приближенная замена θ на θ̂ может привести к серьезным ошибкам. Чтобы дать представление о точности и надежности оценки θ̂ , в математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями. Пусть для параметра θ по данным наблюдений получена несмещенная оценка θ̂ . Чтобы оценить возможную ошибку при замене θ его оценкой θ̂ , возьмем некоторую достаточно большую вероятность γ (например, γ=0,9; γ=0,95; γ=0,99), такую, что событие с вероятностью γ можно считать практически достоверным. Очевидно , что если δ>0 и |θ−θ̂ |<δ, то чем меньше δ, тем оценка точнее. Пусть вероятность того, что |θ−θ̂ |<δ равна γ: P(| θ − θ̂ |< δ) = γ или P(θ̂ − δ < θ < θ̂ + δ) = γ . Последнее соотношение следует понимать так: вероятность того, что интервал (θ̂ − δ, θ̂ + δ) заключает в себе (покрывает) неизвестный параметр θ, равна γ. Вероятность γ называют надежностью (доверительной вероятностью) оценки θ по θ̂ , а интервал (θ̂ − δ, θ̂ + δ) – доверительным интервалом. Замечание. Ранее мы неоднократно рассматривали вероятность попадания случайной величины X в заданный (неслучайный) интервал. Здесь же параметр θ не случайная величина, а случайна величина θ̂ и следовательно, случайны границы доверительного интервала. Поэтому в данном случае лучше толковать величину γ не как вероятность попадания точки θ в интервал (θ̂ − δ, θ̂ + δ) , а как вероятность того, что этот интервал накроет точку θ. Перейдем к вопросу о нахождении границ доверительного интервала. Для этого рассмотрим задачу о доверительном интервале для математического ожидания. Предположим, что X1, X2, …, Xn являются независимыми и одинаково распределенными случайными величинами с математическим ожиданием m и конечной дисперсий σ2, которые неизвестны. Для этих параметров получены оценки: n n X(n) = ∑ x i /n ; S2 (n) = ∑ (x i − X(n))2 /(n − 1) , i =1 i =1 где xi − возможные значения величин Xi. Согласно центральной предельной теореме, при достаточно большом n закон распределения X(n) близок к нормальному. Характеристики этого закона – математическое ожидание и дисперсия равны соответственно m и σ2/n (п.6.3). Тогда пользуясь известной формулой Р(|X−m|<δ)=2Φ0(δ/σ) и заменив в ней Х на X(n) , σ2 на S2(n)/n, получим P(| X(n) − m |< δ) = 2Φ 0 (δ n/S2 (n) ) = 2Φ 0 (t γ ) , где t γ = δ n/S2 (n) . Тогда δ = t γ S2 (n)/n и можем записать P( | X(n) − m |< t γ S2 (n)/n ) = 2Φ 0 (t γ ) . Приняв во внимание, что эта вероятность задана и равна γ, а также найдя значение tγ из равенства Φ0(tγ)=γ/2 по таблице интеграла Лапласа, можем теперь записать окончательную формулу доверительного интервала для неизвестного математического ожидания: X(n) − t γ S2 (n)/n < m < X(n) + t γ S2 (n)/n . (1.18) Полученный таким образом интервал называют также 100·γ − процентным доверительным интервалом для m. Пример 1.8. Произведено 20 опытов над величиной Х; результаты приведены в таблице 1.6. Таблица 1.6 i xi i xi i xi i xi 1 2 3 4 5 10,5 10,8 11,2 10,9 10,4 6 7 8 9 10 10,6 10,9 11,0 10,3 10,8 11 12 13 14 15 10,6 11,3 10,5 10,7 10,8 16 17 18 19 20 10,9 10,8 10,7 10,9 11,0 Требуется найти оценку m̂ для математического ожидания m величины X и построить 90-процентный доверительный интервал для m. Решение. Определим среднее арифметическое 1 20 X(20) = ∑ x i = 10,78. 20 i =1 Выбрав за начало отcчета x=10 находим несмещенную оценку 13,38 20 S2 (20) = ( − 0,782 ) = 0,064 . 20 19 Тогда значение множителя S2 (20)/20 = 0,0565 . По таблице интеграла Лапласа находим t0,90=1,643. Отсюда доверительный интервал: 10,69<m<10,87. Пример 1.9. Построим 90 − процентный доверительный интервал для среднего значения m статистической совокупности из примера 1.1. Из п.1.4 имеем следующие оценки X(199) = 0,351, S2(199)=0,081. Отсюда значения множителя S2 (199)/n = 0,020 . По таблице интеграла Лапласа t0,90=1,643. Отсюда доверительный интервал: 0,318<m<0,384. Доверительный интервал, определенный формулой (1.18) является лишь приближенным. Это видно по выкладкам, которые были проделаны при выводе этой формулы. Теперь запишем точное выражение 100·γ − процентного доверительного интервала для неизвестного математического ожидания m. Пусть X1, X2, …, Xn являются нормально распределенными случайными X(n) − m величинами. Тогда случайная величина T = имеет распределение 2 S (n)/n Стьюдента с n−1 степенями свободы. Плотность этого распределения имеет вид n Γ(n/2) t2 − 2 Sn −1 (t) = (1 + ) . n −1 (n − 1)π Γ((n − 1)/2) В этом случае также говорят, что случайная величина T имеет t – распределение с n−1 степенями свободы. Точный (для любого n≥2) 100·γ – процентный доверительный интервал для m определяется как X(n) − t n −1,γ S2 (n)/n < m < X(n) + t n −1, γ S2 (n)/n , (1.19) где t n −1,γ − верхняя критическая точка для t – распределения с n−1 степенями свободы определяется из условия t n −1, γ 2 ∫ Sn −1 (t) dt = γ . 0 Таким образом, при выводе формулы (1.19) использована случайная величина T. Таблица значений критических точек t n −1, γ приведена в приложении (табл.5). Пример 1.10. Построить 90%-й доверительный интервал для m по данным примера 7.8. Ранее были определены оценки: X(20) = 10,78 , S2(20)=0,064, а также величина S2 (20)/20 = 0,0565 . По таблице значений t n −1, γ находим значение t19;0,9=1,729. Тогда 90%-й доверительный интервал будет 10,68<m<10,88. Таким образом, доверительный интервал, определяемый формулой (1.19) шире, чем (1.18). Этот факт иллюстрирует и рис.1.13, где приведены графики плотности t − распределения с 4-мя степенями свободы и стандартного нормального распределения. Рис.1.13 Кривая t − распределения меньше поднимается вверх и имеет более длинные хвосты, чем кривая нормального распределения и поэтому для любого конечного n справедливо неравенство t n −1, γ > t γ . В тех случаях, когда n довольно небольшое число, разница между (1.18) и (1.19) будет ощутимой. Выше мы рассматривали задачу построения доверительного интервала для неизвестного математического ожидания. Точно также определяется доверительный интервал для дисперсии D. Только при его получении используется случайная величина U=(n−1)S2(n)/D, которая имеет распределение χ2 с n−1 степенями свободы (см.п.1.5). Выразим случайную величину – оценку S2(n) через U: S2 (n) = U D . Зная закон распределения величины U, можно найти для n −1 нее доверительный интервал с надежностью γ. Доверительный интервал построим таким образом, чтобы вероятности выхода величины U за пределы интервала вправо и влево (заштрихованные площади на рис.1.14) были одинаковы и равны α = 1− γ . 2 2 2 Воспользуемся таблицей значений χ кр (α, r) для случая r=n−1 и в соответствующей строке найдем два значения χ2: одно, отвечающее вероятности α1=α/2; другое – вероятности α2=1−(α/2). Обозначим эти значения χ12 и χ 22 , причем χ12 будет правым концом доверительного интервала, а χ 22 −левым. χ 22 χ 12 Рис. 1.14 Таким образом, построим доверительный интервал для дисперсии с границами D1 и D2, который накрывает точку D с вероятностью γ: P(D1 < D < D 2 ) = γ . Потребуем также одновременного выполнения условия P(χ 22 < U < χ12 ) = γ . Учитывая, что неравенства U < χ12 и U < χ 22 равносильны неравенствам (n − 1)S2 (n) <D χ12 и (n − 1)S2 (n) > D , то следующий интервал χ 22 (n − 1)S2 (n) (n − 1)S2 (n) <D< (1.20) χ12 χ 22 является 100·γ − процентным доверительным интервалом для неизвестной дисперсии. Пример 1.11. Найти 90%-й доверительный интервал для дисперсии в условиях примера 1.8, если известно, что величина Х распределена нормально. Решение. Имеем γ=0,9; α=0,1; α/2=0,05. По таблице значений χ2(α,r) при r=n−1=19 находим α для α1 = = 0,05 : χ12 = 30,1; 2 α для α 2 = 1 − = 0,95 : χ 22 = 10,11. 2 Учитывая, что S2(20)=0,064, используя формулу (1.20), получим 90%-й доверительный интервал для дисперсии: 0,04<D<0,12. 9 Связь между доверительным интервалом и проверкой гипотез о среднем значении В п.1.8 были даны два вида доверительных интервалов для неизвестного среднего значения m величины X; формула (1.18) − для приближенного доверительного интервала; а формула (7.19) − для точного. Более правильной будет следующая интерпретация доверительного интервала.Если будет построено большое количество независимых 100·γ – процентных доверительных интервалов, каждый из которых основывается на n разных наблюдениях, где n − достаточно большое число, то доля интервалов, которые содержат (покрывают) m, будет равна γ. Эта доля и называется покрытием для доверительного интервала. На покрытие доверительного интервала (1.19) оказывает влияние вид распределения величин Xi. В таблице 1.7 представлена оценка покрытия для 90%х доверительных интервалов, основанная на 500 независимых экспериментах, при разных объемах выборок n (5, 10, 20 и 40) и таких распределениях как: нормальное, экспоненциальное, «хи – квадрат» с одной степенью свободы, логнормальное (ey, где Y - стандартная нормальная случайная величины), а также гиперэкспоненциальное, функция распределения которого F(x) = 0, 9 (1 − e −2x ) + 0,1(1 − e −2x/11 ) . Таблица 1.7 Распределение Аcимм етрия 0,00 2,00 2,83 6,18 Нормальное Экспоненциальное Хи-квадрат Логнормальное Гиперэкспоненци 6,43 альное n=5 n=10 n=20 n=40 0,910 0,854 0,810 0,758 0,902 0,878 0,830 0,768 0,898 0,870 0,848 0,842 0,900 0,890 0,890 0,852 0,584 0,586 0,682 0,774 Например, значение 0,878 при n=10 для экспоненциального распределения получено следующим образом. Десять наблюдений сгенерировали по экспоненциальному распределению с известным средним значением m, а 90%-й доверительный интервал построили по выражению (7.19) и определили, содержит ли этот интервал среднее значение m (это один эксперимент). Затем всю процедуру повторили 500 раз, и доля интервалов, содержащих значение m, в 500х доверительных интервалах составила 0,878. Как следует из таблицы 1.7, для отдельного распределения покрытие становится ближе к 0,90 по мере возрастания n, что следует из центральной предельной теоремы. Кроме того, для конкретного n покрытие уменьшается по мере увеличения асимметрии. Следовательно, чем больше асимметрия у распределения, тем больший объем выборки необходим для получения удовлетворительного (близкого к 0,90) покрытия. Далее рассмотрим следующую задачу. Допустим, что величины X1, X2,…, Xn являются нормально распределенными (или приближенно нормально распределенными) и что следует проверить нулевую гипотезу Н0, согласно которой m=m0, где m0 - заданное гипотетическое значение m. Интуитивно ясно, что если X(n) − m0 является большой величиной, то гипотеза Н0 не может быть истиной ( X(n) – точечная несмещенная оценка m). Воспользуемся статистикой (функцией величины Xi), распределение которой известно, когда гипотеза Н0 истинна. Отсюда следует, что если гипотеза Н0 истинна, статистика t n = [X(n) − m0 ]/ S2 (n)/n будет иметь t − распределение с n−1 степенями свободы. Тогда «двусторонний» критерий проверки гипотезы Н0: m=m0 при конкурирующей гипотезе Н1: m≠m0 будет иметь следующую форму: > t n -1,γ , то H 0 − опровергается; если | t n | (1.21) ≤ t n −1,γ , то H 0 − принимается, где tn−1,γ – критическая точка t – распределения. Отрезок числовой оси, соответствующий опровержению Н0, а именно: множество всех х, для которых |x|> tn−1,γ, называется критической областью критерия, а вероятность попадания статистики tn в критическую область при условии, что гипотеза Н0 является истиной, равна α и называется уровнем значимости критерия. Как правило, выбирается уровень α, равный 0,05 или 0,10. Критерий проверки гипотезы (1.21) называется t – критерий, а критические значения tn−1,γ мы уже использовали при построении доверительных интервалов по формуле (1.19). При проверке гипотезы встречаются два вида ошибок. 1. Если отвергнуть гипотезу Н0 тогда как она верна, допускают ошибку первого рода. Вероятность ошибки первого рода равна уровню значимости α и, следовательно, находится под контролем исследователя. 2. Если же принимать гипотезу Н0 тогда, когда она ложна, допускают ошибку второго рода. Вероятность ошибки второго рода для заданного уровня α и объема выборки n обозначается β. Она зависит от того, что в действительности правильно (в сравнении с Н0), и может быть неизвестна. Мощностью критерия называют величину δ=1−β. Она равна вероятности опровержения гипотезы Н0, когда она ложна, а верна конкурирующая гипотеза. (Желательно, чтобы критерий имел высокую мощность). При заданном α мощность критерия можно увеличить только путем увеличения числа опытов n и только так можно добиться уменьшения ошибок первого и второго рода. Так как мощность критерия может быть невелика и неизвестна, далее, когда статистика tn не будет попадать в критическую область, будем считать, что гипотеза Н0 не опровергается (вместо «Н0 принимается»). Когда Н0 не опровергается, часто точно неизвестно, правильна Н0 или ложна, поскольку критерию недостает мощности, чтобы обнаружить различия между нулевой гипотезой Н0 и тем, что в действительности правильно. В этом состоит главный недостаток критериев проверки гипотез. Далее сравним критерий проверки гипотез (1.21) и доверительный интервал (1.19). Проверяя гипотезу Н0: m=m0 при Н1: m≠m0, мы требуем, чтобы вероятность попадания критерия [X(n) − m0 ]/ S2 (n)/n в двустороннюю критическую область (1.21) была равна уровню значимости α, следовательно, вероятность попадания критерия в область принятия гипотезы (−tn−1,γ, tn−1,γ) равна 1−α=γ. Другими словами, с надежностью γ выполняется неравенство − t n −1,γ < [Х(n) − m 0 ]/ S2 (n)/n < t n −1,γ , или равносильное неравенство Х(n) − t n −1, γ S2 (n)/n < m < Х(n) + t n −1,γ S2 (n)/n . Таким образом, мы получим доверительный интервал (1.19) для оценки неизвестного математического ожидания m нормального распределения с надежностью γ. Замечание. Хотя построение доверительного интервала для m и двусторонней критической области для проверки гипотезы Н0: m=m0 и приводят к одинаковым результатам, их истолкование различно. Двусторонняя критическая область определяет границы (критические точки), между которыми заключена доля, равная γ=(1−α) наблюдаемых критериев, найденных при повторении опытов. Доверительный же интервал определяет границы (концы интервала), между которыми заключена доля покрытия, равная γ, попавших в него значений оцениваемого параметра (см.пояснение к табл.1.7). Пример 1.12. Возьмем данные из примера 1.8. Предположим, что они получены из нормального распределения с неизвестным средним значением m. Проверим для этих данных на уровне α=0,01 нулевую гипотезу Н0: m=10,5, при конкурирующей гипотезе Н1: m=10,8. X(20) − 10,5 10,78 − 10,5 Поскольку t 20 = = = 4,96 > 1,73 = t19; 0,9 , 2 0,0565 S (20)/20 мы опровергаем гипотезу Н0. Этого следовало ожидать, так как значение m0=10,5 не попадает в доверительный интервал для m: 10,68 < m < 10,88, построенный с надежностью γ=0,90 в примере 1.10. Лекция 7 Точечные оценки для числовых характеристик многомерных случайных величин В предыдущих пунктах мы рассмотрели задачи, связанные с оценками для числовых характеристик одномерной случайной величины при ограниченном числе опытов и построением для них доверительных интервалов. Аналогичные вопросы возникают и при обработке ограниченного числа наблюдений над двумя и более случайными величинами. Рассмотрим сначала случай двумерной случайной величины (X,Y). Пусть нами получены результаты n независимых опытов над величиной (X,Y) в виде пар значений (x1,y1), (x2,y2),…,(xn,yn). Требуется найти оценки для числовых характеристик: математических ожиданий mx, my, дисперсий Dx, Dy, ковариации cov(X,Y), коэффициента корреляции ρ(х, у) и коэффициентов регрессии βху, βух. Оценки для математических ожиданий и дисперсий будут такими же, как и в случае одномерной величины. Несмещенными оценками для математических ожиданий будут средние арифметические: n n X(n) = ( ∑ x i )/n; Y(n) = ( ∑ yi )/n, i =1 i =1 а для элементов ковариационной матрицыn S2x (n) = ∑ (x i − Х(n))2 /(n − 1); i =1 n S2y (n) = ∑ (yi − Y(n))2 /(n − 1); i =1 n σ̂ xy = côv(X, Y) = ∑ (x i − Х(n))(yi − Y(n))/(n − 1). i =1 Оценкой коэффициента корреляции будет величина côv(X, Y) ρ̂ = , Sx S y а оценками двух коэффициентов регрессии: β̂ xy = ρ̂Sx /Sy , β̂ yx = ρ̂Sy /Sx . Все приведенные оценки будут так же и состоятельными, т.е. при n→∞ сходятся по вероятности к соответствующим теоретическим характеристикам. Рассмотрим теперь m – мерную случайную величину (Х1, Х2, …, Хm). Пусть над системой произведено n независимых наблюдений и результаты оформлены в виде таблицы. Таблица 1.8 i X1 X2 1 х11 х21 2 х12 х22 K K K K i х1i х2i K K n х1n х2n K K K K K K K Xk хk1 хk2 K хki K хkn K K K K K K K Xm хm1 хm2 K хmi K хmn Здесь хki – это значение, принятое компонентой вектора Xk в i-ом наблюдении. Требуется найти оценки для числовых характеристик m − мерной случайной величины: математических ожиданий m x1 , m x 2 , …, m x m , и элементов ковариационной матрицы σ11 σ12 K σ1m σ 22 K σ 2m ∑= . L σ mm По главной диагонали ковариационной матрицы стоят дисперсии компонент Х1, Х2, …, Хm: σ11 = D Х1 , σ 22 = D Х 2 , …, σ mm = D Х m . Оценки для математических ожиданий найдутся как средние арифметические: n Х k (n) = ∑ x ki /n, k = 1, n . i =1 Несмещенные оценки для дисперсий определяются по формулам n S2k (n) = ∑ (x ki − Х k (n))2 /(n − 1) , i =1 а для ковариаций – по формулам n σ̂ kl = ∑ (x ki − Х k (n))(x li − Хl (n))/(n − 1). i =1 По этим данным определяются также оценки для элементов корреляционной матрицы σ̂ ρ̂ kl = kl , где Sk = S2k (n) , Sl = Sl2 (n). SkSl Пример 1.14. Ниже в таблице приведены результаты опытов, в которых исследовалась зависимость глубины h (мм) проникновения снаряда в преграду от удельной энергии ε (т.е. энергии, приходящейся на 1 см2 площади соударения). Найти все вышеперечисленные оценки, а также построить эмпирические линии регрессии. Решение. Находим несмещенные оценки: 13 ε = ( ∑ ε i )/13 ≈ 164,46; i =1 13 Sε2 = ∑ (ε i − ε )2 /12 ≈ 6660,19; i =1 13 σ̂ εh = ∑ (ε i − ε )(h i − h )/12 ≈ 826,62; i =1 β̂ εh = ρ̂Sε /Sh ≈ 7,96; 13 h = ( ∑ h i )/13 ≈ 21,08; i =1 13 S2h = ∑ (h i − h ) /12 ≈ 103,84; 2 i =1 ρ̂ = σ̂ εh ≈ 0,994; SεSh β̂ hε = ρ̂Sh /Sε ≈ 0,124. 1 2 3 4 5 6 7 8 9 10 11 12 13 41 50 81 104 120 139 154 180 208 241 250 269 301 4 8 10 14 16 20 19 23 26 30 31 36 37 После подстановки полученных оценок получим следующие эмпирические линии регрессии: h на ε: h−21,08 = 0,124(ε−164,46); ε на h: ε−164,46 = 7,96(h−21,08). Проверим эти расчеты с помощью программы «Statistica». Рис. 1.17 Результаты расчетов совпадают, разница только в том, что в расчетах мы использовали несмещенные оценки, что не влияет на конечный результат. Эмпирические линии регрессии h на ε и ε на h показаны на рис. 1.18, 1.19 h ε 40 300 30 200 20 100 10 0 100 200 Рис. 1.18. 300 ε 0 10 20 30 40 h Рис. 1.18 Результаты расчетов по программе «Statistica» подтверждают правильность проведенных расчетов. Лекция 8 ТЕОРЕТИЧЕСКИЕ ПОЛОЖЕНИЯ КОРРЕЛЯЦИОННО РЕГРЕСИОННОГО АНАЛИЗА СТАТИСТИЧЕСКИХ СВЯЗЕЙ - Существует два основных типа связей между социально-экономическими явлениями и их признаками: функциональная (жестко детерминированная) и статистическая (стохастически детерминированная). При функциональной связи каждому значению факторного признака соответствуют строго определенные значения результативного признака. При статистической связи с изменением значения факторного признака значения результативного признака могут варьировать в определенных пределах, т.е. принимать любые значения в этих пределах с некоторыми вероятностями. При этом статистические характеристики результативного признака изменяются по определенному закону. Статистическая связь проявляется не в каждом отдельном случае, а в среднем при большом числе наблюдений. Корреляционная связь (от англ. corelation - соответствие) является частным случаем статистической связи, при которой изменение среднего значения результативного признака обусловлено изменением значений факторного признака (парная корреляция) или множества факторных признаков (множественная корреляция). Для оценки тесноты связи (связь отсутствует, слабая, умеренная, сильная), определения ее направленности (связь прямая или обратная), а также формы (связь линейная, параболическая, гиперболическая, степенная и т.д.) используется корреляционно- регрессионный метод. Корреляционно-регрессионный анализ позволяет количественно измерить тесноту, направление связи (корреляционный анализ), а также установить аналитическое выражение зависимости результата от конкретных факторов при постоянстве остальных действующих на результативный признак факторных признаков (регрессионный анализ). Основные задачи корреляционно-регрессионного анализа 1. Измерение тесноты связи между результативным и факторным признаком (признаками). В зависимости от количества влияющих на результат факторов задача решается путем вычисления корреляционного отношения, коэффициентов парной, частной, множественной корреляции или детерминации. 2. Оценка параметров уравнения регрессии, выражающего зависимость средних значений результативного признака от значений факторного признака (признаков). Задача решается путем вычисления коэффициентов регрессии. 3. Определение важнейших факторов, влияющих на результативный признак. Задача решается путем оценки тесноты связи факторов с результатом. 4. Прогнозирование возможных значений результативного признака при задаваемых значениях факторных признаков. Задача решается путем подстановки ожидаемых значений факторов в регрессионное уравнение и вычисления прогнозируемых значений результата. Парная корреляция и регрессия Часто при анализе взаимосвязей социально-экономических явлений среди различных факторов, влияющих на результат, бывает важно выделить наиболее значимый факторный признак, который в большей степени обусловливает вариацию результативного признака (например, зависимость проданных туристическими фирмами путевок от затрат на рекламу или зависимость производительности труда операторов ЭВМ от стажа работы). Этим обусловлена необходимость измерения парных корреляций и построения уравнений парных регрессий. Парная корреляция характеризует тесноту и направленность связи между результативным и факторным признаками. Парная регрессия позволяет описать форму связи в виде уравнения парной регрессии. Множественная корреляция и регрессия При анализе взаимосвязей социально-экономических явлений, как правило, выясняется, что на результат влияет ряд факторных признаков, основные из которых следует включить в регрессионную модель. При этом следует помнить, что все факторы учесть в модели невозможно по ряду причин: часть факторов просто неизвестна современной науке, по части известных факторов нет достоверной информации или количество включаемых в модель факторов может быть ограничено объемом выборки (количество факторных признаков должно быть на порядок меньше численности изучаемой совокупности). Множественная регрессия описывает форму связи в виде уравнения множественной регрессии, или регрессионной модели. Линейная y = а0 + a1x1+ … +amxm а0 – свободный член уравнения; ,a2,…,am – коэффициенты множественной регрессии. Параметры уравнения множественной регрессии a1,a2,…,am называют коэффициентами множественной регрессии и определяют с помощью МНК путем решения системы нормальных уравнений МНК. При этом число нормальных уравнений в общем случае будет равно числу параметров. Если связь отдельного фактора с результатом не является линейной, то производят линеаризацию уравнения. Для упрощения решения системы нормальных уравнений значения всех признаков заменяют на отклонения индивидуальных значений признаков от их средних величин. Полученные коэффициенты множественной регрессии являются именованными числами и показывают, на сколько изменится результативный признак (по отношению к своей средней величине) при отклонении факторного признака от своей средней на единицу и при постоянстве (фиксированном уровне) других факторов. Значимость коэффициентов множественной регрессии оценивается на основе t-критерия Стьюдента; tр рассчитывают как отношение взятого по модулю коэффициента регрессии к его средней ошибке с заданными уровнем значимости (α) и числом степеней свободы d.f.= n-m-1. Коэффициенты регрессии можно преобразовать в сравнимые относи-тельные показатели - стандартизованные коэффициенты регрессии, или β-коэффициенты (2.5). β-коэффициент позволяет оценить меру влияния вариации факторного признака на вариацию результата при фиксирован- ном уровне других факторов (2.5) βxi = aiσxi/σy где σxi – среднее квадратическое отклонение факторного признака, σy – среднее квадратическое отклонение результативного признака, ai – коэффициент регрессии при соответствующем факторном признаке xi. Общие сведения об интегрированном статистическом пакете общего назначения STATISTICA В настоящем разделе дано краткое описание системы STATISTICA, более подробные сведения о пакете приведены в поставляемой вместе с системой документацией фирмы-разработчика StatSoft и кратком руководстве. Следует отметить, что в процессе работы в среде STATISTICA студент может воспользоваться экранным справочником, содержащим практически всю информацию печатной документации. STATISTICA полностью удовлетворяет основным стандартам среды Windows: - стандартам пользовательского интерфейса; - технологии DDE — динамического обмена данными из других приложений. Благодаря поддержке DDE нетрудно выполнить командные сценарии изнутри других приложений. Например, можно в Excel написать мини программу (макрос), которая запускает пакет STATISTICA. После добавления в макрос специальных SQL-команд можно импортировать в пакет данные; - технологии OLE — связывания и внедрения объектов, поддержка основных операций с буфером обмена и др. Использование OLE технологии обмена между Windows-приложениями позволяет легко интегрировать ре- зультаты, например, между WinWord и STATISTICA. Статистический анализ данных в системе STATISTICA можно представить в виде следующих основных этапов: - ввод данных в электронную таблицу с исходными данными и их предварительное преобразование перед анализом (структурирование, построение необходимых выборок, ранжирование и т. д.); - визуализация данных при помощи того или иного типа графиков; - применение конкретной процедуры статистической обработки; - вывод результатов анализа в виде графиков и электронных таблиц с численной и текстовой информацией; - подготовка и печать отчета; - автоматизация процессов обработки при помощи макрокоманд, языка SCL или STATISTICA BASIC. Интегрированный статистический пакет общего назначения STATISTICA состоит из следующих основных компонент: - многофункциональной системы для работы с данными, которая включает в себя электронные таблицы для ввода и задания исходных данных, а также специальные таблицы (Scroolsheet ™) для вывода численных результатов анализа. Для сложной обработки данных в STATISTICA имеется модуль Управления данными; - графической системы для визуализации данных и результатов статистического анализа; - набора статистических модулей, в которых собраны группы логически связанных между собой статистических процедур (рис.2): - основные статистики и таблицы; - непараметрическая статистика; - дисперсионный анализ; - множественная регрессия; - нелинейное оценивание; - анализ временных рядов и прогнозирование; - кластерный анализ; - управление данными; - факторный анализ и др. Рис. 2. Основное меню системы STATISTICA. ПЕРЕКЛЮЧАТЕЛЬ МОДУЛЕЙ После запуска системы STATISTICA на экране появляется Переключатель модулей (рис. 2). Модули взаимодействуют друг с другом, имея одинаковый формат системных файлов. Если пользователю нужен, например, раздел линейной регрессии, то следует выбрать модуль Multiple Regression - Множественной регрессии и выполнить команду Switch To. В любом конкретном модуле можно выполнить определенный способ статистической обработки, не обращаясь к процедурам из других модулей. Все основные операции при работе с данными и графические возможности доступны в любом статистическом модуле и на любом шаге анализа; - специального инструментария для подготовки отчетов. При помощи текстового редактора, встроенного в систему, можно готовить полноценные отчеты. В пакете STATISTICA также имеется возможность автоматического создания отчетов; - встроенных языков SCL и STATISTICA BASIC, которые позволяют автоматизировать рутинные процессы обработки данных в системе. Способы взаимодействия с системой Статистический анализ данных можно осуществлять в одном из сле-дующих режимов. Интерактивный режим работы предусматривает взаимодействие с системой при помощи последовательного выбора различных команд из меню. Этот режим предпочтителен на этапе выбора математической модели явления и метода статистического анализа. После предварительного анализа данных следует использовать другие режимы. Использование макрокоманд позволяет записывать последовательность команд в одну макрокоманду. При этом можно записывать как последовательности нажатий клавиш на клавиатуре, так и движения мыши. Это удобное средство, автоматизирующее выполнение часто повторяющихся шагов статистического анализа. Командный язык системы STATISTICA (язык SCL — STATISTICA Command Language) позволяет выполнять статистическую обработку данных в пакетном режиме. При этом можно установить соответствие между программой, написанной на SCL, и ярлыком в рабочем пространстве Windows и запускать ее как обычное Windows-приложение. Язык STATISTICA BASIC предоставляет возможность пользователю писать собственные процедуры обработки данных. Ввод данных Данные в STATISTICA организованы в виде электронной таблицы — Spreadsheet. Они могут содержать как числовую, так и текстовую инфор- мацию. Данные в электронной таблице могут иметь различные форматы, например, даты, времени и др. Электронные таблицы в STATISTICA под- держивают различные типы операций с данными - такие, как: операции с использованием буфера обмена Windows, операции с выделенными блока- ми значений (аналогично MS® Excel®), в том числе и с использованием метода Drag-and-Drop — «Перетащить и опустить», автозаполнение блоков и т. д. Ввести данные в электронную таблицу можно одним из следующих способов. Непосредственно ввести их в электронную таблицу с клавиатуры. В STATISTICA имеются развитые инструментальные средства для автоматизации ручного ввода данных (рис. 4). Вычислить новые данные на основе уже введенных при помощи формул, которые можно задать в электронной таблице. При этом имеется возможность быстрого доступа к большому количеству специализированных математических, статистических функций и логических операторов. Для задания сложных процедур преобразования данных можно воспользоваться встроенным языком STATISTICA BASIC. Воспользоваться данными, подготовленными в другом приложении. При этом доступны следующие способы ввода данных из других приложений в систему STATISTICA: - операции копирования данных через Буфер обмена — Clipboard Windows; - импорт данных из наиболее популярных; - использование механизма динамической связи DDE между данными в STATISTICA и другим Windows-приложением. Для более сложных процедур обработки исходных данных в STATISTICA существует специализированный модуль Data Managment — УПРАВЛЕНИЕ ДАННЫМИ (рис. 2), который содержит большое количество вспомогательных процедур по работе с данными (иерархическая сортировка, проверка, ранжирование и др.) Вывод результатов анализа Вывести результаты анализа можно одним из следующих способов. Численные результаты статистического анализа в системе STATISTICA выводятся в виде специальных электронных таблиц, которые называются таблицами вывода результатов — Scrollsheets ™. Таблицы Scrollsheet могут содержать как числовую, так и текстовую информацию. Обычно даже в результате простейшего статистического анализа выдается большое количество числовой и графической информации. В системе STATISTICA эта информация выводится в виде последовательности, которая состоит из набора таблиц Scrollsheet и графиков. STATISTICA содержит инструменты для удобного просмотра результатов статистического анализа и их визуализации. Они включают в себя стандартные операции по редактированию таблицы (включая операции над блоками значений, Drag-and-Drop — «Перетащить и опустить», автоза- полнение блоков и др.), операции удобного просмотра (подвижные грани- цы столбцов, разделение прокрутки в таблице и др.), доступ к основным статистическим процедурам и графическим возможностям системы STATISTICA. При выводе ряда результатов (например, корреляционной матрицы) STATISTICA отмечает значимые параметры (например, коэффициенты корреляции) красным цветом. Если пользователю необходимо провести детальный статистический анализ промежуточных результатов, то можно сохранить таблицу Scrollsheet в формате файла данных STATISTICA и далее работать с ним, как с обычными данными. Кроме вывода результатов анализа в виде отдельных окон с графиками и таблицами Scrollsheet в системе STATISTICA имеется возможность создания отчета, в окно которого может быть выведена вся эта информация. Отчет — это документ (в формате RTF), который может содержать любую текстовую или графическую информацию. В пакете STATISTICA имеется возможность автоматического создания отчета (автоотчета). При этом любая таблица Scrollsheet или график могут автоматически быть направлены в отчет чрез команды меню File/Page/Output Setup (см. рис.3). Рис. 3. Диалоговое окно задания параметров вывода Таким образом, система STATISTICA работает с следующими типами документов: электронной таблицей Spreadsheet (предназначенной для ввода исходных данных), электронной таблицей Scrollsheet (предназначенной для вывода числовых и текстовых результатов анализа), графиком (предназначенным для визуализации численной информации), отчетом (предназначенным для вывода текстовой и графической информации в формате RTF). Особенности управления пакетом К основным преимуществам управления пакетом STATISTICA можно отнести следующие: Данные можно без затруднений вводить в среду пакета, легко редактировать, создавать новые переменные, выбирать отдельные наблюдения или вырезать» подмножество данных по строкам и (или) по столбцам таблицы «объект-признак». Благодаря обширной панели инструментов для выполнения большинства задач достаточно нескольких щелчков мышью, так как практически для всех функций пакета имеются пиктограммы. В том случае, если студент забыл задать ту или иную переменную или параметр статистического метода, пакет сделает запрос к пользователю с необходимой подсказкой. Особенностью пакета является настройка функций под экран, открытый в данный момент времени. Так, при загрузке пакета в активном окне возникает список модулей, доступных пользователю в данный момент времени, и пользователь может самостоятельно решить, какой вид анализа необходимо выполнить. Список модулей и порядок их следования в окне могут быть определены самим студентом, что дает ему дополнительные удобства в гибкости настройки. STATISTICA имеет возможность работы в пакетном режиме, используя свой командный язык SCL. Можно использовать и наборы команд, объединяемые в последовательности, или макросы. Наиболее сильной стороной STATISTICA являются ее графические возможности. В пакете представлено множество графиков типа 2D или 3D, матрицы и пиктограммы. Средства управления графиками включают в себя работу одновременно с несколькими графиками, изменение размеров сложных объектов, расширенные возможности рисования и т.д. Лекция 9 МОДЕЛИРОВАНИЕ ПОТОКОВ СОБЫТИЙ СЛУЧАЙНЫХ ВЕЛИЧИН, ПРОЦЕССОВ И 9.1 Генерирование и статистический анализ псевдослучайных чисел Рассмотрим последовательность чисел γ0,γ1,…, порождаемую рекуррентным уравнением γi+1={Mγi}, (9.1) где М−целое (М>1), {A} означает дробную часть А. Для некоторого множества начальных значений γ0 последовательность, порождаемая уравнением (9.1), будет равномерно распределенной в интервале (0;1) и при достаточно больших значениях М по своим свойствам близка к последовательности т.н. базовых случайных чисел. Уравнение (9.1) преобразуем к форме, приспособленной к арифметике с фиксированной запятой и ограниченной длиной разрядного слова εi+1 ≡ M εi (mod p), (9.2) где εi – целые положительные числа, не превышающие p; p − некоторая целая константа. Соотношение (9.2) определяет значение εi+1 как остаток от деления произведения M εi на p. Очевидно, что значения элементов последовательности (9.1) равны γi = εi/p. Последовательность (9.2) имеет период. Как только некоторое значение εn будет равно начальному (или некоторому другому, имевшему уже место) значению, числа генерируемые уравнением (9.2), будут повторяться. В соответствии с требованиями, предъявляемыми к генераторам псевдослучайных последовательностей, желательно, чтобы длина периода была максимальной. Она будет зависеть от модуля p и начального значения ε0. Учитывая двоичный способ представления чисел в ЭВМ, ограничимся рассмотрением случая εi+1 = Mεi (mod 2S), (9.3) -S где S – длина разрядной сетки; γi = εi·2 . Качество псевдослучайных последовательностей определяется проверкой их равномерности распределения и взаимной независимости с помощью различных статистических тестов. Мы же в лабораторных работах для этого будем использовать критерий согласия Пирсона – χ2 или же критерий Колмогорова – Смирнова. Ниже на рисунке 9.1 приводится схема алгоритма генератора псевдослучайных чисел RANDU (IX,IY,YFL) для 32-разрядной ЭВМ. Начало Ввод IX IY=IX·65539 – IY<0 + IY=IY+2147483647 +1 YFL=IY YFL=YFL·0.4656613E9 Конец Рис. 9.1 – Схема алгоритма генератора псевдослучайных чисел RANDU Здесь последовательность псевдослучайных чисел определяется из рекуррентного соотношения εi+1 = (65539εi) mod 232, (9.4) Использованные обозначения: IX – начальное значение, любое нечетное целое число, меньшее 232; IY – получаемая целочисленная случайная величина, YFL – получаемая случайная величина из интервала (0;1). .2 Моделирование непрерывных случайных величин Рассмотрим методы моделирования непрерывной случайной величины Х. x Пусть f(x) – плотность распределения, а F( x ) = ∫ f ( x )dx − функция распределения −∞ вероятностей случайной величины Х. Обозначим через F-1(y) – функцию, обратную к F(x). Покажем, что распределение случайной величины x=F-1(ζ), (9.5) где ζ – базовая случайная величина, имеет функцию распределения F(x). Действительно (рис. 9.2), P(X<x)=P[ζ<F(x)]=F(x). Следовательно, алгоритм моделирования непрерывной случайной величины сводится к определению значения этой величины по (9.5) через реализацию базового случайного числа. Рис. 9.2 В качестве примера рассмотрим экспоненциальное распределение с плотностью f(x)=λe-λx, x≥0 и функцией распределения F(x)=1−e-λx, x≥0. Находим обратную функцию распределения x=(−1/λ)lnζ, которая и определяет алгоритм моделирования. Недостатком алгоритмов обратной функции является вычисление функции, обратной функции распределения. Большинство распределений не позволяет определить эту функцию в явном виде через элементарные функции. Поэтому трудоемкость алгоритмов определяется трудоемкостью решения относительно х уравнения вида x ∫ f(x)dx = ζ . −∞ (9.6) Другой, широко используемый метод моделирования, состоит в представлении исходного распределения в виде смеси других, более простых с точки зрения имитации распределений: f(x)=p1f1(x)+p2f2(x)+…+pSfS(x), (9.7) где p1+p2+…+ps=1, fi(x) – некоторые плотности распределения. Тогда имитация осуществляется в два этапа. Сначала имитируется выбор одного из S распределений, затем разыгрывается значение случайной величины с этим распределением. Первое базовое число используется для моделирования дискретной случайной величины с рядом распределения вероятностей (p1,p2,…,pS), второе (или последующие) – для моделирования случайной величины с распределением fi(x) (i=1,2,…,S) в зависимости от предшествующего результата. Укажем ещё один способ моделирования случайных величин. Так, нормальное распределение, распределение Эрланга, χ2 – распределение и ряд других могут быть представлены в виде суммы (композиции) более простых случайных величин. В таблице 9.3 приведены алгоритмы имитации распределений, рассмотренных в разделе 2. Как правило, при решении важных задач методом имитационного моделирования исследователь проверяет качество генерирования псевдослучайной последовательности. Эта задача решается с использованием критериев согласия. Отличие применения этих критериев при оценке качества генерирования от классической задачи сглаживания статистических рядов заключается в том, что исследователь априори задаёт закон распределения и требуемые значения параметров псевдослучайной (сгенерированной) последовательности, а при решении задачи сглаживания необходимо решить задачу идентификации закона распределения. При оценке качества генерирования псевдослучайной последовательности в качестве теоретического закона распределения возможно использование: 1. заданного закона распределения с заданными параметрами; 2. заданного закона распределения с уточненными параметрами путём решения задачи аппроксимации закона распределения тем или иным способом. Рассмотрим последовательность этапов решения задачи оценки качества генерирования применительно ко второму случаю, как более общему (рис. 9.3). Начало Конец Рис. 9.3 – Схема алгоритма оценки качества генерирования ПСП После ввода исходных данных первым шагом в решении этой задачи является N построение гистограммы наблюдаемого статистического ряда {xi}i =1 . Для этого необходимо выполнить следующие этапы: 1. Определить диапазон изменения статистического ряда xmin−xmax. 2. Определить ширину дифференциального коридора: x − x min , (9.7) ∆x = max M где М – количество дифференциальных коридоров. 3.Определить частоту попадания анализируемой случайной величины в j-ый дифференциальный коридор: N ) (9.8) p j = 1 ∑ δij , N i =1 xi − x min 1, если ent ∆x + 1 = jΛxi = x max; где (9.9) δij = 1 , если xi = j∆x; 2 0, иначе − индикатор состояния. Следует отметить, что δi,j+1=1/2, если xi=j∆x ∧ x≠xmax, т.е. в этом случае в j и j+1 коридоры добавляется по 1/2. 4. Если частота попадания в какой-либо k-ый дифференциальный коридор мала (pj<0,01÷0,02), то для уменьшения влияния случайности его объединяют с k+1 коридором. Эта операция может быть применена неоднократно. Исходным материалом для построения гистограммы является сгруппированный по дифференциальным коридорам статистический ряд, представленный, как правило, в виде таблицы (см. табл. 9.1), где ĥ j = p̂ j/∆ x j Статистический ряд Табл. 9.1 p̂ j 0,099 0,1006 j∆ x 0,1 0,2 ĥ j p̂ j 0,99 0,1008 j∆ x 0,8 ĥ j 1,008 0,1003 0,0989 0,099 0,1067 0,0954 0,3 0,4 0,5 0,6 0,7 1,006 0,0997 1,003 0,0996 0,989 0,99 1,067 0,954 0,9 1 0,997 0,996 После построения гистограммы и оценки статистических характеристик решают задачу уточнения параметров распределения, используя тот или иной метод аппроксимации закона распределения. Заключительным этапом решения задачи является проверка качества генерирования с использованием критериев согласия. Применение критериев согласия здесь полностью аналогично тому, как это делалось ранее. На основании данного статистического материала необходимо проверить гипотезу H, состоящую в том, что случайная величина Х подчиняется заданному закону распределения. Введем случайную величину U, являющуюся мерой расхождения теоретического и статистического распределений. Закон распределения этой случайной величины fu(u) зависит как от закона распределения случайной величины X, так и от числа опытов N. Если гипотеза Н верна, то fu(u) определяется законом распределения fa(х) и числом опытов N. Вычислим вероятность события Р(u ≤ U) = Рд. Если эта вероятность мала, то гипотезу следует отвергнуть как малоправдоподобную, если значительна − экспериментальные данные не противоречат гипотезе Н. Далее в лабораторных работах будут использованы критерии Пирсона и Колмогорова – Смирнова. Если уточнение параметров распределения сгенерированной последовательности не производится, т.е. не решается задача аппроксимации законов распределения, оценка качества генерирования ПСП производится с использованием в качестве теоретического распределения заданного закона с заданными параметрами. Для уточнения параметров распределения часто применяется метод моментов. Согласно этому методу, параметры распределения α1,…,αm выбираются таким образом, чтобы несколько важнейших числовых характеристик (моментов) теоретического распределения были равны статистическим характеристикам. При составлении уравнений для определения неизвестных параметров, как правило, выбирают моменты низших порядков. Общими рекомендациями являются здравый смысл и простота решения полученной системы уравнений. Рассмотрим несколько примеров. Определим параметры аналитического выражения плотности распределения вероятностей генератора «белого шума» − стандартной программы ПЭВМ. Теоретически закон распределения должен быть равномерным f x (x) = 1 , a ≤ x ≤ b с параметрами a=0, b=1. b−a Гистограмма приведена на рис. 9.4, а данные для расчётов − в таблице 9.1. «Белый шум» (10 коридоров) 1,2 1 0,8 0,6 0,4 0,2 0 1 2 3 4 5 6 7 8 9 10 Рис. 9.4 Уравнения для определения двух неизвестных параметров распределения могут быть составлены различными способами. Потребуем, например, чтобы у статистического и теоретического распределений совпадали математическое ожидание и дисперсия: m̂ = a + b ; 2 x (9.10) 2 (b − a) D̂x = . 12 Отметим, что оценка начальных моментов статистического ряда определяется выражением: M k â k = ∑ x j p̂ j , (9.11) j=1 где x j - среднее значение j интервала, а центральных – k µ̂ k = ∑ (−1)sCskα̂k − sm̂sx . (9.12) s =0 Эта система уравнений имеет аналитическое решение: a = m̂x − 3σ̂x b = m̂x + 3σ̂x. Для данного статистического распределения m̂x = 0,4994; D̂x = 0,082208; σ̂ = 0,286719. x (9.13) (9.14) Подставив найденные оценки в выражения (9.13), получим: а=0,003327, b=0,996553. Отсюда видно, что рассчитанные параметры закона распределения незначительно, но отличаются от заданного при генерировании. Следовательно, при проведении статистического моделирования целесообразно проверять качество программных генераторов и оценивать его реальные характеристики. Применив критерий Пирсона, вычислим значение χ2= 7,77, что соответствует вероятности Рд>0,3 (приложение табл. 4). Таким образом, можно принять гипотезу о том, что данный статистический ряд соответствует равномерному распределению с найденными параметрами. Преимуществом метода моментов является простота определения параметров распределения, недостатком − неоднозначность в выборе уравнений, которых может быть большое количество. Вопросы по дисциплине 1. Случайные величины. 2. Функция распределения вероятностей случайной величины. 3. Плотность распределения вероятностей непрерывной случайной величины. 4. Примеры дискретных распределений вероятностей. 5. Биномиальное распределение. 6. Распределение Пуассона. 7. Геометрическое распределение. 8. Примеры непрерывных распределений. 9. Закон равномерного распределения вероятностей. 10. Нормальный закон распределения. 11. Экспоненциальный закон распределения. 12. Распределение Вейбулла. 13. Гамма – распределение. 14. Числовые характеристики случайных величин. 15. Числовые характеристики случайных величин. 16. Дисперсия случайной величины. Моменты высших порядков. 17. Многомерные случайные величины. Совместная функция распределения. 18. Основные задачи математической статистики. 19. Статистическая совокупность и статистическая функция распределения. 20. Гистограммы. 21. Числовые характеристики статистического распределения. 22. Критерии согласия. 23. Статистические оценки для неизвестных параметров распределения. 24. Оценки для математического ожидания и дисперсии. 25. Доверительный интервал и доверительная вероятность. 26. Связь между доверительным интервалом и проверкой гипотез о среднем значении. 27. Оценка неизвестной вероятности по частоте. 28. Точечные оценки для числовых характеристик многомерных случайных величин. 29. Основные понятия теории случайных процессов. 30. Моделирование случайных величин, процессов и потоков событий. 31. Генерирование и статистический анализ псевдослучайных чисел. 32. Аппроксимация законов распределения. 33. Задача сглаживания статистических рядов. 34. Аппроксимация корреляционных функций и спектральных плотностей. 35. Многомерный регрессионный анализ. 36. Уравнение множественной регрессии. Оценка его параметров, пояснить их экономический смысл. 37. Линейные коэффициенты парной и частной корреляции. 38. Статистические таблицы Фишера – Снедекора. 39. F-критерий Фишера. 40. Дисперсионный анализ. Федеральное агентство связи Государственное образовательное учреждение высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» ___________________________________________________________________________ Кафедра «Программное обеспечение и управление в технических системах» (наименование кафедры) Кафедра «Программное обеспечение и управление в технических системах» (наименование кафедры) МЕТОДИЧЕСКИЕ УКАЗАНИЯ ДЛЯ ПРОВЕДЕНИЯ ЛАБОРАТОРНЫХ ЗАНЯТИЙ по учебной дисциплине: Статистические методы в инженерных исследованиях ______________________ (наименование учебной дисциплины) Обсуждено на заседании кафедры ПОУТС «__31___» _______08__________ 2012 г. протокол № _____1______ Самара 2011 Задание на лабораторную работу №1 Статистический анализ статистических гипотез с помощью пакета Statistica Цель работы. Научиться проводить статистический анализ статистических гипотез. Содержание работы 1. По данным соответствующей таблицы построить статистический ряд. 2. Определить итоговые статистики полученного ряда. 3. Построить гистограмму распределения. 4. Ручные вычисления проверить в пакете Statistica. Содержание отчёта 1. Цель работы. 2. Критерии согласия. 3. Статистический ряд и итоговые статистики. 4. Примеры гистограмм. 5. Расчеты в пакете Statistica. 6. Выводы. Варианты заданий 1.1 Допустим, что данные о времени обслуживания (мин.), представленные в табл. 1.9, являются независимыми наблюдениями относительно времени обслуживания в системе массового обслуживания с одним устройством. Используя все подходящие методы, описанные в разделе 1, построить гипотезу относительно формы распределения, определить оценки его параметра (параметров) с помощью оценок максимального правдоподобия и определить степень согласия. Таблица 1.9 0,02 1,39 5,02 3,04 3,45 1,35 0,83 4,39 4,39 7,78 2,66 3,37 5,83 0,72 0,89 3,43 4,33 4,04 4,85 4,75 16,44 6,71 1,92 2,28 2,50 3,34 3,79 6,03 2,80 5,97 2,10 2,82 3,47 3,09 0,37 2,66 0,99 2,83 4,45 3,78 7,66 6,03 3,41 1,16 4,21 2,82 4,56 7,15 5,08 2,07 0,84 4,85 2,39 4,06 5,03 11,31 2,57 1,99 10,29 4,73 5,00 4,19 1,03 4,05 6,64 2,12 2,93 5,12 8,22 1,04 3,27 2,66 2,14 7,23 3,43 3,07 7,98 0,86 5,08 5,16 5,79 1,36 0,51 4,46 6,36 3,14 1,95 2,13 2,54 1,58 3,19 6,88 7,12 0,94 7,02 3,29 3,35 2,34 10,79 3,23 8,52 2,08 4,95 1,15 3,57 2,19 1,65 1,52 3,67 5,49 0,71 3,46 3,26 1.2 Предположим, что данные о погрешностях в диаметре шарикоподшипников, представленные в табл. 1.10, являются независимыми наблюдениями относительно отклонений от требуемого диаметра шарикоподшипников, изготовляемых на новом высокоскоростном станке. Используя все подходящие методы, описанные в разделе 7, построить гипотезу относительно формы распределения, определить оценки его параметра (параметров) с помощью оценок максимального правдоподобия и степень согласия. Таблица 1.10 2,31 1,49 2,10 0,30 0,48 1,71 0,19 0,00 0,66 −1,27 1,01 −0,54 1,70 2,58 0,56 0,38 0,77 2,29 1,55 0,27 1,62 0,94 0,94 1,20 0,26 1,40 2,12 1,41 2,73 1,33 0,26 3,11 0,99 0,24 1,35 0,60 1,17 1,12 2,79 0,17 0,44 0,78 1,50 0,17 1,55 1,48 1,97 0,59 1,15 0,95 0,45 −0,51 2,36 1,03 0,24 2,66 1,00 0,19 2,28 0,01 0,31 −0,12 0,89 0,60 0,21 1,90 1,10 0,85 1,09 1,99 2,54 1,55 0,49 1,62 2,40 0,59 2,18 1,14 1,21 1,43 2,02 1,82 1,11 2,69 1,51 1,06 2,04 1,64 1,68 3,21 2,72 2,14 0,70 1,28 1,23 0,06 1,00 1,37 2,24 1,06 1,75 2,21 1,71 1,96 1,69 1,78 −0,67 2,29 1,26 1,12 −0,16 1,71 1,18 1,59 1,63 0,44 2,44 2,20 2,30 1,30 0,22 1,09 3,27 0,49 1,08 0,77 1,23 2,26 1,06 1,13 1,98 0,89 0,48 4,01 0,28 1,50 1,47 −1,72 −1,62 1,87 1,74 0,78 1,01 1,63 1,62 0,46 2,08 1,70 2,05 0,02 −0,05 1,85 1,50 0,49 1.3 Пусть имеется нормально распределенная случайная величина Х. Произведено N = 31 независимых наблюдений этой величины, результаты которых приведены в табл. 1.11. Таблица 1.11 6 55 53 69 58 47 56 58 59 62 61 67 67 61 58 54 0 6 60 61 61 59 54 57 56 48 61 43 57 63 65 62 5 Определить 90% -е доверительные интервалы для истинного среднего значения и истинной дисперсии случайной величины Х. Ответ: 90%-ные доверительные интервалы для среднего значения и дисперсии случайной величины Х составляют 2 56,85 < mх <60,37; 22,91 < σx < 54,22. 1.4 Предположим, что есть основания считать среднее значение mx случайной величины Х равным 10, и пусть известна дисперсия величины Х, σx = 4 . Определить, каков должен быть объем выборки для проверки гипотезы mx = 10 при 5%-м уровне значимости, причем вероятность допустить ошибку второго рода при определении 10% -го отклонения от гипотетической величины также должна составить 5%. Определить при этих условиях область принятия, которую следует использовать при проверке гипотезы. Ответ: искомый объем выборки N=52. Область принятия гипотезы 9,46 < mx < 10,54. 2 1.5 Проверка гипотезы о нормальности распределения. В табл.1.12 приведены N=200 независимых наблюденных значений, расположенных в порядке возрастания процесса на выходе генератора теплового шума. Таблица 1.12 − 7,6 − 4,3 − 3,0 − 2,1 − 1,5 − 0,7 0,0 0,7 1,5 2,3 3,4 4,3 6,3 − 6,9 − 4,1 − 3,0 − 2,1 − 1,4 − 0,7 0,1 0,8 1,5 2,4 3,5 4,3 6,5 − 6,6 − 4,0 − 2,9 − 2,0 − 1,4 − 0,6 0,1 0,9 1,6 2,4 3,5 4,4 6,9 − 6,4 − 3,8 − 2,9 − 2,0 − 1,2 − 0,6 0,2 0,9 1,6 2,5 3,6 4,4 7,1 − 6,4 − 3,8 − 2,9 − 1,9 − 1,2 − 0,5 0,2 1,0 1,6 2,5 3,6 4,6 7,2 − 6,1 − 3,8 − 2,7 − 1,9 − 1,2 − 0,5 0,2 1,0 1,7 2,6 3,6 4,8 7,4 − 6,0 − 3,7 − 2,6 − 1,8 − 1,1 − 0,4 0,2 1,1 1,8 2,6 3,7 4,8 7,9 − 5,7 − 3,6 − 2,6 − 1,8 − 1,1 − 0,4 0,3 1,1 1,8 2,6 3,7 4,9 9,0 − 5,6 − 3,5 − 2,5 − 1,8 − 1,0 − 0,4 0,3 1,1 1,8 2,7 3,7 5,0 − 5,5 − 3,4 − 2,5 − 1,7 − 1,0 − 0,3 0,3 1,1 1,9 2,8 3,7 5,2 − 5,1 − 3,4 − 2,4 − 1,7 − 1,0 − 0,3 0,4 1,2 1,9 2,8 3,8 5,3 − 4,8 − 3,4 − 2,3 − 1,6 − 0,9 − 0,2 0,4 1,2 2,0 2,9 3,8 5,4 − 4,8 − 3,3 − 2,3 − 1,6 − 0,9 − 0,2 0,5 1,3 2,0 3,1 3,9 5,6 − 4,6 − 3,2 − 2,3 − 1,6 − 0,8 − 0,2 0,5 1,3 2,1 3,2 4,0 5,9 − 4,4 − 3,2 − 2,2 − 1,6 − 0,8 − 0,1 0,6 1,3 2,3 3,2 4,2 6,1 − 4,4 − 3,1 − 2,2 − 1,5 − 0,7 0,0 0,6 1,4 2,3 3,3 4,2 6,3 Проверить гипотезу о нормальности процесса на выходе генератора теплового шума, применяя критерий согласия χ2 при уровне значимости α = 0,05. Использовать равновероятный подход к определению значения критерия χ2 (см. п.1.5), положив k = 16 разрядов. 2 2 Ответ: Значения χ набл. = 3,36, χ кр (0,05; 13) = 22,4 . Следовательно, гипотеза о нормальности распределения рассматриваемого процесса принимается при уровне значимости α=0,05. Пример выполнения работы. Статистическая совокупность приведена в табл.1.1. Табл. 1.1. Интервалы времени n=199 между поступлениями требований (мин.), отсортированные в порядке возрастания 0,01 0,05 0,08 0,12 0,21 0,26 0,36 0,45 0,53 0,69 0,95 0,02 0,05 0,09 0,12 0,21 0,26 0,37 0,45 0,53 0,69 0,97 0,02 0,05 0,09 0,13 0,21 0,26 0,37 0,46 0,53 0,70 1,00 0,03 0,06 0,10 0,13 0,21 0,26 0,38 0,47 0,54 0,72 1,05 0,03 0,06 0,10 0,14 0,21 0,26 0,38 0,47 0,54 0,72 1,05 0,03 0,06 0,10 0,14 0,22 0,27 0,38 0,47 0,55 0,72 1,17 0,04 0,06 0,10 0,14 0,22 0,28 0,38 0,48 0,55 0,74 1,18 0,04 0,07 0,10 0,14 0,22 0,28 0,38 0,49 0,56 0,75 1,24 0,04 0,07 0,10 0,15 0,23 0,29 0,38 0,49 0,57 0,76 1,24 0,04 0,07 0,10 0,15 0,23 0,29 0,38 0,49 0,57 0,77 0,04 0,07 0,10 0,15 0,23 0,30 0,39 0,49 0,60 0,79 0,04 0,07 0,10 0,15 0,23 0,31 0,40 0,50 0,61 0,84 0,05 0,05 0,05 0,05 0,05 0,05 0,05 0,07 0,07 0,07 0,07 0,08 0,08 0,08 0,11 0,11 0,11 0,11 0,11 0,12 0,12 0,15 0,17 0,18 0,19 0,19 0,19 0,20 0,23 0,24 0,25 0,25 0,25 0,25 0,25 0,31 0,32 0,35 0,35 0,35 0,36 0,36 0,40 0,41 0,41 0,43 0,43 0,43 0,44 0,50 0,50 0,51 0,51 0,51 0,52 0,52 0,61 0,63 0,63 0,64 0,65 0,65 0,65 0,86 0,87 0,88 0,88 0,90 0,93 0,93 Построим по данным наблюдений статистический ряд (табл. 1.2). Табл.1.2 Ii [0;0,1) mi 41 0,206 p ∗i Ii [0,6;0,7) mi 11 0,055 p ∗i Ii [1,2;1,3) mi 2 p ∗i 0,010 [0,1;0,2) 34 0,171 [0,7;0,8) 9 0,045 [0,2;0,3) 30 0,151 [0,8;0,9) 5 0,025 [0,3;0,4) 20 0,101 [0,9;1) 5 0,025 [0,4;0,5) 19 0,095 [1;1,1) 3 0,016 [0,5;0,6) 18 0,090 [1,1;12) 2 0,010 Здесь через Ii обозначены интервалы значений времени; mi – число наблюдений в данном интервале; p∗i = mi / n − соответствующие частоты. Определим функции итоговой статистики для статистической совокупности по временам Хi между поступлениями требований из примера 1.1. Итоговая статистика Значение Минимум 0,01 Максимум 1,24 Среднее 0,351 Медиана 0,260 Дисперсия 0,081144 Коэффициент вариации 0,813953 Асимметрия 1,000 Из этой таблицы следует, что среднее и среднеквадратическое отклонение примерно равны. Коэффициент вариации близок к единице, асимметрия положительная, т.е. распределение смещено вправо. Результаты итоговой статистики говорят в пользу экспоненциального распределения, как наиболее подходящего среди рассмотренных в разделе 2. Приведенный на рис.1.1 приближенный график статистической функции распределения, гистограммы и результаты итоговой статистики позволяют выдвинуть гипотезу о том, что данные распределения времени поступления требований в систему массового обслуживания распределены по экспоненциальному закону. Так как теоретическая кривая экспоненциального распределения зависит от одного параметра λ=1/М(Х), то подставив вместо математического ожидания М(Х) величину X(n) , получим оценку параметра λ̂ = 1/0,351 ≈ 2,849 . Тогда, вычислив значения функции f(x)=2,849e−2,849x на границах разрядов х 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 f(x) 2,85 2,14 1,61 1,21 0,91 0,69 0,52 0,39 0,29 0,22 0,17 , х 1,1 1,2 1,3 f(x) 0,12 0,09 0,07 построим график этой функции поверх гистограммы (рис.1.5). Рис.1.5 Из графика видно, что теоретическая кривая плотности распределения f(x), сохраняя в основном существенные особенности статистического распределения, свободна от случайных неправильностей хода гистограммы. Для сравнения ниже приведены результаты расчетов по программе «Statistica» (рис.1.8, 1.9). Результаты ручного счета и программы «Statistica» – для статистики Колмогорова - Смирнова совпадают. Расхождения по критерию «хи - квадрат» объясняются тем, что в программе «Statistica» при вычислении статистики χ2 разряды берутся другие, а именно (αi, αi+1] вместо [αi, αi+1) при ручном счете. Следовательно, в программе «Statistica» статистическая функция распределения Fn(x) непрерывна «справа», а не «слева», как мы допускали в п.1.2. Это важно, особенно в тех случаях, когда данные в статистической совокупности могут повторяться, как в рассматриваемом нами примере. Рис. 1.8 Рис. 1.9 Далее в качестве модели теоретического распределения для данных статистической совокупности из таблицы 1.1 вместо экспоненциального распределения рассмотрим гамма – распределение. Ниже на рисунках 1.10, 1.11, 1.12 приведены расчеты по программе «Statistica». Рис. 1.10 Рис. 1.11 Рис. 1.12 Выводы. Результаты расчета показывают, что данные статистической совокупности не противоречат и гипотезе о гамма – распределении с параметром формы α=3,87 и масштабным параметром β=1,36. При этом статистика критерия Колмогорова – Смирнова Dn=0,072 вместо 0,083 в предыдущем случае (что лучше, так как вероятность равна 0,26), а статистика критерия «хи – квадрат» − χ2=11,85 вместо 9,49 (что хуже, так как вероятность стала 0,158 вместо 0,394). Учитывая, что экспоненциальное распределение содержит один параметр, а гамма – распределение – два параметра, то для дальнейшего моделирования удобнее пользоваться экспоненциальным распределением. 3. ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ 1. Статистическая проверка гипотез. 2. Понятие статистической гипотезы; основная и конкурирующая, простая и сложные гипотезы. 3. Критерий значимости, односторонняя и двусторонняя критические области. 4. Ошибка 1-го и 2-го рода, понятие мощности критерия. 5. Процедуры проверки гипотез относительно математического ожидания и дисперсии. 6. Связь между доверительным интервалом и проверкой гипотез. 13 Задание на лабораторную работу №2 Выполнение многомерного регрессионного анализа в пакете STATISTICA Цель работы. Научиться проводить многомерный регрессионный анализ по статистическим данным. Содержание работы 1. Изучить модуль Multiple Regressions (Множественная регрессия). 2. Задание файла данных. 3. Коэффициент детерминации. 4. Коэффициент множественной регрессии. 5.F-критерий. 6. Расстояние Махаланобиса и Кука. 7.Анализ результатов. Содержание отчёта 1. Цель работы. 2. Файлы данных. 3.Анализ данных. 4. Расчеты в пакете Statistica. 5. Выводы. Варианты заданий Дана таблица с результатами измерения физических данных 25 людей (мужчин и женщин). pol Пол обследуемого(ж – женщина; м – мужчина) vozrast Возраст обследуемого, лет rost Рост обследуемого, см ves Вес обследуемого, кг Пример выполнения работы Рассмотрим пример построения регрессионной модели в пакете Statistica 6.0. Для этих целей обычно используется модуль Multiple Regressions (Множественная регрессия), который позволяет предсказать зависимую переменную по нескольким независимым переменным. В стартовом диалоговом окне этого модуля (рис.1) при помощи кнопки Variables указываются зависимая (dependent) и независимые(ая) (independent) переменные. В поле Input file указывается тип файла с данными: • Raw Data - данные в виде строчной таблицы; • Correlation Matrix - данные в виде корреляционной матрицы. Рис.1. Модуль Multiple Regression В поле MD deletion указывается способ исключения из обработки недостающих данных: • Casewise - игнорируется вся строка, в которой есть хотя бы одно пропущенное значение; • Mean Substitution - взамен пропущенных данных подставляются средние значения переменной; • Pairwise - попарное исключение данных с пропусками из тех переменных, корреляция которых вычисляется. Рассмотрим проведение регрессионного анализа на конкретном примере. Имеются результаты измерения физических данных 25 людей (мужчин и женщин). В файле данных (рис.2) 4 переменные: pol vozrast rost ves Пол обследуемого(ж – женщина; м – мужчина) Возраст обследуемого, лет Рост обследуемого, см Вес обследуемого, кг Рис. 2. Окно файла данных Так как в файле данных содержится информация о мужчинах и женщинах, а мы хотим провести исследования только для мужчин, то воспользовавшись кнопкой Select cases (рис. 1) можно в анализ включить только те случаи, для которых первая переменная (pol) равна "м". Рис. 3. Окно включения (исключения) данных в анализ На первом этапе исследований учтем, что при наличии одной зависимой переменной (rost) и двух независимых переменных (vozrast и rost) можно предложить различные модели линейной регрессии: № Вид зависимости Комментарии Модели одномерная 1 rost= 2 3 rost= rost= одномерная многомерная О качестве предложенной модели регрессии будем судить по величине коэффициента детерминации. Модель №1 описывает 69% данных, модель №2 только 41% данных, а третья модель 73% данных. Если в качестве критерия оптимизации выбрать простоту модели (одномерная) – выберем модель №1 или №2, но если добавить ещё один критерий – максимальный % описания данных, то из этих двух моделей выбираем модель №1. Теперь в качестве главного критерия оптимизации выбираем максимальный процент описания данных и сравниваем модели №1 и №3. Нужно сказать, что модель №3 – многомерная, а модель №1 – одномерная. Таким образом, на первом этапе можно сказать, что многомерная модель №3 более адекватна и лучше описывает исходные данные. Естественно предположить, что и предсказания по модели №3 будут более надежными (точными). Теперь более подробно рассмотрим последовательность действий создания модели и анализ полученных результатов. После выбора всех опций стартового диалогового окна регрессионного анализа и нажатия кнопки ОК появляется окно результатов регрессионного анализа Multiple Regressions Results (см. рис. 4). Детально проанализируем полученные результаты регрессионной модели. В верхней части окна приведены наиболее важные параметры полученной регрессионной модели: • Multiple R - коэффициент множественной корреляции, который характеризует тесноту линейной связи между зависимой и всеми независимыми переменными. Может принимать значения от 0 до 1. • - коэффициент детерминации. Численно выражает долю вариации зависимой переменной, объясненную с помощью регрессионного уравнения. Чем больше , тем большую долю вариации объясняют переменные, включенные в модель. • adjusted R - скорректированный коэффициент множественной корреляции. Включение новой переменной в регрессионное уравнение увеличивает не всегда, а только в том случае, когда частный F-критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение и adjusted R. Рис. 4. Результаты регрессионного анализа • F - F-критерий используется для проверки значимости регрессии. В данном случае в качестве нулевой гипотезы проверяется гипотеза: между зависимой и независимыми переменными нет линейной зависимости; • df - числа степеней свободы для F-критерия; • p - вероятность нулевой гипотезы для F-критерия; • Standard error of estimate - стандартная ошибка оценки (уравнения); Эта оценка является мерой рассеяния наблюденных значений относительно регрессионной прямой; • Intercept – оценка свободного члена уравнения; • Std.Error - стандартная ошибка оценки свободного члена уравнения; • t - t-критерий для оценки свободного члена уравнения; • p - вероятность нулевой гипотезы для свободного члена уравнения. • Beta - β-коэффициенты уравнения. Это стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. По их величине можно оценить значимость зависимых переменных. Коэффициент показывает, на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной, при условии постоянства остальных независимых переменных. Свободный член в таком уравнении равен 0. Нажатие кнопки - в окне результатов (см рис. 4) позволяет получить основные результаты регрессионной модели (рис. 5), часть из которых уже была описана: В - коэффициенты уравнения регрессии; St. Err. of B стандартные ошибки коэффициентов уравнения регрессии; t (11) - t-критерий для коэффициентов уравнения регрессии; р-level - вероятность нулевой гипотезы для коэффициентов уравнения регрессии. Рис. 5. Параметры уравнения регрессии В результате проведенного анализа было получено следующее уравнение: rost = 150,4397 + 0,605*vozrast + 0,2081*ves. Это уравнение объясняет 73,3% ( ) вариации зависимой переменной. Полученные результаты свидетельствуют о том что коэффициент при переменной ves незначимо отличается от нуля, однако включение этой переменной в регрессионную модель увеличивает на 4 % процент исходных данных, корректно описанных регрессионным уравнением. Проверка качества уравнения регрессии осуществлялась с помощью статистики . По статистическим таблицам Фишера – Снедекора с данными степенями свободы гипотезу (линейная зависимость отсутствует) можно принять с вероятностью ; при уровне значимости α = 0.05 принимаем альтернативную гипотезу – линейная зависимость значима. Одновременно проверялась статистическая значимость коэффициентов множественной регрессии (критерий Стьюдента). Видно (см. рис. 5), что коэффициенты и значимо отличаются от нуля, коэффициент незначимо отличается от нуля. Для расчета по полученному регрессионному уравнению значений зависимой переменной по значениям независимых переменных воспользуемся кнопкой (раздел Residuals/assumptions/prediction) (рис.6). Зададим значения возраста (vozrast = 23) и веса (ves = 65). Учтем, что в пакете Statistica приводится как точечная, так и интервальная оценка (рис. 7). Рис. 6. Окно задание значений независимых переменных Рис. 7. Предсказанные точечные и интервальные значения О полученных результатах можно сказать следующее: rost = 177,8851 – это точечная оценка. 95% доверительный интервал равен (171.4; 184,4). При нажатии на кнопку можно оценить величины остатков и специальных критериев (см. рис. 8). В таблицу включены все случаи (м), приведены исходные данные (Observed), данные модели (Predicted) и остатки (Residual). Остатки – это разность исходных и предсказанных данных. Рис. 8. Таблица остатков Выводы Для выделения имеющихся в регрессионных остатках выбросов предложен ряд дополнительных показателей: • Расстояние Кука (Cook's Distance) - принимает только положительное значение и показывает расстояние между коэффициентами уравнения регрессии после исключения из обработки i-ой точки данных. Большое значение показателя Кука указывает на сильно влияющий случай (выброс). В нашем случае Case № 5, 16 и 20 смещают оценки коэффициентов регрессии. • Расстояние Махаланобиса (Mahalns. Distance) - показывает насколько каждый случай или точка в р-мерном пространстве независимых переменных отклоняется от центра статистической совокупности. Кнопка (раздел Advanced) предназначена для поиска выбросов. Выбросы – это остатки, которые значительно превосходят по абсолютной величине остальные. Выбросы показывают опытные данные, которые являются не типичными по отношению к остальным данным, и требует выяснения причин их возникновения. Выбросы должны исключаться из обработки, если они вызваны ошибками регистрации, измерения и т.п. 4. ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ 1. Дайте определение функциональному, статистическому и корреляционному типам связи. 2. Назовите основные условия применения корреляционно-регрессионного метода анализа статистических связей. 3. Для решения каких типов задач используется корреляционнорегрессионный метод? 4. Приведите примеры различных видов уравнений парной и множественной регрессии. 5. Дайте определение парному и множественному линейным коэффициентам корреляции. 6. Как оценивается значимость коэффициента корреляции? 14 Задание на лабораторную работу №3 Многомерные распределения. Множественный регрессионный анализ Цель работы. Научиться оценить параметры уравнения множественной регрессии по статистическим данным и пояснить их экономический смысл. Содержание работы 1. Получить дискриптивные статистики по каждому признаку. Оценить показатели вариации каждого признака и сделать вывод о возможностях применения метода наименьших квадратов для их изучения. 2. Составить уравнение множественной регрессии, оценить его параметры, пояснить их экономический смысл. 3. Рассчитать частные коэффициенты эластичности и дать на их основе сравнительную оценку силы влияния факторов на результат. 4. Проанализировать линейные коэффициенты парной и частной корреляции. 5. Оценить значения скорректированного и нескорректированного линейных коэффициентов множественной корреляции. 6. С помощью F-критерия Фишера оценить статистическую надежность уравнения регрессии в целом. Содержание отчёта 1. Цель работы. 2. Создание файла данных. 3.Анализ данных. 4. Расчеты в пакете Statistica. 5. Выводы. Варианты заданий По 20 предприятиям отрасли изучается зависимость выработки продукции на одного работника (y), тыс. руб. («ВЫРАБОТКА») от ввода в действие новых основных фондов в % от стоимости фондов на конец года (x1) («ФОНДЫ») и от удельного веса рабочих высокой квалификации в общей численности рабочих (x2), % - («РАБОЧИЕ»). Данные записаны в файле пакета STATISTICA и представлены на рис.4. Рис. 4. Исходный файл с данными (Primer1.sta) Пример выполнения работы. 1. Для получения дискриптивных статистик необходимо в Переключа- теле модулей (см. рис.2), появившемся после запуска пакета STATISTICA, выбрать команду Basic Statistics/Tables, при этом на экране появится стартовая панель модуля Основные статистики и таблицы, в которой следует выбрать команду Descriptive statistics. Статистическую обработку данных следует предварить открытием уже существующего файла с данными через команду Open Data (рис. 5) или ввести данные в компьютер через команду File/ New Data (рис. 4). Рис. 5. Стартовая панель модуля ОСНОВНЫЕ СТАТИСТИКИ И ТАБЛИЦЫ После выбора команды OK на экране появятся дискриптивные статистики (рис.6), анализ которых следует начать с определения показателей вариации. Рис.6. Результаты работы модуля ДИСКРИПТИВНЫЕ СТАТИСТИКИ Сравнивая значения средних величин (графа Mean, рис. 6), средних квадратических отклонений (графа Standard deviation, рис. 6), определяя коэффициент вариации (Vy = 25,6 %, Vx1 =31,3 %, Vx1 =30,6 %), приходим к выводу о повышенном уровне варьирования признаков, хотя и в допустимых пределах, не превышающих 35%. Значения коэффициентов асимметрии (графа Skewness, рис. 6), эксцесса (графа Kurtosis, рис. 6) не превышают двухкратных среднеквадратических ошибок (графы Standard error of skewness, Standard error of kurtosis, рис. 6). Это указывает на отсутствие значимой скошенности и остро-(плоско) вершинности фактического распределения предприятий по значениям каждого признака по сравнению с их нормальным распределением. Совокупность предприятий однородна, и для ее изучения могут использоваться метод наименьших квадратов и вероятностные методы оценки статистических гипотез. 2. Для построения уравнения множественной регрессии необходимо в ПЕРЕКЛЮЧАТЕЛЕ МОДУЛЕЙ (рис.1) выбрать команду Multiple Regression. При этом на экране появится стартовая панель модуля МНОЖЕСТВЕННАЯ РЕГРЕССИЯ (рис.7). Рис.7. Стартовая панель модуля МНОЖЕСТВЕННАЯ РЕГРЕССИЯ После выбора команды Variable (рис.7) следует указать зависимую (ВЫРАБОТКА) и независимые переменные (ФОНДЫ, РАБОЧИЕ). Выбрав команду OK, получаем результаты работы модуля МНОЖЕСТВЕННАЯ РЕГРЕССИЯ (рис.8-9), на основе которых студент строит уравнение ли- нейной множественной регрессии. Свободный член и коэффициенты рег- рессии представлены в графе B (рис.8): а0 = 1,835; a1= 0,946; a2= 0,086. При этом уравнение множественной регрессии примет вид: у =1,835 +0,946 x1+0,086x2. Рис. 8. Результаты построения линейной регрессионной модели Для оценки значимости полученных коэффициентов регрессионного уравнения воспользуемся t-критерием Стьюдента (графа t(17), рис. 8). В пакете STATISTICA значения t-критерия (tр) определяются как отношение взятого по модулю коэффициента регрессии (графа B, рис. 8) к его стандартной ошибке (графа St. Err. of B, рис. 8). Табличное значение t- критерия с уровнем значимости α=0,01 и числом степеней свободы d.f.=n- m-1=17: tт =2,89 (прил.2). Сравним значения tр и tт для каждого из полученных параметров: - tр =3,89> tт - для свободного члена а0; - tр =4,44> tт - для коэффициента а1; - tр =1,41< tт - для коэффициента а2. Таким образом, статистически значимыми являются коэффициенты а0, а1, а коэффициент а2 сформирован под влиянием случайных причин. Поэтому фактор x2 можно исключить из модели как неинформативный. Аналогичный вывод можно сделать, сравнивая значения уровня значимости (графа p-level, рис. 8) c принятым нами уровнем α=0,01. Для а0 и а1 показатель вероятности случайных значений параметров регрессии меньше 1% (0,01•100%). Поэтому справедлив вывод о том, что полученные коэффициенты статистически значимы и надежны. Для а2 делается вывод о случайной природе его значения, поскольку α=0,175•100%=17,5%>1%. Это позволяет рассматривать x2 как неинформативный фактор. Его можно удалить из уравнения для улучшения модели. Свободный член а0 оценивает агрегированное влияние прочих (кроме учтенных в модели x1 и x2) факторов на результат у. Коэффициенты а1 и а2 указывают на то, что с увеличением x1 и x2 на единицу их значений у увеличивается соответственно на 0,9459 тыс.руб. и на 0,0856 тыс.руб. Сравни- вать эти значения не следует, так как они зависят от единиц измерения ка- ждого признака и потому несопоставимы между собой. Для сравнения можно воспользоваться сравнимыми относительными показателями - β- коэффициентами (графа BETA, рис. 8). 3. Для определения частных коэффициентов эластичности в соответствии с (2.6) воспользуемся коэффициентами регрессионного уравнения а1 и а2 и значениями средних величин результативного и факторных признаков (графа Mean, рис.6). Ex1 = 0,61%, Ex2= 0,19%. Полученные коэффициенты показывают, что с увеличением коэффициента обновления основных фондов (x1) на 1% от его среднего уровня выработка продукции на одного работника (y) увеличится на 0,61%, от своего среднего уровня. Аналогично с увеличением доли рабочих высокой квалификации в общей численности рабочих (x2) на 1% от ее среднего уровня выработка продукции на одного работника (y) увеличится на 0,19%, от своего среднего уровня. По значениям частных коэффициентов эластичности можно сделать вывод о более сильном влиянии на результат фактора x1 по сравнению с фактором x2. 4. Оценить тесноту парных зависимостей включенных в модель факторов можно через матрицу парных коэффициентов корреляции, а тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии, можно через матрицу линейных коэффициентов частной корреляции. Для построения этих матриц в модуле МНОЖЕСТВЕННАЯ РЕГРЕССИЯ (рис.9) следует последовательно выбрать команды Correlations and desc.stats (для построения матрицы парных коэффициентов корреляции), Partial correlations (для построения матрицы линейных коэффициентов частной корреляции). Рис.9. Результаты построения линейной регрессионной модели Рис. 10. Результаты построения корреляционных матриц Полученные значения парных коэффициентов корреляции говорят о тесной связи выработки продукции на одного работника (y) как с коэффициентом обновления основных фондов (x1) - r yx1= 0,97, так и с долей рабочих высокой квалификации в общей численности рабочих (x2) - r yx2 = 0,94. При этом следует учитывать тесную межфакторную связь x1 с x2 (r x1x2 =0,94), примерно равную связи y с x2. Поэтому для улучшения модели фактор x2 можно исключить как недостаточно статистически надежный. Коэффициенты частной корреляции дают более точную характеристику тесноты зависимости двух признаков, чем коэффициенты парной корреляции, так как «очищают» парную зависимость от взаимодействия данной пары признаков с другими признаками, представленными в модели. Наиболее тесно показатель выработки продукции на одного работника (y) связан с коэффициентом обновления основных фондов (x1) - r yx1/ x2= 0,73 - по сравнению со связью y с долей рабочих высокой квалификации в общей численности рабочих (x2) - r yx2/ x1 = 0,32. Этот факт также говорит в пользу исключения фактора x2 из модели. 5. Коэффициенты линейной множественной корреляции (детерминации) представлены на рис. 8-9. Коэффициент множественной корреляции R yx1x2 = 0,973 свидетельствует о тесной связи факторных признаков с результативным. Нескорректированный коэффициент множественной детерминации R2 yx1x2 = 0,947 оценивает долю вариации результата за счет представленных в равнении факторов в общей вариации результата. Он указывает на высокую степень обусловленности вариации результата вариацией факторных признаков. Скорректированный коэффициент множественной детерминации R2 yx1x2 = 0,941 оценивает тесноту связи с учетом степеней свободы (см. п.2.2), что позволяет его использовать для оценки тесноты связи в моделях с разным числом факторов. Значения кэффициентов множественной детерминации позволяют сделать вывод о высокой (более 90%) детерминированности результативного признака y в модели факторными признаками x1 и x2. 6. Оценим статистическую надежность полученного уравнения множественной регрессии с помощью общего F-критерия, который проверяет нулевую гипотезу о статистической незначимости параметров построенного регрессионного уравнения и показателя тесноты связи (H0: a0= a1=a2=0, R yx1x2=0). Фактическое значение F-критерия Фишера - Fр=151,7 (см. рис. 8-9). Сравним его с табличным значением F-критерия, определяемым с использованием таблицы приложения 1 по заданным уровню значимости (α=0,05) и числу степеней свободы (в пакете STATISTICA d.f.1 = m =2 и d.f.2 = n-m-1= 17). Fт= 3,59. Поскольку Fр > Fт, то гипотеза H0 отвергается. Так как вероятность случайного значения Fр значительно меньше 5% (p<0,000001, см. рис. 8-9), то с вероятностью более 95% принимается альтернативная гипотеза. Таким образом, признается статистическая значимость регрессионного уравнения, его параметров и показателя тесноты связи R yx1x2. 3.3. Порядок выполнения лабораторной работы 1. Ввод исходных данных. Получив индивидуальное задание, студент создает файл с именем *.sta и заносит в него данные. Файл следует сохранить в указанном преподавателем каталоге. 2. Дикриптивно-статистический анализ данных. На данном этапе выполнения работы определяются значения средних величин, средних квад-ратических отклонений, значения коэффициентов асимметрии, эксцесса и их среднеквадратических ошибок по результативному и факторным признакам. Студенту следует оценить показатели вариации каждого признака и сделать вывод о возможностях применения метода наименьших квадратов для их изучения, а если необходимо, то исключить резко отклоняю- щиеся единицы совокупности. 3. Построение уравнения множественной регрессии. На этом этапе определяются коэффициенты множественной регрессии, составляется регрессионное уравнение, оцениваются его параметры. 4. Определение частных коэффициентов эластичности. Студент самостоятельно рассчитывает частные коэффициенты эластичности и дает на их основе сравнительную оценку силы влияния факторов на результат. 5. Анализ линейных коэффициентов парной и частной корреляции. Данный этап предусматривает построение матриц коэффициентов парной и частной корреляции и оценку целесообразности включения факторных признаков в модель. 6. Оценка коэффициентов множественной корреляции (детерминации). 7. Оценка статистической надежности полученного уравнения регрессии. 8. Оформление отчета. Титульный лист отчета должен содержать на- звание работы, цель работы, фамилию, инициалы, курс и группу студента, выполнившего индивидуальное задание. В отчете следует отразить основные этапы выполненного задания, полученные результаты и сделать выводы по каждому этапу. Для этой цели можно использовать распечатки отчета, полученного средствами пакета STATISTICA (файл с расширением*.rtf), включая его широкие графические возможности. 9. Защита индивидуального задания. Защита индивидуального задания преследует цель оценить знания студента по вопросам построения регрессионных моделей с помощью СПП STATISTICA и интерпретации результатов корреляционно-регрессионного анализа данных. При подготовке к защите индивидуального задания студенту следует ответить на представленные в п.4 вопросы. 4. Вопросы для самопроверки 1. Чем характеризуются функционально связанные между собой факторы? 2. Что характеризуют параметры регрессионного уравнения? Объясните сущность коэффициента парной линейной регрессии. 3. В чем заключается метод наименьших квадратов? Каковы основные условия его применения? 4. Как оценивается значимость параметров регрессионного уравнения? 5. Дайте определение частному коэффициенту эластичности. Что он характеризует? 6. Дайте определение стандартизованному коэффициенту регрессии. Что он характеризует? 7. Что позволяет оценить множественный коэффициент детерминации? 8. Для чего используется корректированный множественный коэффициент детерминации? 9. Как оценить статистическую надежность регрессионного уравнения в целом? Задание на лабораторную работу № 4 Реализация дисперсионного анализа в пакете «Statistica» Цель работы. Научиться оценить параметры уравнения множественной регрессии по статистическим данным и пояснить их экономический смысл. Содержание работы 1. Установление зависимости от одного фактора. 2. Представление данных для однофакторного дисперсионного анализа. 3. Сравнении величин дисперсий. 4. Проверка статистических гипотез. 5. Зависимые переменные и переменная-фактор. 6. F-критерий Фишера. 7. Итоговый отчет о результатах дисперсионного анализа в пакете «Statistica». Содержание отчёта 1. Цель работы. 2. Создание файла данных. 3.Анализ данных. 4. Расчеты в пакете Statistica. 5. Выводы. Варианты заданий Рассматривается задача о проверки гипотезы о наличии сезонной волны в объемах продаж. Данные об объемах продаж приведены в табл.2.4. Таблица 2.4 В качестве фактора в рассматриваемой задаче выступает сезонность. Естественно зафиксировать четыре уровня фактора: зима, весна, лето, осень. Теоретические сведения Рассмотрим сначала проблему установления зависимости от одного фактора. Такие задачи весьма часто встречаются на практике. Типичный пример – сравнение эффективности нескольких различных способов действия, направленных на достижение одной цели (например, оценка эффективности работы компании при взаимодействии с различными поставщиками, результативности обучения на основании различных методик, успеха продвижения товара при использовании различных маркетинговых подходов). В пакетах прикладных программ часто конкретную реализацию фактора называют уровнем фактора или способом обработки, а значения измеряемого признака (то есть величину результата) – откликом. Для сравнения влияния фактора на результат необходим определенный статистический материал. Обычно его получают следующим образом: каждый из k способов обработки применяют несколько раз (не обязательно одно и то же число раз) к исследуемому объекту и регистрируют результаты. Итогом подобных испытаний будет k выборок, вообще говоря, разных объемов. Таким образом, исходные данные представляют собой числовой массив (объема n) наблюдений случайной величины, зафиксированных при различных уровнях (k уровней фактора, k < n) внешнего фактора. При этом предполагается, что наблюдаемая величина распределена по нормальному закону. На первом уровне фактора n1 наблюдений: x11, x12,…,x1n; на втором уровне фактора n2 наблюдений 1 x21, x22,…,x2n; и т.д., на k-ом уровне фактора nk: xk1, xk2,…,xk,nk. Наиболее удобным способом представления таких данных является таблица 2.1. Таблица 2.1 Исходные данные для однофакторного дисперсионного анализа Уровень фактора Значения выборки Объем выборки 1 x1,1 , x1, 2 , … x1,n1 n1 2 x2,1 , x2, 2 , … x2,n2 n2 M M M k xk ,1 , xk , 2 , … xk ,nk nk Требуется при заданной надежности определить, влияет рассмотренный внешний фактор на характер поведения наблюдаемой случайной величины или нет. При этом общая модель однофакторного дисперсионного анализа имеет вид: (2.1) xi,j = x + αi + βi,j , где x – генеральная средняя (среднее арифметическое из всех наблюдаемых значений случайной величины вне зависимости от принадлежности к какой-либо группе уровня фактора); αi – числовая характеристика степени влияния фактора на его i-м уровне; βi,j – случайная величина не подверженная влиянию фактора. Предполагается, что βi,j распределена по нормальному закону и имеет нулевое математическое ожидание (βi,j ~ N(0,σ), где σ – среднее квадратическое отклонение βi,j). Дисперсионный анализ является результатом применения общего статистического метода проверки гипотез к сформулированной задаче. При этом в качестве гипотез рассматриваются следующие предположения: H0 – фактор не оказывает существенного влияния на конечный результат (основная гипотеза); H1 – фактор значимо влияет на конечный результат (конкурирующая гипотеза). Гипотеза H0 эквивалентна предположению о том, что все αi в (2.1) равны нулю. Алгоритм реализации Идея метода основана на сравнении величин дисперсий, порожденных влиянием внешнего фактора DA (систематическая, или межгрупповая дисперсия) и дисперсии выборки, освобож- денной от воздействия внешнего фактора DR (остаточная, или внутригрупповая дисперсия). Систематическая дисперсия определяется как дисперсия между средними каждой из k групп, соответствующих различным уровням фактора. Эта дисперсия характеризует степень разброса усредненных по группам значений, ее величина зависит лишь от степени влияния фактора на изменение случайной величины. Остаточная дисперсия определяется как совокупная внутри- групповая дисперсия, причем в каждой группе наблюдаемые значения варьируются относи- тельно своей групповой средней. Исчисление этой дисперсии исключает влияние рассматриваемого фактора, ее величина определяется лишь погрешностью измерений и влиянием других, неучтенных факторов. Если систематическая дисперсия соизмерима с остаточной, то и влияние фактора нельзя признать значимым, ибо объясняемое им разнообразие поведения случайной величины соизме- римо с разнообразием, порожденным неточностью измерений. Другое дело, если объясненная наличием фактора часть дисперсии существенно больше, чем ее часть, порожденная случайными помехами. Решение о значимости воздействия внешнего фактора принимается на основании сравнения наблюдаемого и теоретического значений F-статистики Фишера – Снедекора. Реализация алгоритма дисперсионного анализа связана с вычислением средних значений и вариаций как по каждой из групп: xj = ni 1 ni x Q = ∑ ji и j ∑ ( x ji − x j ) 2 , j=1,2,…, k n j i =1 i =1 так и по всей генеральной совокупности наблюдений: x = ni k 1 k ni x ∑ ∑ ji и Q = ∑ ∑ ( x ji − x ) 2 . n j =1 i =1 j =1 i =1 Следует отметить, что средняя из групповых средних обычно не совпадает с генеральной средней за исключением случая, когда совпадают объемы всех групп: n1 = n2 = … = nk. Сумма всех Qj называется остаточной (или внутригрупповой) вариацией ni k k j =1 j =1 i =1 Q R = ∑ Q j = ∑ ∑ ( x ji − x j ) 2 . (2.2) Эта величина освобождена от влияния фактора, ибо варьируются здесь элементы каждой из групп вокруг групповой средней. Именно групповая средняя берет на себя всю степень воз действия фактора на случайную величину на каждом его уровне. Подстановкой (2.1) в (2.2.) легко убедиться, что 2 k ni QR = ∑ ∑ β j . 2 j =1 i =1 В отличие от остаточной, величина межгрупповой вариации, определяемой равенством k QA = ∑ n j ( x j − x )2 , j =1 (2.3) напрямую зависит от степени влияния фактора на случайную величину. Действительно, систематическая вариация получается варьированием групповых средних относительно генеральной. Дальнейший анализ базируется на основном тождестве дисперсионного анализа k k ni 2 Q = Q A + QR = ∑ n j ( x j − x ) + ∑ ∑ ( x ji − x j ) . j =1 2 j =1 i =1 Внося результаты вычислений в табл. 2.2, являющуюся расширенным вариантом таблицы данных (табл. 2.1), получим: Таблица 22 Сумма всех, за исключением нижнего, элементов последнего справа столбца определит остаточную вариацию Q. Систематическая вариация может быть получена также на основании (2.2.3): QA = Q – QR. Известно, что для выборки из значений нормально распределенной случайной величины, сумма квадратов ni Q j = ∑ ( x ji − x j ) 2 i =1 может быть представлена в виде произведения σj χ2, где случайная величина χ2 имеет распределение Пирсона с ni -1 степенями свободы. Поскольку данные в разных строках второго столбца таблицы 2.2 получены в результате независимых испытаний, объединенная сумма квадратов имеет распределение χ2 с N-k степенями свободы. Отсюда получаем оценку остаточной дисперсии: Согласно предельным теоремам, групповые средние распределены по нормальному закону . Величина распределена по закону χ2 с k-1 степенями свободы. При этом QA и QR являются независимыми. В случае значительного превышения значения QA над значением QR следует признать, что рассматриваемый фактор оказывает влияние на исследуемую случайную величину. В противном случае – признать фактор несущественным для дальнейшего рассмотрения. Таким образом, задача дисперсионного анализа формализуется как стандартная задача проверки гипотез. Основная гипотеза H0 – рассматриваемый фактор не оказывает существенного влияния на изменение случайной величины (по существу, гипотеза об отсутствии статистической разницы между групповыми средними). Руководствуясь субъективными соображениями, задаем уровень значимости α. В качестве статистики метода выбирается частное от деления систематической дисперсии на остаточную: . (2.4) Известно, что если гипотеза H0 верна, то эта статистика имеет распределение Фишера –Снедекора с (k – 1, N – k) степенями свободы. На основании (2.4) и имеющейся выборки определяем наблюдаемое значение статистики Fнабл. (подставляя данные табл. 2.1 в (2.2)). По таблицам распределения Фишера – Снедекора находим критическое значение статистики (таблица критических значений F-статистики при α = 0,10 приведена в Приложении 2) при заданном уровне значимости α и полученных степенях свободы Fкр. = F1–α(N – k, k – 1). Если Fнабл. < Fкр., гипотеза принимается (фактор не оказывает статистически значимого влияния на изменение случайной величины). В противном случае (Fнабл. > Fкр.) следует признать значимость влияния фактора на изменение наблюдаемой случайной величины. Особенности применения однофакторного дисперсионного анализа в пакете «Statistica» рассмотрим на задаче о проверки гипотезы о наличии сезонной волны в объемах продаж. Данные об объемах продаж приведены в табл.2.4. Таблица 2.4 Пример выполнения работы В качестве фактора в рассматриваемой задаче выступает сезонность. Естественно зафиксировать четыре уровня фактора: зима, весна, лето, осень. В таком случае исходные данные можно представить в виде следующей таблицы (табл. 2.5). Таблица 2.5 Для ввода исходных данных требуется сформировать две переменные, одна из них отображает помесячные продажи конкретного товара (назовем ее «Sales»), вторая характеризует сезонность («Season») (рис. 1). Рис. 1. Данные для однофакторного анализа в пакете «Statistica» Следует отметить, что все рассматриваемые здесь пакеты допускают непосредственное экспортирование данных из электронных таблиц «Excel». Для инициации процедуры однофакторного дисперсионного анализа в меню процедур Basic Statistics and Tables нужно выбрать пункт ANOVA (от англ. «analysis of variance» – диспер- сионный анализ). В появившемся окне (рис. 2) необходимо задать тип анализа (Type of analyses), выбрав One-way ANOVA (однофакторный дисперсионный анализ), а в качестве метода спецификации (Specification method) выбрать Quick specs dialog (быстрый анализ). Рис. 2. Окно параметров дисперсионного анализа в пакете «Statistica» В следующем окне (рис. 3), которое появится после нажатия на кнопку Variances (пе- ременные) в меню дисперсионного анализа, будет предложено определить значения исходных данных, то есть выбрать зависимую переменную и переменную-фактор. В нашем примере ими будут соответственно «Sales» и «Season». Рис. 3. Меню выбора переменных в пакете «Statistica» Для получения результатов остается только нажать на OK и в появившемся окне – на кнопку All effects. В качестве результата в окно выводится таблица, по своей структуре аналогичная таблице дисперсионного анализа пакета «Stadia» (см. рис. 3). Рис. 4. Итоговый отчет о результатах дисперсионного анализа в пакете «Statistica» Выводы Результаты, приведенные в строке «Season», относятся к данным, характеризующим влияние фактора (систематические характеристики), а в строке «Error» – к неучтенным воздействиям (остаточные характеристики). В итоговой таблице использованы следующие обозначения: SS – сумма квадратов, здесь приведены величины вариаций (SS, Season обусловливается межгрупповой изменчивостью, SS, Error – внутригрупповой изменчивостью); Degr. of Freedom – количество степеней свободы; MS – средний квадрат, здесь приведены соответствующие дисперсии; F – наблюдаемое в рассматриваемой задаче значение F- статистики; p – минимальный уровень значимости указанной F-статистики. Задание на лабораторную работу №5 Моделирование непрерывных случайных величин. Генерирование и анализ временных рядов Цель работы Научиться моделировать случайные величины, распределенные по различным законам 1. Сгенерировать временной ряд с заданным законом распределения с объёмом выборки, равным N=500 (количество реализации для каждого модельного эксперимента равно 29). 2. Проверить качество генерирования, воспользовавшись для определения параметров аналитического выражения законов распределения методом моментов. 3. Определить погрешности оценки параметров модели. 4. Пункты 1−3 повторить для объёмов выборки N=1000, 2000, 5000. Содержание отчёта 1. Цель работы. 2. Метод и алгоритм моделирования некоррелированных временных рядов для заданного закона распределения. 3. Обратная функция закона распределения вероятностей. 4. Пример реализации некоррелированного временного ряда. 5. Примеры гистограмм для различного объёма выборки − N=500, 1000, 2000, 5000, М=20. 6. Значения параметров, определенные по методу моментов, и модуль относительной погрешности оценки параметров закона распределения для N=500, 1000, 2000. 5000, представленные в табличной форме (количество реализации для каждого модельного эксперимента равно 29). Для определения параметра закона распределения и вычисления погрешности оценки параметра можно воспользоваться пакетом Excel. 7. Графическая зависимость максимальной по модулю относительной погрешности оценки параметров закона распределения от объёма выборки − N=500, 1000, 2000, 5000. Для построения графических зависимостей можно воспользоваться пакетом Excel. 8. Выводы по работе. Пример выполнения лабораторной работы для экспоненциального закона распределения приведен ниже (пункты 4−7 отчёта). Рис. 5 − Генерирование ПСП с экспоненциальным законом распределения методом инверсного преобразования Рис. 6 − Пример генерирования ПСП с экспоненциальным законом распределения Рис. 7 − Пример генерирования ПСП с экспоненциальным законом распределения Табл. 2 − Значения параметров, определенные по методу моментов, и относительные погрешности оценки параметров закона распределения N=500 N=1000 ) ) ) ) ) ) ) ) λ − λ λ α1 α1 λ = 1 / α1 δ = − λ № № λ = 1 / α1 δ= λ λ 1 0,97723 1,023301 0,023301 1 0,94009 1,063728 0,063728 2 0,96093 1,040659 0,040659 2 0,99149 1,008583 0,008583 3 0,94707 1,055888 0,055888 3 1,01004 0,99006 -0,00994 4 1,0122 0,987947 -0,01205 4 0,98566 1,014549 0,014549 5 1,01325 0,986923 -0,01308 5 1,02001 0,980383 -0,01962 6 1,06513 0,938853 -0,06115 6 0,92825 1,077296 0,077296 7 1,04756 0,954599 -0,0454 7 1,02934 0,971496 -0,0285 8 0,98242 1,017895 0,017895 8 1,0109 0,989218 -0,01078 9 1,01613 0,984126 -0,01587 9 0,99031 1,009785 0,009785 10 0,90731 1,102159 0,102159 10 1,0059 0,994135 -0,00587 11 1,05346 0,949253 -0,05075 11 0,94411 1,059199 0,059199 12 0,97002 1,030907 0,030907 12 0,99562 1,004399 0,004399 13 0,92659 1,079226 0,079226 13 0,9987 1,001302 0,001302 14 0,94311 1,060322 0,060322 14 0,9672 1,033912 0,033912 15 0,91677 1,090786 0,090786 15 1,1127 0,898715 -0,10129 16 0,91441 1,093601 0,093601 16 0,98334 1,016942 0,016942 17 0,97835 1,022129 0,022129 17 1,01539 0,984843 -0,01516 18 0,98175 1,018589 0,018589 18 1,04018 0,961372 -0,03863 19 0,97255 1,028225 0,028225 19 0,98262 1,017687 0,017687 20 1,05078 0,951674 -0,04833 20 1,0151 0,985125 -0,01488 21 1,0076 0,992457 -0,00754 21 0,99286 1,007191 0,007191 22 0,95833 1,043482 0,043482 22 0,925 1,081081 0,081081 23 1,03565 0,965577 -0,03442 23 1,02148 0,978972 -0,02103 24 0,87468 1,143275 0,143275 24 0,97933 1,021106 0,021106 25 1,06397 0,939876 -0,06012 25 0,99113 1,008949 0,008949 26 0,95993 1,041743 0,041743 26 1,00296 0,997049 -0,00295 27 0,96412 1,037215 0,037215 27 1,00701 0,993039 -0,00696 28 1,04051 0,961067 -0,03893 28 1,01401 0,986184 -0,01382 29 0,99359 1,006451 0,006451 29 0,99266 1,007394 0,007394 N=2000 N=5000 ) ) ) ) ) ) ) ) λ − λ λ α1 α1 λ = 1 / α1 δ = − λ № № λ = 1 / α1 δ= λ λ 1 1,00292 0,997089 -0,00291 1 1,02181 0,978656 -0,02134 2 0,99638 1,003633 0,003633 2 0,98327 1,017015 0,017015 3 1,00708 0,99297 -0,00703 3 0,99148 1,008593 0,008593 4 0,98824 1,0119 0,0119 4 0,98502 1,015208 0,015208 5 1,02102 0,979413 -0,02059 5 1,02117 0,979269 -0,02073 6 0,99564 1,004379 0,004379 6 1,00947 0,990619 -0,00938 ( ) ( ) ( ) ( ) 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 0,96806 0,98639 1,02966 0,99591 0,99639 1,02298 0,99853 0,99237 0,99152 1,02363 1,00942 1,00899 0,98241 0,98853 0,9678 1,00999 0,98163 0,95262 0,9806 1,02819 1,01243 0,99446 0,97052 1,032994 1,013798 0,971194 1,004107 1,003623 0,977536 1,001472 1,007689 1,008553 0,976915 0,990668 0,99109 1,017905 1,011603 1,033271 0,990109 1,018714 1,049737 1,019784 0,972583 0,987723 1,005571 1,030375 0,032994 0,013798 -0,02881 0,004107 0,003623 -0,02246 0,001472 0,007689 0,008553 -0,02308 -0,00933 -0,00891 0,017905 0,011603 0,033271 -0,00989 0,018714 0,049737 0,019784 -0,02742 -0,01228 0,005571 0,030375 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 1,00089 1,01286 0,98589 0,98445 0,99633 0,99761 0,99352 1,00774 1,00557 1,01113 0,99911 1,00916 0,99684 1,01254 1,00414 0,99648 1,01124 1,00915 1,00342 0,98785 0,98125 0,99468 1,02684 0,999111 0,987303 1,014312 1,015796 1,003684 1,002396 1,006522 0,992319 0,994461 0,988993 1,000891 0,990923 1,00317 0,987615 0,995877 1,003532 0,988885 0,990933 0,996592 1,012299 1,019108 1,005348 0,973862 -0,00089 -0,0127 0,014312 0,015796 0,003684 0,002396 0,006522 -0,00768 -0,00554 -0,01101 0,000891 -0,00908 0,00317 -0,01238 -0,00412 0,003532 -0,01112 -0,00907 -0,00341 0,012299 0,019108 0,005348 -0,02614 Параметр закона распределения N=2000 1,2 1 0,8 λ 0,6 0,4 0,2 0 0 5 10 15 20 25 30 Рис. 9.8 − Результаты моделирования Табл. 3 Вид распределения Равномерное U(a,b) Гистограмма Плотность Алгоритм 1 ,a ≤ x ≤ b b−a x=a+(b–a)ξ ξ1→i; x=ai+(bi−ai)ξ2 s ∑ pifi(x), i =1 s ∑ pi = 1, i =1 где fi(x) – равномерное распределение с параметрами ai и bi Нормальное N(0, 1) Экспоненциал ьное expo(β), β=1/λ Эрланга порядка S Гиперэкспонен циальное 1 e 2πσ x = mx+εσ: − (x − m x )2 12 ε = ∑ ξ i − 6 i =1 x = − 1 lnξ λ 2σ 2 λe− λx, x ≥ 0 (λx ) s e − λx ,x ≥ 0 s! ξ1→i; s ∑ pifi(x), x = − 1 lnξ2 λ i =1 s ∑ pi = 1, где fi(x) экспоненциальное распределение параметрами λi − α α −1 − (x / β)α αβ x e − Сначала имитируется дискретная величина i, заданная рядом распределения pi Центральная предельная теорема x = − 1 ln(ξ1...ξs) λ i =1 Вейбулла Weibull (α, β) Примечания – Сумма s экспоненциальных величин. См. примечание к распределению «гистограмма» с , х=β(−lnξ)1/α x≥0 Лабораторная работа № 6 Аппроксимация законов распределения. Цель работы Научиться методам сглаживания статистических рядов Задача сглаживания статистических рядов. Теоретические основы лабораторной работы Задание на лабораторную работу № 6 1. Сгенерировать временной ряд, распределенный по заданному закону распределения N=500, M=10. 2. Построить гистограмму. 3. Определить параметры законов распределения методом моментов, аппроксимации плотностей распределения вероятностей, функций распределения по минимуму квадратической погрешности аппроксимации. 4. Пункты 1-3 повторить для N=1000, 2000, 5000 и M=10. Определить М(0) – оптимальное число дифференциальных коридоров. 5. Проанализировать зависимость погрешности оценки параметров законов распределения от объёма выборки, числа дифференциальных коридоров. 6. Качество аппроксимации определить, воспользовавшись критерием Пирсона и Колмогорова. Построить график случайного процесса и его гистограмму. Методом аппроксимации ортогональными полиномами Лежандра построить график функции плотности вероятностей случайного процесса. 5.3 Содержание отчёта 1. Цель работы. 2. Методы и алгоритмы аппроксимации законов распределения. 3. Примеры экранных форм для аппроксимации законов распределения вероятностей. 4. Значения параметров законов распределения, определенные по методу моментов, аппроксимации плотностей распределения вероятностей и функций распределения по минимуму квадратической погрешности аппроксимации, относительные погрешности оценки параметров закона распределения, для N=500, 1000, 2000, 5000 и M=10, М(0), представленные в табличной форме (количество реализаций для каждого модельного эксперимента равно 29). 5. Графики случайного процесса и функций плотности и распределения вероятностей случайного процесса. 6. Выводы по работе. 7. Теоретические сведения Необходимость в решении такой задачи возникает при обработке результатов научных исследований, комплексных испытаний с целью построения аналитических моделей законов распределения случайных величин, процессов, потоков событий. Одним из методов, применяемых для решения задачи сглаживания статистических рядов, является метод моментов. Другим способом решения задачи сглаживания статистических рядов является определение параметров аналитического выражения, удовлетворяющих минимуму квадратической погрешности аппроксимации: [ ] ∆ = ∑ f̂x (x j) − fa (x j,β1, β2,...) = min, M 2 j=1 (1) где M − число дифференциальных коридоров; f̂ x x j = p̂ j / ∆ j – значение плотности распределения вероятностей в середине j- ( ) го дифференциального коридора x j ; fa (x j, β1, β2,...) − аналитическое выражение с неизвестными параметрами. Условиями минимума погрешности ∆ является следующая система уравнений: ∂fa x j, β1, β2,... ∂∆ M = f̂ x − f x , β , β ,... = 0; ∑ x j a j 1 2 ∂β ∂β1 1 j =1 ∂fa x j, β1, β2,... ∂∆ M (2) = f̂ x − f x , β , β ,... = 0; ∑ ∂β x j a j 1 2 ∂β2 2 j=1 . . . . . . )] ( )] ( [() ( [() ( ) ) Сложность этой системы зависит от вида аналитического выражения и числа неизвестных параметров, подлежащих определению. Как правило, решение этой системы возможно лишь приближенными методами. Так, например, при однопараметрической аппроксимации с использованием метода Ньютона, неизвестный параметр определяется в результате решения следующего уравнения: ∂f (x , β) ( ) ( ) [ ] f̂ x − f x , β ∑ ∂β M βn +1 = βn − j=1 a x j a j j n 2 ∂2fa (x j, β) ∂fa (x j, β) − ∑ f̂x (x j) − fa (x j, βn ) 2 ∂ β ∂ β j=1 β =β n M [ ] . (3) В качестве начального приближения можно выбрать значение параметра, определенное по методу моментов. Алгоритм завершает свою работу, когда выполняется следующее условие: (4) βn +1 − βn ≤ ε, где ε − погрешность вычисления параметра, задаваемая исследователем. Для нахождения параметров двухпараметрического закона распределения необходимо решить систему уравнений (5) для двумерного случая: M ∂fa (x j, β1, β2) f = [ f̂ ( x ) − f ( x , β , β = 0; )] ∑ x j a j 1 2 1 ∂β1 j =1 (5) M f = ∑ [f̂ (x ) − f (x , β , β )] ∂fa (x j, β1, β2) = 0 . a j 1 2 ∂β2 2 j=1 x j Решить эту систему можно только приближенными методами, например, методом Ньютона. Воспользовавшись формулой для решения системы двух уравнений с двумя неизвестными по методу Ньютона, получим: ∂f ∂f (6) β1(n +1) = β1(n) − 1 ( 2 f1(β1(n), β(2n)) − 1 f2(β1(n), β(2n))) , ∆′ ∂ β2 ∂ β2 ∂f ∂f (7) β(2n +1) = β(2n) − 1 ( 1 f2(β1(n), β(2n)) − 2 f1(β1(n), β(2n))) ∆′ ∂ β1 ∂ β1 где ∂f ∂f ∂f ∂f ∆′ = 1 2 − 1 2 . ∂ β1 ∂ β2 ∂ β2 ∂ β1 Для вычислений необходимо знать значения частных производных по неизвестным параметрам функций f1 и f2. Их выражения приведены в формулах (9.22) − (9.25). ∂ 2fa (x j, β1, β2) ∂ fa (x j, β1, β2) 2 ∂ f1 M (8) = [f̂x (x j) − fa (x j, β1, β2)] −[ ], 2 ∂ β1 ∑ ∂ β ∂ β 1 j=1 1 ∂ 2fa (x j, β1, β2) ∂ fa (x j, β1, β2) 2 ∂ f2 M = [f̂x (x j) − fa (x j, β1, β2)] −[ ], 2 ∂ β2 ∑ ∂ β ∂ β 2 j =1 2 ∂2fa (x j, β1, β2) ∂ f1 M = [f̂x (x j) − fa (x j, β1, β2)] − ∂ β2 j∑ ∂ ∂ β β 1 2 =1 − (9) (10) ∂ fa (x j, β1, β2) ∂ fa (x j, β1, β2) ⋅ , ∂ β1 ∂ β2 ∂2fa (x j, β1, β2) ∂ 2fa (x j, β1, β2) ∂ f2 M . (11) = [f̂x (x j) − fa (x j, β1, β2)] − ∂ β1 ∑ ∂ β ∂ β ∂ β ∂ β 2 1 2 1 j=1 При аппроксимации плотностей распределения вероятностей в качестве аргумента используется середина дифференциального коридора, что, в свою очередь, вносит дополнительные погрешности при анализе асимметричных законов распределения. От этого недостатка свободна аппроксимация функций распределения вероятностей. Задача аппроксимации статистического ряда функциями распределения вероятностей ставится аналогично задаче аппроксимации плотностей распределения вероятностей: M ∆ = ∑ [F̂x (x j) − Fa (x j, β1, β2,K)]2 = min , j=1 где M − число дифференциальных коридоров; (12) j F̂x (x j) = ∑ p̂s - значение функции распределения вероятностей в конце j–го s =1 дифференциального коридора x j ; Fa (x j, β1, β2, ...) - аналитическое выражение с неизвестными параметрами β1,β2,… . Условиями минимума погрешности ∆ является следующая система уравнений: ∂Fa (x j, β1, β2, K) ∂∆ M = [ F̂ ( x ) − F ( x , β , β , K )] = 0; ∑ x j a j 1 2 ∂β1 ∂ β 1 j=1 ∂∆ M ∂Fa (x j, β1, β2,K) (13) = 0; ∂β = ∑ [F̂x (x j) − Fa (x j, β1, β2, K)] β ∂ 2 2 j=1 . . . . . . . При однопараметрической аппроксимации с использованием метода Ньютона, неизвестный параметр определяется в результате решения следующего уравнения: M ∂Fa(x j, β) ∑ F̂x(x j) − Fa(x j, βn ) ∂β j=1 , (14) βn +1 = βn − 2 2 M ∂ Fa(x j, β) ∂ Fa(x j, β) ( ) ( ) F̂ x − F x , β − ∑ x j a j n 2 ∂ β ∂ β j=1 β =βn и дальше все расчеты производятся аналогично случаю с плотностями вероятностей. Для нахождения параметров двухпараметрического закона распределения необходимо решить уравнение (15) для двумерного случая. Составим систему из двух уравнений для нахождения неизвестных параметров аппроксимации. Эту систему можно получить, продифференцировав выражение (14) по неизвестным параметрам. M ∂Fa (x j, β1, β2) F = [ F̂ ( x ) − F ( x , β , β )] = 0; ∑ x j a j 1 2 1 ∂ β 1 j = 1 (15) M ∂ F ( x , β , β ) F = ∑ [F̂ (x ) − F (x , β , β )] a j 1 2 = 0 . a j 1 2 ∂β2 2 j=1 x j Для решения системы (15) воспользуемся приближенным методом Ньютона. Способ нахождения неизвестных параметров аналогичен случаю с плотностями распределения вероятностей по формулам. Для вычислений необходимо определить частные производные по неизвестным параметрам β1, β2 функций F1 и F2: ∂ 2Fa (x j, β1, β2) ∂Fa (x j, β1, β2) 2 ∂F1 M (16) = [F̂x (x j) − Fa (x j, β1, β2)] −[ ] , 2 ∂β1 ∑ ∂ β ∂ β 1 j=1 1 [ [ ] ] ∂ 2Fa (x j, β1, β2) ∂Fa (x j, β1, β2) 2 ∂F2 M = [F̂x (x j) − Fa (x j, β1, β2)] −[ ] , 2 ∂β2 ∑ ∂ β ∂ β 2 j =1 2 (17) ∂ 2Fa (x j, β1, β2) ∂2Fa (x j, β1, β2) ∂F1 M (18) = [F̂x (x j) − Fa (x j, β1, β2)] − , ∂β2 ∑ ∂ β ∂ β ∂ β ∂ β 1 2 1 2 j =1 32) ∂ 2Fa (x j, β1, β2) ∂2Fa (x j, β1, β2) ∂F2 M . (19) = [F̂x (x j) − Fa (x j, β1, β2)] − ∂β1 ∑ ∂ β ∂ β ∂ β ∂ β 2 1 2 1 j =1 Значения неизвестных параметров вычисляются по итерационной процедуре до достижения заданной точности. Для выполнения лабораторной работы необходимо изучить раздел «Аппроксимация законов распределения» программной системы «Моделирование и анализ случайных процессов» (см. приложение 1). Пример выполнения лабораторной работы для экспоненциального закона распределения, а также аппроксимация закона распределения для примера случайного процесса «Обороты высокого давления для двигателя НК – 36» приведены ниже. Значения параметра закона распределения λ и χ2 при аппроксимации закона распределения по методу моментов, плотности распределения вероятностей и функции распределения по минимуму квадратической погрешности аппроксимации для N=500, М=10. Табл. 4 № Метод моментов f a (x, λ) F a (x, λ) 2 2 χ χ χ2 λ λ λ 1 1.00579 8.51 0.9674 5.798 0.9603 5.5439 2 0.98 6.1867 0.9307 6.4984 0.9582 6.0585 3 1.0176 22.636 0.9602 17.0424 0.9446 16.2528 4 0.9804 1.7875 0.9737 1.8577 0.984 1.7663 5 1.0799 7.6052 1.0283 5.4085 1.0165 5.2636 6 0.9473 13.545 0.9101 12.5885 0.9189 12.6992 7 0.9549 5.7752 0.9522 5.7334 0.9339 5.6472 8 1.0333 10.256 1.0605 11.4268 1.0195 9.9176 9 0.9788 6.7865 1.0062 7.5619 0.9664 6.6783 10 0.9699 8.646 0.9677 8.5363 0.9574 8.1046 11 1.0022 1.1132 24.6434 1.0091 14.1086 13.856 12 1.0516 5.3593 1.0273 4.7372 1.0153 4.5777 13 1.0274 6.314 1.0183 6.1564 1.0169 6.1396 14 1.0496 3.8448 1.0182 3.8185 1.0314 3.735 15 0.9409 7.1225 0.9537 7.3787 0.9345 7.0582 16 1.0549 11.7544 1.1391 18.9582 1.0871 13.4777 17 0.9992 1.7917 1.0515 2.6638 1.0717 1.7661 18 0.9645 7.985 0.9452 7.4891 0.9191 7.3457 19 20 21 22 23 24 25 26 27 28 29 1.0815 1.0486 0.9689 0.9844 0.9728 1.068 0.9822 0.9432 0.9859 0.9841 0.9461 11.7833 9.4825 9.773 5.1709 7.0216 12.3235 6.0582 4.9787 5.7124 12.5944 9.4224 8 1.1122 1.0185 1.0246 0.9752 0.9655 1.0462 0.9514 0.8908 1.0979 0.9567 0.9359 13.5319 8.8276 13.3076 5.1367 6.9621 12.1296 6.1036 5.9352 11.5524 11.6159 9.112 9 1.0499 1.0401 0.9892 0.9816 0.965 1.0634 0.9728 0.9258 1.0068 0.9798 0.9265 10.7825 9.2218 10.614 5.1523 6.9599 12.2956 5.9853 5.0102 5.8126 12.3894 8.9192 12 Выделенные значения параметров соответствуют минимальному значению χ2 в строке, т.е. лучшему методу аппроксимации из рассмотренных. В последней строке указано количество случаев, когда данный метод аппроксимации дает лучший результат. Рис. 9 Рис. 10 Рис. 11– Случайный процесс «Обороты высокого давления двигателя НК36 Рис. 12 Рис. 13 ПРИЛОЖЕНИЕ 1 Пакет программ генерирования и аппроксимации законов распределения случайных процессов Анализ случайного процесса Построение гистограммы Оценка статистических характеристик Генерирование случайного процесса с заданным видом закона распределения Аналитический метод Приближенный метод Проверка качества генерирования Построение фазового портрета Аппроксимация законов распределения Идентификация случайного процесса Метод моментов Аппроксимация плотностей распределения вероятностей Аппроксимация функций распределения Аппроксимация ортогональными полиномами Проверка качества аппроксимации Рис.1 Структура программы генерирования и аппроксимации законов распределения случайных процессов. Генерация случайного процесса с заданным видом закона распределения Загрузка N отсчетов случайного процесса из файла Загрузка из файла значений длин дифференциальных коридоров и плотности вероятности в этих коридорах Блок получения статистических данных Оценка моментных характеристик случайного процесса Построение графика случайного процесса Расчет и построение графика структурной функции случайного процесса Расчет и построение графика функции распределения случайного процесса Расчет и построение гистограммы случайного процесса Расчет и построение графика плотности распределения вероятностей случайного процесса Блок оценки характеристик случайного процесса Нахождение параметров аппроксимирующей функции методом моментов Нахождение параметров аппроксимирующей функции параметрическим методом Нахождение параметров аппроксимирующей функции методом моментов Нахождение параметров аппроксимирующей функции параметрическим методом Блок аппроксимации Оценка качества аппроксимации по критерию Пирсона Оценка качества аппроксимации по критерию Колмогорова Блок оценки качества аппроксимации Рис.2 Блочная структура программы генерирования и аппроксимации законов распределения случайных процессов Автоматизированная система Подсистема задания входных воздействий Генерирование СП с заданным видом КФ Ввод данных из файла Подсистема генерирования НВР Подсистема первичной стат. обработки Подсистема идентификации КФ Подсистема аппроксимации КФ Метод р-преобразования Центрирование СП Анализ фазовых портретов Функциями заданного вида Адаптивно - временная дискретизация Нормирование СП Проверка качества идентификации Функциями Лагерра Дискретизация с «дрожанием» Оценка числовых характеристик (моменты первых порядков) Аддитивная случайная дискретизация Подсистема спектрального анализа Вычисление КФ С помощью классических алгоритмов Метод с использованием ИКФ Рис.3 Структура программы аппроксимативного анализа корреляционно-спектральных характеристик Рис.3 Структура программы аппроксимативного анализа корреляционно-спектральных характеристик