ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОУ ВПО УФИМСКАЯ ГОСУДАРСТВЕННАЯ АКАДЕМИЯ ЭКОНОМИКИ И СЕРВИСА Кафедра «Высшая математика» Методические указания для самостоятельного изучения дисциплины «Математика» с контрольными заданиями Раздел IV «Математическая статистика» УФА 2009 Составители: Измайлов Ш.З., Сафин Р.Р. УДК 51 М 54 Методические указания для самостоятельного изучения дисциплины «Математика» с контрольными заданиями. Раздел IV. Математическая статистика / Сост.: Ш.З. Измайлов, Р.Р. Сафин. – Уфа: Уфимская государственная академия экономики и сервиса, 2009. – 48 с. Изложены основные понятия тем: «Выборка и ее представление», «Статистическое оценивание», «Проверка статистических гипотез», «Регрессионный анализ», «Дисперсионный анализ». Даны примеры решения задач и задания для контрольных работ. Рецензенты: Еникеев Т.И., канд. физ.-мат. наук Уфимского филиала Оренбургского государственного университета Бакусова С.М., канд. физ.-мат. наук, доцент кафедры «Экономическая теория и мировая экономика» Уфимской государственной академии экономики и сервиса © Измайлов Ш.З., Сафин Р.Р., 2009 © Уфимская государственная академия 2 экономики и сервиса, 2009 1. ВЫБОРКА И ЕЕ ПРЕДСТАВЛЕНИЕ 1.1. Распределение частот Совокупность всех возможных объектов данного вида, над которыми проводятся наблюдения, или совокупность всех возможных наблюдений, проводимых в одинаковых условиях над некоторой случайной величиной, называется генеральной совокупностью. Генеральная совокупность может содержать конечное или бесконечное число элементов. Отобранные из генеральной совокупности объекты (результаты наблюдений над конечным числом объектов из генеральной совокупности) называются выборочной совокупностью или выборкой. Число N элементов генеральной совокупности и число n элементов выборочной совокупности будем называть объемами генеральной и выборочной совокупности, соответственно (обычно N n ). Расположение выборочных наблюдаемых значений случайной величины в порядке неубывания называется ранжированием. Значение случайной величины, соответствующее отдельной группе сгруппированного ряда наблюдаемых данных, называется вариантой, а изменение этого значения – варьированием. Численность отдельной группы сгруппированного ряда наблюдаемых данных называется частотой или весом варианты. Если i – индекс варианты, то mi – число измеренных значений i-й варианты. Отношение mi к общей сумме частот всех вариант mi n называется относительной частотой варианты и обозначается p*i mi n . Дискретным вариационным рядом распределения (распределением частот) называется ранжированная совокупность вариант xi с соответствующими им частотами или относительными частотами. Если наблюдаемая случайная величина непрерывна или дискретная величина такова, что число ее возможных значений велико, то для построения вариационного ряда используют интервальный ряд распределения. В этом случае весь возможный интервал варьирования разбивают на конечное число частичных интервалов и подсчитывают частоту попадания значений величины в каждый частичный интервал. Интервальным вариационным рядом (интервальным распределением частот) называется упорядоченная последовательность интервалов варьирования случайной величины с соответствующими частотами или относительными частотами попаданий в каждый из них значений случайной величины. 1.1. В супермаркете проводились наблюдения над числом X покупателей, обратившихся в кассу за один час. Наблюдения в течение 30 часов (15 дней в периоде 9 до 10 и с 10 до 11 часов) дали следующие 3 результаты: 70, 75, 100, 120, 75, 60, 100, 120, 70, 60, 65, 100, 65, 100, 70, 75, 60, 100, 100, 120, 70, 75, 70, 120, 65, 70, 75, 70, 100, 100. Число X является дискретной случайной величиной, а полученные данные представляют собой выборку из n = 30 наблюдений. Требуется составить ряд распределения частот (вариационный ряд). Решение. Вначале составим ранжированный ряд: 60, 60, 60, 65, 65, 65, 70, 70, 70, 70, 70, 70, 70, 75, 75, 75, 75, 75, 100, 100, 100, 100, 100, 100, 100, 100, 120, 120, 120, 120. Получено шесть групп, т.е. шесть различных значений случайной величины (шесть вариант). Для каждой группы подсчитаем частоту значений варианты и соответствующую относительную частоту. Все результаты укажем в табл. 1.1, которая и будет представлять вариационный ряд. Таблица 1.1 Номер группы Число обращений покупателей в кассу Частота Относительная частота i хi mi pi 1 2 3 4 5 6 60 65 70 75 100 120 3 3 7 5 8 4 3/30 3/30 7/30 5/30 8/30 4/30 1.2. В табл. 1.2 приведена выборка результатов измерения роста 105 студентов (юношей). Измерения проводились с точностью до 1 см. Таблица 1.2 155 173 178 183 170 155 174 188 178 173 170 170 183 178 178 169 171 168 175 168 185 183 180 180 183 186 184 179 183 186 180 175 197 178 170 179 175 178 190 176 188 173 178 163 178 189 193 183 167 171 152 170 181 166 181 155 178 184 170 188 173 183 187 178 173 174 184 178 178 178 175 168 175 168 179 180 181 183 178 180 174 182 185 179 196 177 170 168 175 179 190 175 169 175 163 178 185 193 184 167 170 186 181 166 182 Требуется составить интервальный вариационный ряд. Решение. Очевидно, что рост юношей есть случайная непрерывная величина. Найдем сначала минимальное и максимальное значения случайной величины: хmin= 152 см, xmax = 196 см. Тогда интервал варьирования R («размах») будет равен R = xmax – хmin = 44 см. На практике обычно считают, что правильно составленный ряд распределения содержит от 6 до 15 частичных интервалов, однако фактическое число частичных интервалов и, соответственно, размер интервала 4 определяются условиями конкретной задачи. В нашем случае удобно выбрать длину частичного интервала равной 5 см, тогда число частичных интервалов, начиная со 150 см и кончая 200 см, будет равно 10. Соответствующий интервальный вариационный ряд приведен в табл. 1.3. Таблица 1.3 Индекс интервала i Рост студентов (интервалы) хi < X < хi+1 Частота mi Относительная частота p*i 1 2 3 4 5 6 7 8 9 10 150–155 155–160 160–165 165–170 170–175 175–180 180–185 185–190 190–195 195–200 4 – 2 19 19 26 21 10 2 2 0,0381 – 0,0190 0,1810 0,1810 0,2476 0,2000 0,0953 0,0190 0,0190 1.2. Эмпирическая функция распределения Выборочной (эмпирической) функцией распределения называется функция F*(x), задающая для каждого значения х относительную частоту события X < х. Следовательно, по определению F*(x) = mx/n, где mx – число выборочных значений величины X, меньших х, a n – объем выборки. Выборочную функцию распределения можно задать таблично или графически. Построим выборочную функцию распределения по данным табл. 1.1. Объем выборки по условию примера n – 30. Наименьшая варианта равна 60, значит, mx = 0 при х 60. Тогда F*(x) = 0/30 = 0 при х 60. Если 65 < х 70, то неравенство X < х выполняется для вариант х1 = 60 и х2 = 65, а эти варианты встречаются по 3 раза, поэтому mx = 6 и F*(x) = 6/30 и т.д. Результат вычисления F*(x) для всего множества значений вариант дискретной случайной величины приведен в табл. 1.4. Таблица 1.4 x F*(x) (для задачи 1.1) х 60 60 < х 65 0 p1* 3 30 5 65 < х 70 p1* p*2 6 30 Окончание табл. 1.4 70 < х 75 p1* p*2 p3* 13 30 75 < х 100 p1* p*2 p3 * p*4 18 30 100 < х 120 p1* p*2 p3 * p*4 p*5 26 30 x > 120 p1* p*2 p3 * p*4 p*5 p*6 30 30 1 График этой функции приведен на рис. 1.1. В данном примере функция F*(x) есть выборочная функция распределения дискретной случайной величины и построена она по дискретному вариационному ряду. Рис. 1.1 Если случайная величина непрерывная и ее выборочные значения представлены в виде интервального вариационного ряда, то выборочную функцию распределения строят иначе. Рассмотрим для этого вариационный ряд из задачи 1.2 (см. табл. 1.3). Очевидно, что для x ,150 функция F*(x) = 0, так как mx = 0. Используя результаты расчетов, представленные в табл. 1.3, подсчитаем на концах интервалов значения функции F*(x) в виде «нарастающей относительной частоты» (табл. 1.5). Таблица 1.5 Индекс интервала i F*(x) 1 2 3 0,0381 0,0381 0,0571 6 4 5 0,2381 0,4197 6 7 8 9 10 0,6667 0,8667 0,9620 0,9810 1,0000 Окончание табл. 1.5 Очевидно, что табличные значения не полностью определяют выборочную функцию распределения непрерывной случайной величины, поэтому при графическом изображении такой функции ее доопределяют, соединив точки графика, соответствующие концам интервала, отрезками прямой (рис. 1.2). Рис. 1.2 1.3. Полигон и гистограмма Наблюденные данные, представленные в виде вариационного ряда, можно изобразить графически. Полигон. Если вариационный ряд дискретной случайной величины xi mi x1 m1 x2 m2 x3 m3 … … xn mn представить графически в виде ломаной линии, связывающей на плоскости точки с координатами (xi, mi) то такой график называют полигоном или многоугольником распределения. Можно также построить полигон, где точками являются пары чисел (хi, p*i ). 1.3. Выборка дана в виде распределения частот: xi mi 2 10 5 9 7 21 7 8 25 11 30 13 5 Найти распределение относительных частот и построить полигон относительных частот. 6 Решение. Оценим объем выборки: mi 100 . Тогда вариационный ряд i 1 можно записать в виде xi p*i 2 5 7 8 11 13 0,10 0,09 0,21 0,25 0,30 0,05 На рис. 1.3 приведен полигон относительных частот. Рис. 1.3 Заметим, что полигон, построенный по дискретному вариационному ряду, является выборочным аналогом многоугольника распределения дискретной случайной величины. Гистограмма. Интервальный вариационный ряд графически изображают с помощью гистограммы. Для ее построения в прямоугольной системе координат на оси х откладывают отрезки частичных интервалов варьирования и на этих отрезках, как на основаниях, строят прямоугольники с высотами, равными частотам или относительным частотам соответствующих интервалов. Если относительную частоту разделить на длину каждого интервала, то полученная величина будет представлять собой выборочную оценку плотности вероятности: f * xi p*i i . 1.4. Выборка задана интервальным вариационным рядом i хi < X < хi+1 mi 1 1–5 10 2 5–9 20 3 9–13 50 8 4 13–17 12 5 17–21 8 Построить гистограмму выборочной оценки плотности вероятности. Решение. Длина каждого интервала равна h = 4. Объем выборки n = 100. Подсчитаем значения mi / (hn): хi < X < хi+1 1–5 mi / (hn) 2510-3 5–9 9–13 13–17 17–21 5010-3 12510-3 3010-3 2010-3 На рис. 1.4 представлена гистограмма данного распределения. Рис. 1.4 Графическое изображение вариационных рядов в виде полигона и гистограммы позволяет получить первоначальное представление о закономерностях, имеющих место в совокупности наблюдений. 2. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ 2.1. Точечные оценки. Выборочная средняя и выборочная дисперсия Оценки параметров генеральной совокупности, полученные на основании выборки, называются статистическими. Если статистическая оценка характеризуется одним числом, она называется точечной. К числу таких оценок относятся выборочная средняя и выборочная дисперсия. Выборочная средняя определяется как среднее арифметическое полученных по выборке значений: k xв ni xi n , i 1 где xi – варианта выборки; ni – частота варианты; n – объем выборки. Замечание. Выборочная средняя будет также обозначаться и без нижнего 9 индекса: x . Выборочная дисперсия представляет собой среднюю арифметическую квадратов отклонений вариант от их выборочной средней: k d в ni xi xв i 1 2 n. Для расчетов может быть использована также формула 2 d в x 2 xв , где x 2 – выборочная средняя квадратов вариант выборки. Статистическая оценка является случайной величиной и меняется в зависимости от выборки. Если математическое ожидание статистической оценки равно оцениваемому параметру генеральной совокупности, то такая оценка называется несмещенной, если не равно – то смещенной. Выборочная средняя является оценкой математического ожидания случайной величины и представляет собой несмещенную оценку. Выборочная дисперсия оценивает дисперсию генеральной совокупности и является смещенной оценкой. Для устранения смещенности выборочной дисперсии ее умножают на величину n/(n – 1) и получают: n s2 dв . n 1 Величину s2 называют несмещенной или «исправленной» выборочной дисперсией. В некоторых случаях для удобства расчетов при определении статистических оценок переходят к условным вариантам. Например, если варианты xi – большие числа, то используют разности ui = xi – С, где С – произвольно выбранное число (ложный нуль), такое, при котором условные варианты принимают небольшие значения. В этом случае 2 k xв С ni ui n , d в x 2 xв , i 1 2 k d в d вu u u n ni ui n . i 1 Для изменения значения варианты можно ввести также условные варианты путем использования масштабного множителя: ui = Cxi, где С = 10b (b выбирается положительным или отрицательным целым числом). 2.1. Найти выборочную среднюю по данному распределению выборки: 2 2 k ni ui2 i 1 xi 145 148 149 ni 03 50 20 10 Решение. Так как выборочные значения – большие числа, то целесообразно ввести условные варианты. В качестве ложного нуля выбираем С = 1470 и рассчитываем ui no формуле ui = хi – 1470: ui ni -20 10 3 5 20 2 Определяем выборочную среднюю: u 3 . После этого находим xв 1470 3 1473 . 2.2. Найти несмещенную оценку дисперсии случайной величины X на основании данного распределения выборки: xi ni 2 8 7 14 9 10 10 18 Решение. Находим выборочную среднюю: 8 2 14 7 10 9 18 10 xв 7 ,68 . 50 Для вычисления выборочной дисперсии 2 используем d в x 2 xв 8 4 14 49 10 81 18 100 x2 66 ,56 ; 50 dB = 66,56 – 7,682 = 7,58. Находим несмещенную оценку дисперсии выборочную дисперсию): n s2 d в 50 7 ,58 49 7 ,73 . n 1 формулу: («исправленную» 2.2. Метод моментов При заданном виде закона распределения случайной величины X неизвестные параметры этого распределения можно оценить, т.е. выразить как функцию вариант выборки, на основе метода моментов. Этот метод состоит в том, что приравниваются соответствующие теоретические и эмпирические моменты и из полученных уравнений находятся оценки параметров. В случае одного параметра в теоретическом распре-делении для его оценки достаточно составить одно уравнение. Если имеются два параметра в теоретическом распределении, то нужно приравнять соответственно два теоретических и эмпирических момента и т.д. Для оценки двух параметров закона распределения запишем следующие равенства: 11 2 m2 , v1 = М1, где v1 – начальный момент первого порядка закона распределения случайной величины; М1 – эмпирический момент первого порядка; 2 – центральный момент второго порядка закона распределения случайной величины; m2 – центральный эмпирический момент второго порядка. Так как v1 = Мх – математическое ожидание случайной величины X, 2 = Dx – дисперсия величины X, a M1 = x в , m2 = dв, то получаем два уравнения: Мх = x в , Dx = dB. 2.3. На предприятии изготавливается определенный вид продукции. Ежемесячный объем выпуска этой продукции является случайной величиной, для характеристики которой принят показательный закон распределения: f(x) = е x (х 0). В течение шести месяцев проводился замер объемов выпуска продукции, получены следующие данные: Месяц Объем выпуска 1 20 2 24 3 25 4 28 5 27 6 32 Найти оценку параметра . Решение. Так как закон распределения содержит лишь один параметр , то для его оценки требуется составить одно уравнение. Находим выборочную среднюю: x в = (20 + 24 + 25 + 28 + 27 + 32)/6 = 26. Определяем математическое ожидание: 0 0 М x xf x dx xe x dx . Интегрируя по частям, получаем: М x 1 , откуда 1 xв . (1) Равенство (2.1) является приближенным, так как правая часть его является случайной величиной. Таким образом, из уравнения (1) получается не точное значение , а его оценка *: 1 * xв . Итак, 1/ * = 26, откуда * = 1/26. 2.3. Метод наибольшего правдоподобия Метод наибольшего правдоподобия, применяемый для определения 12 точечной оценки, опирается на использование условий экстремума функции одной или нескольких случайных величин. В качестве такой функции принимают функцию правдоподобия. Для дискретной случайной величины функция правдоподобия принимает вид: L = p(x1, ) p(x2, ) … р(хn, ), где х1, х2, ..., хn – варианты выборки; – параметр, для которого находится оценка; р(хi, ) – вероятность события X = xi, зависящая от параметра . Так как функции L и lnL достигают максимума при одном и том же значении , то обычно точки экстремума находятся для lnL. Для этого d ln L определяется производная и приравнивается к нулю. На основании d достаточного условия (вторая производная должна быть отрицательна) можно убедиться, что полученная точка является точкой максимума. Для непрерывных случайных величин функция правдоподобия выбирается в виде: L = f(x1, ) f(x2, ) … f(xn, ), где f(xi, ) – заданная функция плотности вероятности в точках хi. Чаще всего метод наибольшего правдоподобия используется при биномиальном, пуассоновском и показательном распределениях случайной величины. В случае биномиального распределения r m Pr m Crm p m 1 p , где Рr(m) – вероятность появления ровно m раз события А (случайной величины) в r испытаниях; р – вероятность появления события А в одном испытании. Величина р может рассматриваться как параметр. Если проводится n опытов по r испытаний в каждом и фиксируется число появлений события (величины) в каждом испытании хi, то при подстановке этого значения в формулу биномиального распределения получаем: rx Pr xi , p Crxi p xi 1 p i Тогда функция правдоподобия примет вид: L = pr(x1,p) pr(x2,p) … рr(хn,p). После логарифмирования и приравнивания к нулю производной от ln L получаем выражение для оценки: n p* xi nr . i 1 Если значения хi, встречаются ni раз, то оценка параметра р принимает вид: n p* xi ni nr , i 1 где n = n1 + n2 + … + nk – число опытов по r испытаний в каждом. 13 В случае пуассоновского распределения Pr m m e m! и подстановки получаем вариант выборки: xi Pr xi , e . xi ! Составив функцию правдоподобия L, дифференцируя ln L и приравнивая его производную к нулю, находим оценку параметра в виде n * xi n x в i 1 или k * ni xi n x в . i 1 В случае показательного распределения x 0 f x e x функция правдоподобия для выборочных значений х1, x2, …, хn примет вид: n xi L e x1 e x 2 e x n n e i 1 . После преобразований получаем выражение для оценки параметра : n * n xi 1 x в . i 1 2.4. Интервальные оценки Если статистическая оценка параметров закона распределения случайной величины X характеризуется двумя числами – концами интервала, то такая оценка называется интервальной. Интервал, в который попадает оцениваемый параметр с заданной надежностью (вероятностью), называется доверительным. Доверительный интервал применяется в случае сравнительно небольшого объема выборки, когда предполагается, что надежность точечной оценки может быть невысокой. Доверительный интервал для оценки математического ожидания случайной величины X с заданной надежностью в случае нормального закона распределения определяется на основе неравенств: x в z x n M x x в z x n , где z – значение аргумента функции Лапласа, получаемое из таблиц (см. Приложение 2), с учетом того, что Ф(z) = /2; x – известное среднее квадратичное отклонение или его оценка; n – объем выборки. Доверительный интервал для оценки среднего квадратичного 14 отклонения случайной величины X с надежностью для нормального закона распределения случайной величины находится из неравенств: s s , x 1 q 1 q где s – несмещенное значение выборочного среднего квадратичного отклонения; q – параметр, который находится по таблице (см. Приложение 3) на основе известного значения объема выборки n и заданной надежности оценки . 2.4. Найти доверительный интервал с надежностью 0,95 для оценки математического ожидания нормально распределенной случайной величины X, если известны ее среднее квадратичное отклонение x 4 , выборочная средняя x в 16 и объем выборки n = 16. Решение. По надежности = 0,95 из соотношения Ф(z) = /2 находим значение функции Лапласа: Ф(z) = 0,475. По таблице значений функции Лапласа (см. Приложение 2) находим z = 1,96. Используя неравенства для интервальной оценки математического ожидания, получаем 16 – 1,96 4/4 < Мх < 16 + 1,96 4/4, или 14,04 < Мx< 17,96. 2.5. По данным выборки объема n = 25 найдено несмещенное значение выборочного среднего квадратичного отклонения s = 3 нормально распределенной случайной величины X. Найти с надежностью 0,99 доверительный интервал для оценки среднего квадратичного отклонения случайной величины. Решение. На основании данных значений = 0,99, n = 25 по таблице (см. Приложение 3) находим значение q = 0,49. Подставляем в неравенства 3 3 x , 1 0 ,49 1 0 ,49 откуда 2 ,01 x 5 ,88 . 3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 3.1. Основные понятия Если принятое решение о законе распределения генеральной совокупности или о числовых значениях его параметров проверяется по выборочным данным, то говорят о проверке статистических гипотез. Проверке подвергается гипотеза об отсутствии разности между принятым и найденным по выборке значениями исследуемого параметра. Такую гипотезу называют нулевой. Противоположную ей гипотезу называют альтернативной. Схема проверки нулевой гипотезы: 1. Рассматривая выборочные данные x1, х2, ..., хn и учитывая конкретные 15 условия задачи, принимают Н0 – нулевую гипотезу и Н1 – альтернативную гипотезу, конкурирующую с Н0. 2. Так как решение о справедливости гипотезы H0 принимается на основе выборочных данных, могут возникать ошибки двух родов: гипотеза Н0 отвергается, а на самом деле она верна – это ошибка первого рода; вероятность ошибки первого рода равна уровню значимости , т.е. PH 0 H1 ; гипотеза Н0 принимается, а на самом деле она неверна – это ошибка второго рода; вероятность ошибки второго рода равна , т.е. PH 1 H 0 . Соответственно, вероятность принять верную гипотезу равна PH 0 H 0 1 , а вероятность отвергнуть неверную гипотезу Н0 равна PH 1 H1 1 . 3. Используя выборочные данные, вводят статистический критерий – некоторую функцию К, зависящую от условий решаемой статистической задачи. Эти функции, являясь случайными величинами, подчинены некоторому известному, затабулированному закону распределения (t – распределение, 2 – распределение или нормальное распределение). 4. В зависимости от принятого уровня значимости из области допустимых значений функции критерия К выделяют критическую область . Далее руководствуются следующим правилом: если вычисленное по выборке значение критерия К попадает в критическую область, то Н0 отвергается и принимается гипотеза Н1. При этом возможно, что Н0 справедлива и, следовательно, совершена ошибка первого рода, вероятность которой , т.е. PK . Возможны три варианта расположения критической области: -правосторонняя критическая область, состоящая из интервала ( k kpï , ), где k kpï определяется из условия Р(К > k kpï ) = (рис. 3.1, а); а) -левосторонняя критическая область, состоящая из интервала ( ,k kpë ), где k kpë определяется из условия Р(К > k kpë ) = (рис. 3.1, б); б) 16 -двусторонняя критическая область, состоящая из интервалов ï ( ,k kpë ) и k kp , где точки k kpë и k kpï определяются из условий Р(К < k kpë ) = 2 и Р(К > k kpï ) = 2 (рис. 3.1, в). в) Рис. 3.1 5. По выборочным данным находят числовое значение критерия ( k r ). Если k r попадает в критическую область , то гипотеза Н0 отвергается и принимается альтернативная гипотеза Н1. Если kr не попадает в критическую область, то гипотеза Н0 принимается. При проверке статистических гипотез учитываются конкретные условия рассматриваемой задачи. 3.2. Сравнение выборочной средней с математическим ожиданием На практике часто требуется оценить, соответствуют ли действительности рекламные данные о параметрах того или иного товара. В этом случае возникает задача сравнения выборочной средней с анонсируемым значением этого параметра. 3.1. Фирма-поставщик в рекламном буклете утверждает, что средний срок безотказной работы предлагаемого изделия – 2900 ч. Для выборки из 50 изделий средний срок безотказной работы оказался равным 2720 ч при выборочном среднем квадратичном отклонении 700 ч. При 5 %-ом уровне значимости проверить гипотезу о том, что значение 2900 ч является математическим ожиданием. Решение. Предположим, что случайная величина срока безотказной работы подчинена нормальному закону распределения. Требуется проверить гипотезу о числовом значении математического ожидания нормально распределенной величины (генеральной средней) при неизвестной генеральной дисперсии. В этом случае в качестве критерия выбирают функцию T X a0 S n 1 , где X – выборочная средняя; а0 – математическое ожидание; S – выборочное среднее квадратичное отклонение. Случайная величина Т имеет t-распределение 17 (распределение Стьюдента) с l = n – 1 степенями свободы. В данной задаче речь идет о сравнении выборочной средней 2720 ч с гипотетическим математическим ожиданием a 0 = 2900 ч, при этом выборочное среднее квадратичное отклонение равно 700 ч. Требуется найти критическую область для нулевой гипотезы Н0: а0 = 2900 при альтернативной гипотезе Н1: а0 < 2900. Очевидно, что другие альтернативные гипотезы (а0 > 2900 и а0 2900) нецелесообразны, так как потребитель обычно обеспокоен лишь тем, что срок службы изделия может оказаться меньше гарантируемого поставщиком. ë ë Критическая область левосторонняя; t kp находим из условия Р(Т < t kp )= . При = 0,05 и l = 50 – 1 = 49 в таблице t-распределения (см. ë ï Приложение 6), используя линейную интерполяцию, находим t kp = t kp = – 1,677. Таким образом, критическая область = ( , –1,677). Рассчитаем tr, полагая а0 = a 0 : tr 2720 2900 180 1,8 . 700 50 1 100 Значение –1,8 попадает в критическую область, поэтому нулевая гипотеза Н0 должна быть отвергнута. Следовательно, фирма в рекламе завышает срок безотказной работы изделия. 3.2. Составлена случайная выборка из 64 покупателей, которые интересовались товаром А. Из них товар А купили 16 человек. Поставщик утверждает, что данный товар должен привлечь треть покупателей, а среднее квадратичное отклонение x равно одному человеку. Проверить нулевую гипотезу при 5 %-м уровне значимости. Решение. Предположим, что число покупателей, приобретающих товар А, есть случайная величина, подчиненная нормальному закону распределения. Гипотетическая генеральная средняя при этом составит 21 человек (64 · 1/3). Будем считать, что x = 1. Таким образом, речь идет о проверке гипотезы о числовом значении математического ожидания нормального распределения при известной дисперсии, т.е. о сравнении гипотетической генеральной средней 21с выборочной средней 16 при известном среднем квадратичном отклонении x . Нулевая гипотеза в этой задаче имеет вид Н0: a x = 21, а альтернативная, например, H1: a0 21. Возможны и другие альтернативные гипотезы, например Н1 : а0 < 21 или H1: а0 > 21. Уровень значимости задан: = 0,05. В качестве критерия в этом случае рассматривается функция Z X a0 . x n Функция Z подчинена нормальному закону распределения N (0, 1). ë Критическая область будет двусторонней, ее образуют интервалы ( , z kp )и 18 ï ë ï ( z kp , ), определяемые из условий P(Z < z kp ) = /2 и P(Z > z kp ) = /2. Если = 0,05, то /2 = 0,025. Это вероятность попадания случайной величины Z в левостороннюю или правостороннюю области. В этом случае вероятность непопадания случайной величины Z в правостороннюю критическую область (1 – /2) можно представить следующим образом: ï ï Р( < Z < z kp ) = Р( < Z < 0) + P(0 < Z < z kp ) = 1 – /2. ï ï Так как Р( < Z < 0) = 0,5, а Р(0 < Z < z kp ) = Ф( z kp ) – функция Лапласа ï ï в точке z kp , то Ф( z kp ) = 1 – /2 – 0,5 = 0,475. На основании таблицы значений ï ë функции Лапласа (см. Приложение 2) находим z kp = 1,96. Точка z kp расположена симметрично и равна – 1,96. Следовательно, критическая область состоит из интервалов ( ; –1,96) и (1,96; ). Рассчитаем zr: zr 16 21 40 . 1 64 Значение zr попадает в критическую область, поэтому гипотеза H0: а0 = 21 отвергается. 3.3. Фирма – изготовитель женских украшений, выпустив новый товар, утверждает, что 40 % покупателей купят эти украшения. В ходе 10-дневной рекламной распродажи в среднем приобрели украшения 29,5 % покупателей, выборочное среднее квадратичное отклонение составило 16,5 %. При 5 %-ом уровне значимости оценить утверждение изготовителя товара. Решение. Проверим нулевую гипотезу H0: a0 = 40 % и альтернативную H1: а0 < 40 %. Предположим, что случайная величина X – число покупателей – имеет нормальный закон распределения. В данной задаче требуется проверить гипотезу о числовом значении математического ожидания нормального распределения при неизвестной дисперсии. Критерий имеет вид: T X a0 S n 1 , Для заданного уровня значимости = 0,05 найдем левостороннюю критическую область с учетом того, что l = 10 – 1 = 9 степеней свободы (см. Приложение 6). Критическая область есть интервал ( ; –1,833). Вычислим tr: tr 29,5 40 1,909. 16,5 9 Число –1,909 попадает в критическую область. Таким образом, нулевая гипотеза отвергается. 3.3. Сравнение двух дисперсий Пусть имеются две случайные величины X = N( a x , x ) и Y = N(ay, y ) с неизвестными дисперсиями и две независимые выборки xl, х2, …, хn и у1, у2, …, 19 уm. Требуется по полученным выборочным оценкам xi x n s x2 yi y m 2 и s 2y i 1 i 1 n 1 проверить гипотезу Н0: x2 2 m 1 1 n n i 1 , где x xi и y 1 m yi , m i 1 y2 . В качестве критерия при проверке гипотезы Н0: x2 y2 используют функцию F(l1, l2) = S x2 / S y2 , которая имеет F-распределение (распределение Фишера – Снедекора) с l1 = n – 1 и l2 = m – 1 степенями свободы, если полученные по выборкам значения s x2 > s 2y , и F(l1, l2) = S y2 / S x2 с l1 = m – 1, l2 = n – 1, если s 2y > s x2 . Если задаться уровнем значимости , то можно построить критические области для проверки гипотезы Н0: x2 y2 при двух альтернативных гипотезах: 1) Н1: x2 y2 , если s x2 > s 2y , или Н1: x2 y2 , если s x2 < s 2y . В этом случае критическая область правосторонняя ( f kpï , ), где f kpï определяется из условия P(F(l1, l2) > f kpï ) = ; 2) H1: x2 y2 . В этом случае критическая область двусторонняя. Однако можно использовать только правостороннюю область ( f kpï , ), где f kpï определяется из условия P(F(l1 = n – 1, l2 = m – 1) > f kpï ) = /2, если s x2 > s 2y , и из условия P(F(l1 = m – 1, l2 = n – 1) > f kpï ) = /2, если s x2 < s 2y . Если fr. попадает в критическую область, то принимается альтернативная гипотеза H1, в противном случае принимается гипотеза Н0: x2 y2 , при этом оценкой генеральной дисперсии служит величина s 2 s x2 n 1 s 2y m 1 . nm2 3.4. Срок хранения продукции, изготовленной по технологии А, составил: Срок хранения xi Число единиц продукции ni 5 2 6 4 7 4 А изготовленной по технологии В: Срок хранения yi 5 Число единиц продукции mi 1 20 6 8 7 7 8 1 Предположив, что случайные величины X и Y распределены по нормальному закону, проверить гипотезу Н0: x2 y2 при уровне значимости 0,1 и альтернативной гипотезе Н1: x2 y2 . Решение. Вычислим «исправленные» выборочные дисперсии s x2 , s 2y . Для этого вначале найдем x , y : x 52 64 74 6 ,2 ; 10 y 5 1 6 8 7 7 8 1 6 ,5 . 17 Тогда: 25 2 36 4 49 4 10 s x2 6 ,2 2 0 ,62 ; 10 9 25 1 36 8 49 7 64 1 17 s 2y 6 ,5 2 0 ,11 . 17 16 Учитывая, что s x2 > s 2y , определим fr: fr 0 ,62 5 ,64. 0 ,11 Критическое значение f kpï находим из условия Р(F(l1 = 10 – 1, l2 = 17 – 1) > f kpï ) = / 2 = 0,05. По таблице F-распределения (см. Приложение 5) определяем f kpï = 2,54. Так как число fr = 5,64 попадает в критическую область (2,54; ), то гипотезу о равенстве дисперсий среднего срока хранения продукции, изготовленной по технологиям А и В, отвергаем. 3.4. Сравнение двух математических ожиданий Пусть имеются две выборки x1, x2, ..., хn и у1, у2,…, уm, полученные в результате независимых испытаний. По этим данным рассчитаны оценки x и y , а также s x2 и s 2y . В предположении, что случайные величины X и Y распределены по нормальному закону X = N(ax, x ) и Y = N(ay, y ), требуется проверить на основании выборочных данных гипотезу Н0: ах = ау при условии, что гипотеза о равенстве дисперсий не отвергается. 3.5. Средний ежедневный объем продаж за I квартал текущего года для 17 торговцев района А составляет 15 тыс. руб. при «исправленном» среднем квадратичном отклонении 2,5 тыс. руб., а для 10 торговцев района В – 13 тыс. руб. при «исправленном» среднем квадратичном отклонении 3 тыс. руб. Каждую группу можно считать случайной независимой выборкой из большой совокупности. Существенно ли различие объемов продаж в районах А и В при 5 %-м уровне значимости? Решение. Предположим, что ежедневный объем продаж подчинен нормальному закону распределения. Математическое ожидание и среднее 21 квадратичное отклонение законов распределения для районов А и В неизвестны. Предположим, что дисперсии объемов продаж одинаковы. В этих условиях возникает задача оценки статистической гипотезы Н0: ах = ау при альтернативной Н1: ах ау, если принять за ах математическое ожидание объема продаж для района А, за ау – для района В. Выборочные средние x и y являются независимыми нормально распределенными случайными величинами. В этом случае в качестве критерия используют функцию S x2 n 1 S y2 m 1 X Y . T , где S nm2 1 1 S n m Функция Т подчинена t-распределению для l – m + n – 2 степеней свободы. По таблице t-распределения (см. Приложение 6) для l = 17 + 10 – 2 = 25 и 5 %-го уровня значимости (для двусторонней критической области) находим tkp = 2,06. Это значит, что критическая область есть интервал ;2,06 и 2 ,06; . Вычислим tr: 6 ,25 16 9 9 7 ,24 2 ,69 , 25 15 13 tr 1,86. 1 1 2 ,69 17 10 s Полученное значение критерия tr не принадлежит критической области, следовательно, разность несущественна и гипотеза Н0: ах = ау принимается. В качестве общей средней выборочной принимают величину x0 15 17 13 10 14 . 27 3.6. В условиях задачи 3.5 выяснить, существенно ли при 5 %-ом уровне значимости превышение объема продаж в районе А по сравнению с объемом в районе В. Решение. Вопрос, в данной задаче отличается от вопроса в задаче 3.5 тем, что альтернативной к гипотезе Н0: ах = ау становится не гипотеза Н1: ах ау, а гипотеза Н1: ах > аy. В этом случае критическая область односторонняя (в частности, правосторонняя), для l = 25 и = 0,05 имеем критическую область (1,708; ). Так как tr = 1,86 > 1,708, то величина tr входит в критическую область, поэтому превышение объема продаж в районе А по сравнению с объемом в районе В существенно и гипотеза Н0: ах = ау отвергается. 3.7. Фирма предлагает автоматы по розливу напитков. При выборке n – 16 найдена средняя величина x = 182 г дозы, наливаемой в стакан автоматом № 1. По выборке m = 9 найдена средняя величина y = 185 г дозы, наливаемой в стакан автоматом № 2. По утверждению изготовителя, случайная величина 22 наливаемой дозы имеет нормальный закон распределения с дисперсией, равной x2 y2 = 25 г2. Можно ли считать отличия выборочных средних случайной ошибкой при уровне значимости = 0,01? Решение. Пусть ах и ау – математические ожидания доз, наливаемых автоматом № 1 и автоматом № 2. Нулевая гипотеза в данном случае Н0: ах = ау при альтернативных Н1: ах ау и Н1; ах < ау. Дисперсия известна: 2 = 25. В качестве критерия справедливости статистической гипотезы выбирается функция Z X Y x2 n 2 y , m распределенная по нормальному закону с параметрами (0, 1). 1. Рассмотрим вначале гипотезу Н0: ах = ау для альтернативной H1: ах < ë ë ау. В этом случае критическая область имеет вид ( , z kp ) где z kp ë определяется из условия P(Z < z kp )= . Так как функция Лапласа – нечетная функция, т.е. Ф(–z) = –Ф(z), а таблица этой функции содержит только положительные значения, то найдем ï вначале z kp . Для этого вычислим значение функции Лапласа в критической точке: ï ï Ф( z kp ) = 0,5 – = 0,49. Откуда z kp = 2,33. Значит, левосторонняя критическая область будет ( ; –2,33). Рассчитаем zr: zr 182 185 3 12 1,44. 25 25 25 16 9 Полученное значение zr = – 1,44 не входит в критическую область ( ; –2,33), поэтому нулевая гипотеза принимается. 2. Рассмотрим гипотезу Н0: ах = ау при альтернативной Н1: ах ау. В этом ë ï случае критическая область двусторонняя и имеет вид ( , z kp ) ( z kp ; ). ë ï Величины z kp и z kp рассчитываются из условий ë ï P(Z < z kp ) = 2 и P(Z > z kp ) = 2. Воспользовавшись таблицей значений функции Лапласа (см. Приложение 2), имеем: ï ï Ф( z kp ) = 0,5 – 2 = 0,495, z kp = 2,57. Критическая область имеет вид ( ; –2,57) (2,57; ). Значение zr = – 1,44 не попадает в критическую область, поэтому нулевая гипотеза принимается. 3.5. Проверка гипотезы о распределении. Критерий Пирсона При проверке статистических гипотез о соответствии отдельных 23 параметров закона распределения случайных величин предполагалось, что законы распределения этих величин известны. Однако при решении практических задач (особенно экономических) модель закона распределения в общем случае заранее неизвестна, поэтому возникает необходимость выбора модели закона распределения, согласующейся с результатами выборочных наблюдений. Пусть x1, х2, ..., хn – выборка наблюдений случайной величины X с неизвестной непрерывной функцией распределения F(x). Проверяется гипотеза Н0, утверждающая, что X распределена по закону, имеющему функцию распределения F(x), равную функции F0(x), т.е. проверяется нулевая гипотеза Н0: F(x) = F0(x). Критерии, с помощью которых проверяется нулевая гипотеза о неизвестном распределении, называются критериями согласия. Рассмотрим критерий согласия Пирсона. Схема проверки нулевой гипотезы H0: F(x) = F0(x): 1. По выборке х1, х2, …, хn строят вариационный ряд; он может быть как дискретным, так и интервальным. Рассмотрим для определенности дискретный вариационный ряд xi mi х1 m1 х2 m2 … … xk-1 mk-1 xk mk 2. По данным предыдущих исследований или по предварительным данным делают предположение (принимают гипотезу) о модели закона распределения случайной величины X. 3. По выборочным данным проводят оценку параметров выбранной модели закона распределения. Предположим, что закон распределения имеет r параметров (например, биномиальный закон имеет один параметр р; нормальный – два параметра (а0, x ) и т.д.). 4. Подставляя выборочные оценки значений параметров распределения, находят теоретические значения вероятностей piT P X xi , i = 1, 2,..., k. k 5. Рассчитывают теоретические частоты miT piT n , где n mi . i 1 6. Рассчитывают значение критерия согласия Пирсона: r2 m m k i 1 T 2 i i miT . Эта величина при n стремится к распределению 2 с l = k – r –1 степенями свободы. Поэтому для расчетов используют таблицы распределения 2. 7. Задаваясь уровнем значимости , находят критическую область (она 24 всегда правосторонняя) 2 п (( kp ); ); значение 2 п ( kp ) определяют из 2 п соотношения = Р( 2 > ( kp ) ). Если численное значение r2 попадает в 2 п интервал (( kp ) ; ), то гипотеза H0: F(x) = F0(x) отклоняется и принимается альтернативная гипотеза о том, что выбранная модель закона распределения не подтверждается выборочными данными, при этом допускается ошибка, вероятность которой равна . 3.8. Коммерсант предполагает, что объем продаж нового вида продукции в каждой из пяти торговых точек, расположенных в различных районах, будет одинаков. Фактический объем продаж оказался разным: Район i Фактический объем продаж 1 2 3 4 5 mi 105 117 84 111 83 Оценить, значимы или нет различия между наблюдаемыми и ожидаемыми объемами продаж при уровне значимости 0,01 и 0,05. Решение. Так как в задаче спрашивается о согласовании ожидаемых (одинаковых) и фактических объемов продаж, то теоретический закон распределения» определен: во всех районах объем продаж одинаков, т.е. 5 mi 500 m1T m2T m3T m4T m5T i 1 100. 5 5 Заметим, что в данном примере нельзя использовать в качестве закона распределения биномиальный или нормальный закон, так как речь идет об одновременном сравнении пяти районов. Составим таблицу Район Фактический объем продаж Ожидаемый объем продаж i 1 2 3 4 5 84 111 83 mi 105 117 miT 100 100 100 100 100 Тогда r2 m m 5 i 1 T 2 i i miT 1 25 289 256 121 289 9 ,8 . 100 Выбирая уровень значимости = 0,01 по таблице 2 -распределения 2 п (см. Приложение 4) для числа степеней свободы l =5 – 1 = 4, находим ( kp ) = 2 п 13,3, а для уровня значимости = 0,05 при l = 4, соответственно, ( kp ) = 9,5. 25 Следовательно, для уровня значимости = 0,01 критическая область представляет собой интервал (13,3; ), r2 = 9,8 не попадет в критическую область, т.е. нулевая гипотеза, состоящая в том, что ожидаемые и фактические объемы продаж согласуются, не отвергается. Для уровня значимости = 0,05 критической областью является интервал (9,5; ), и, так как r2 = 9,8 попадает в критическую область, нулевая гипотеза должна быть отклонена. 4. РЕГРЕССИОННЫЙ АНАЛИЗ 4.1. Линейная регрессия с несгруппированными данными Регрессией Y на X или условным математическим ожиданием случайной величины Y относительно случайной величины X называется функция вида M(Y/x) = f(x). Регрессией X на Y называется функция вида М(Х/у) = (y). Оценками этих функций являются выборочные уравнения регрессии или условные средние y x f * x , x y y . На практике часто используются выборочные уравнения линейной регрессии в виде: (2) y x x , (3) x y 1 y 1 . Для определения параметров и в уравнении (4.1) используется получаемая на основании метода наименьших квадратов система двух линейных уравнений: n n 2 n x x i xi y i , i i 1 i 1 i 1 n n x n y , i i 1 i i 1 откуда находятся выражения для и : n n n n xi yi xi yi i 1 i 1 , i 1 2 n n 2 n xi xi i 1 i 1 n 2 n n n xi yi xi xi yi . i 1 i 1 i 1 2 i 1 n n n xi2 xi i 1 i 1 26 (4) (5) Аналогично находятся параметры 1 и 1 для функции x y . Для оценки связи между случайными величинами обычно используется выборочный коэффициент корреляции. Введем в рассмотрение выборочный эмпирический корреляционный момент: xi x yi y n *xy i 1 . n Раскроем скобки и учтем, что n n i 1 i 1 xi n x , y i n y . Тогда n n n i 1 i 1 x i y i x y i y xi n x y *xy i 1 = n n xi yi xn y yn x n x y = i 1 n n xi y i n x y i 1 n (6) . Выборочный коэффициент корреляции представляет собой отношение: *xy râ . x â y â 4.1. С целью анализа взаимного влияния зарплаты и текучести рабочей силы на пяти однотипных фирмах с одинаковым числом работников проведены измерения уровня месячной зарплаты X и числа уволившихся за год рабочих Y: X Y 100 60 150 35 200 20 250 20 300 15 Найти линейную регрессию Y на X и выборочный коэффициент корреляции. Решение. Составляем расчетную таблицу: i 1 2 3 4 5 xi 100 150 200 250 300 1000 yi 60 35 20 20 15 150 xi2 10 000 22 500 40 000 62 500 90 000 225 000 L xi yi 6000 5250 4000 5000 4500 24 750 y i2 3600 1225 400 400 225 5850 Определяем и : = [(5 · 24,75 – 150) · 103]/(5 · 22,5 · 104 – 106) = – 0,21; 27 = (22,5 · 104 · 150 – 103 · 24,75 · 103)/(5 · 22,5 · 104 – 106) = 72. Выборочное уравнение регрессии примет вид: y х = – 0,21x + 72. Из расчетной таблицы следует, что x = 1000/5 = 200, y = 150/5 = 30. По формуле (4.5) находим: *xy = (24750 – 5 · 200 · 30)/5 = –1050. Найдем dx = x2â , dy = y2â по формулам dx = x 2 – ( x )2, dy = y 2 – ( y )2: dx = 22,5 · 104/5 – 2002 = 5000, dy =5850/5 – 302 = 270. Откуда xâ 70 ,7 yâ 16,4. Таким образом, râ 1050 0 ,91. 70 ,7 16 ,4 4.2. Линейная регрессия со сгруппированными данными В том случае, когда варианты парной выборки встречаются по нескольку раз, причем с одним значением варианты xi может встретиться несколько вариант yj, их обычно представляют в виде корреляционной таблицы. На пересечении строк и столбцов этой таблицы отмечается частота nij выбора соответствующей пары (xi, yj), а частоты вариант xi(i = 1, 2, ..., k1), уj (j = 1,2, ..., k2) находятся как суммы значений nij по соответствующей строке или столбцу. Например, в корреляционной таблице xi 10 20 30 ny j 5 10 3 5 – 4 2 2 5 11 nx 8 4 4 n = 16 yj i Пара (10; 5) встречается 3 раза, т.е. n11 = 3, а частота появления величины y1 = 5 находится как сумма n y = 3 + 2 = 5. 1 k1 k2 i 1 j 1 Очевидно, что n x i n y n . j Для коэффициента корреляции случайных величин X и Y в случае сгруппированных данных используется выражение k2 k1 ~ xiU i n x y râ i 1 n xâ yâ ~ y jV j n x y j 1 n xâ yâ , где 28 ~ k1 ~ k2 U i nij y j , V j nij xi i 1 j 1 После подсчета x , y , xâ , yâ и rв получают выборочное уравнение линейной регрессии Y на X в виде: yâ yx y râ x x xâ или выборочное уравнение линейной регрессии X на Y в виде: x y x xâ râ y y . yâ Для упрощения расчетов часто используются условные варианты, которые подсчитываются по формулам: ui = (xi – C1)/h1 j = (yj – C2)/h2, где C1, C2 – ложные нули (выбираемые значения); hl, h2 – разности между соседними значениями X и Y. Соответственно, для обратного перехода применяются выражения xi = h1ui + С1, уj = h2 j + С2, y h2 C2 , yâ = h 2 , x h1 u C1 , xâ = h1 u , где u , – средние значения условных вариант; u , – средние квадратичные отклонения условных вариант. Для подсчета выборочного коэффициента корреляции в этом случае используется формула k2 k1 râ uiU i nu i 1 n u jV j nu j 1 n u k2 k1 j 1 i 1 , где U i nij j , V j nij u i . Подсчитав выборочный коэффициент корреляции через условные варианты и осуществив переход к условным переменным, получают соответствующие уравнения регрессии. 4.2. Найти выборочное уравнение линейной регрессии X на Y на основании корреляционной таблицы xi yj 100 120 140 160 15 20 25 30 35 40 2 4 – – 1 – 5 – – 2 – 3 7 – 10 1 – – 5 2 – 3 2 3 29 Решение. Для упрощения расчетов введем условные варианты. ui = (xi – 30)/5, j = (уj – 120)/20 и составим преобразованную корреляционную таблицу с условными вариантами, в которую внесем значения nu i и n j : ui -3 -2 -1 0 1 2 n -1 0 1 2 2 4 – – 1 – 5 – – 2 – 3 7 – 10 1 – – 5 2 – 3 2 3 10 9 22 9 nu 6 6 5 18 7 8 n =50 j i j Затем составим новую таблицу, в которую внесем посчитанные значения nijUi в правый верхний угол заполненной клетки и nijVj в левый нижний угол, после чего суммируем верхние значения по строкам для получения значений Vj и нижние значения по столбцам для Ui, подсчитаем величины uiUi и j Vj (табл. 4.1). Таблица 4.1 ui j –1 0 1 -1 0 1 2 Vj j Vj -2 1 -1 – 0 7 -7 – – -8 8 – -2 2 0 -8 0 -1 -1 5 10 -3 -2 -6 2 -2 -12 4 0 – -10 5 5 – 2 – – Ui -2 4 -3 3 6 6 uiUi 6 -8 -6 – – 0 10 10 0 1 2 5 5 5 5 2 2 4 9 6 3 0 4 2 2 6 3 6 8 0 9 16 k1 k2 i 1 j 1 – =17 – =17 Подсчитываем суммы uiU i и jV j . Параллельный подсчет этих 30 сумм осуществляется для контроля правильности расчетов. В данном случае k1 k2 i 1 j 1 uiU i = jV j = 17. Находим u , : u = (–3 · 6 – 2 · 6 – 1 · 5 + 1 · 7 + 2 · 8)/50 = – 0,24; = (–1 · 10 + 1 · 22 + 2 · 9)/50 = 0,6. Находим u 2 , 2 : u 2 =(9 · 6 + 4 · 6 + 1 · 5 + 1 · 7 + 4 · 8)/50 = 2,44; 2 = (1 · 10 + 1 · 22 + 4 · 9)/50 = 1,36. Определяем u , : u = 2 2 2 u2 u 2 ,44 0 ,24 1,54 ; 2 1,36 0 ,6 1. = Вычисляем выборочный коэффициент корреляции rв: rв = (17 – 50 · (–0,24) · 0,6)/(50 · 1,54 · 1) = 0,314. Осуществим переход к исходным вариантам: x = h1 u + С1 = 5 ·(–0,24) + 30 = 28,8, y = h1 + С2 = 20 ·0,6 + 120 = 132, xâ = h1 u = 5 · 1,54 = 7,7, yâ = h2 = 20 · 1 = 20. 2 Находим уравнение регрессии X на Y: 7 ,7 0 ,314 y 132 или x y = 0,12 y + 12,8. x y – 28,8 = 20 5. ДИСПЕРСИОННЫЙ АНАЛИЗ Дисперсионным анализом называется статистический метод анализа результатов испытаний, цель которого – оценить влияние одного или нескольких качественных факторов на рассматриваемую величину X. Схема однофакторного дисперсионного анализа рассмотрена ниже на примере исследования влияния различных видов рекламы на прибыль предприятия. Если разделить виды рекламы на несколько групп (уровней фактора) и через одинаковые интервалы времени измерять прибыль, то результаты можно представить в виде таблицы: 31 Номер измерения 1 2 · · · q Групповая средняя Уровни фактора Ф1 Ф2 ··· Фр х11 х21 · · · xql х12 х22 · · · xq2 ··· ··· · · · ··· х1р х2р · · · xqp x г1 x г2 ··· x гр Число измерений на каждом уровне считаем одинаковым и равным q. В последней строке помещены групповые средние для каждого уровня фактора. Общую среднюю можно получить как среднее арифметическое групповых средних: p x x ã j p j 1 На разброс прибыли относительно общей средней влияют как изменения уровня рассматриваемого фактора, так и случайные факторы. Для того чтобы учесть влияние данного фактора, общая выборочная дисперсия разбивается на две части, первая из которых называется факторной ( sô2 ), а вторая – 2 остаточной ( sîñò ). С целью учета этих составляющих вначале рассчитываются общая сумма квадратов отклонений вариант от общей средней p q Rîáù xij x j 1i 1 2 (7) и факторная сумма квадратов отклонений групповых средних от общей средней, которая и характеризует влияние данного фактора, p 2 Rô q x ã j x . j 1 (8) Последнее выражение получено путем замены каждой варианты в выражении Rобщ групповой средней для данного фактора. Остаточная сумма квадратов отклонений получается как разность Rост = Rобщ – Rф. Для определения общей выборочной дисперсии необходимо Rобщ разделить на число измерений pq: d îáù Rîáù pq , а для получения несмещенной общей выборочной дисперсии это выражение 32 нужно умножить на pq/(pq – 1): Rîáù 2 sîáù pq 1 , где pq – 1 — число степеней свободы несмещенной общей выборочной дисперсии. Соответственно, для несмещенной факторной выборочной дисперсии sô2 Rô pq 1 . где р – 1 – число степеней свободы несмещенной факторной выборочной дисперсии. Для несмещенной остаточной выборочной дисперсии число степеней свободы будет равно разности pq – 1 – (р – 1) = p(q – 1), и выражение дисперсии примет вид 2 sîñò Rîñò . pq 1 С целью оценки влияния фактора на изменения рассматриваемого параметра рассчитывается величина f íàáë sô2 2 sîñò . 2 Так как отношение двух выборочных дисперсий S ô2 и S îñò распределено по закону Фишера – Снедекора, то полученное значение f íàáë сравнивают со 2 значением функции распределения F = S ô2 / S îñò в критической точке fкр, соответствующей выбранному уровню значимости (см. Приложение 5). Если fнабл > fкр, то фактор оказывает существенное воздействие, и его следует учитывать, в противном случае он оказывает незначительное влияние, которым можно пренебречь. Для расчета Rобщ и Rф могут быть использованы также формулы p q 2 Rîáù xij2 pq x , (9) 2 px2 . (10) j 1i 1 p Rô x ã j j 1 5.1. Для проверки влияния внутрицехового оформления на качество продукции рассмотрены три участка по производству однотипной продукции и проведена выборочная проверка процента брака за пять месяцев. Результаты помещены в табл. 5.1. Методом дисперсионного анализа при уровне значимости = 0,05 проверить нулевую гипотезу о существенном влиянии оформления участка на качество продукции. 33 Таблица 5.1 Номер измерения 1 2 3 4 5 Групповая средняя Уровни фактора Ф1 Ф2 Ф3 2 4 3 2 1 3 5 4 3 6 1 4 5 10 3 2,4 4,2 4,6 Решение. Находим общую среднюю: x = (2,4 +4,2+ 4,6)/3 = 3,73. Для расчета Rобщ по формуле (5.3) составляем таблицу квадратов вариант: Уровни фактора Номер измерения Ф1 Ф2 Ф3 1 2 3 4 5 4 16 9 4 1 9 25 16 9 36 1 16 25 100 9 34 95 151 Вычисляем Rобщ: Rобщ = 34 + 95 + 151 – 3 · 5 · 3,732 = 71,3. Находим Rф по формуле (5.4) Rф = 5(2,42 + 4,22 + 4,62 – 3 · 3,732) = 14,1. Получаем Rост: Rост = Rобщ – Rф = 71,3 – 14,1 = 57,2. Определяем факторную и остаточную дисперсии: sô2 Rô 14,1 2 7 ,05 ; pq 1 Rîñò 2 sîñò 57 ,2 12 4 ,77 . pq 1 Находим f íàáë = 7,05/4,77 = 1,48. Для уровня значимости = 0,05, чисел степеней свободы 2 и 12 находим 34 fкр из таблицы распределения Фишера – Снедекора (см. Приложение 5): fкр (0,05; 2; 12) = 3,89. В связи с тем, что f íàáë < fкр, нулевую гипотезу о существенном влиянии внутрицехового оформления на процент брака отвергаем. ПРАКТИКУМ ПО МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕ Задания 1. Рассчитать и построить гистограмму относительных частот по сгруппированным данным (табл. 1), где mi – частота попадания вариант в промежуток xi , xi 1, 2. Найти несмещенную выборочную дисперсию на основании данного распределения выборки (табл. 2). 3. Проверить нулевую гипотезу о том, что заданное значение а0 является математическим ожиданием нормально распределенной случайной величины при 5 %-м уровне значимости для двусторонней критической области, если в результате обработки выборки объема n = 10 получено выборочное среднее x , а выборочное среднее квадратичное отклонение равно s1 (табл. 3). 4. При уровне значимости = 0,1 проверить гипотезу о равенстве дисперсий двух нормально распределенных случайных величин X и Y на основе выборочных данных (табл. 4) при альтернативной гипотезе Н1: x2 y2 . 5. Найти выборочное уравнение линейной регрессии Y на X на основании корреляционной таблицы (табл. 5). 6. При уровне значимости = 0,05 методом дисперсионного анализа проверить нулевую гипотезу о влиянии фактора на качество объекта на основании пяти измерений для трех уровней фактора (табл. 6). Таблица 1 Вариант 1 2 i 1 2 3 4 5 1 2 3 4 5 xi X xi 1 2–4 4–6 6–8 8 – 10 10 – 12 3–7 7 – 11 11 – 15 15 – 19 19 – 23 mi 5 8 16 12 9 4 6 9 10 11 Вариант 16 17 35 i 1 2 3 4 5 1 2 3 4 5 xi X xi 1 10 – 12 12 – 14 14 – 16 16 – 18 18 – 20 3–7 7 – 11 11 – 15 15 – 19 19 – 23 mi 4 12 8 8 18 6 8 10 12 4 3 4 5 6 7 8 9 10 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 - 6 2 -2 – 2 2–6 6 – 10 10 – 14 4–8 8 – 12 12 – 16 16 – 20 20 – 24 7–9 9 –11 11 – 13 13 – 15 15 – 17 5–8 8 –11 11 – 14 14 – 17 17 – 20 4–6 6–8 8 – 10 10 – 12 12 – 14 1–5 5–9 9 – 13 13 – 17 17 – 21 10 – 14 14 – 18 18 – 22 22 – 26 26 – 30 20 – 22 22 – 24 24 – 26 26 – 28 28 – 30 2 8 14 6 10 5 7 10 12 6 5 4 8 12 11 5 7 4 1 3 3 9 7 22 9 4 5 9 10 2 3 16 8 7 6 4 6 10 4 6 18 19 20 21 22 23 24 25 36 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 Продолжение табл. 1 5–7 4 7–9 14 9 – 11 12 11 – 13 8 13 – 15 2 11 – 14 3 14 – 17 8 17 – 20 14 20 – 23 15 23 –26 10 2–5 6 5–8 24 8 – 11 13 11 – 14 1 14 – 17 6 10 – 14 5 14 – 18 14 18 – 22 26 22 – 26 9 26 – 30 6 5 – 10 3 10 – 15 9 15 – 20 18 20 – 25 14 25 – 30 16 10 – 20 12 20 – 30 17 30 – 40 46 40 – 50 12 50 – 60 13 15 – 30 8 30 – 45 16 45 – 60 12 60 – 75 4 75 – 90 10 20 – 40 8 40 – 60 14 60 – 80 10 80 – 100 9 100 – 120 19 11 12 13 14 15 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 2–6 6 – 10 10 – 14 14 – 18 18 – 22 14 – 16 16 – 18 18 – 20 20 – 22 22 – 24 5 – 10 10 – 15 15 – 20 20 – 25 25 – 30 3–5 5–7 7–9 9 – 11 11 – 13 4–9 9 – 14 14 – 19 19 – 24 24 – 29 5 3 18 9 5 3 12 10 15 10 2 14 11 9 4 1 6 14 7 2 5 9 13 6 7 26 27 28 29 30 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 Окончание табл. 1 4 – 10 4 10 – 16 5 16 – 22 12 22 – 28 14 28 – 34 5 12 – 16 7 16 – 20 15 20 – 24 13 24 – 28 8 28 – 32 7 8 – 10 5 10 – 12 16 12 – 14 11 14 – 16 8 16 – 18 10 100 – 110 7 110 – 120 16 120 – 130 12 130 – 150 11 140 – 150 4 100 – 120 10 120 – 140 34 140 – 160 25 160 – 180 21 180 – 200 10 Таблица 2 Вариант 1 2 3 4 5 6 xi ni xi ni xi ni xi ni xi ni xi ni Распределение Вариант -6 -2 3 6 16 12 14 16 8 -10 -5 -1 4 17 25 44 16 15 4 8 16 24 18 31 14 28 27 430 450 500 19 20 18 12 0,01 0,04 0,08 0,14 20 19 28 31 22 2 6 8 9 21 20 13 12 5 37 xi ni xi ni xi ni xi ni xi ni xi ni Распределение -3 1 4 2 3 1 16 20 22 14 26 17 38 42 46 52 36 12 15 26 31 426 318 256 4 8 10 12 24 38 30 32 37 41 28 31 8 4 30 3 14 26 7 8 9 10 11 12 13 14 15 xi ni xi ni xi ni xi ni xi ni xi ni xi ni xi ni xi ni 10 14 16 22 13 24 14 9 3 6 8 14 8 14 10 18 0,2 0,3 0,5 0,6 16 11 10 13 3150 3170 3200 14 6 20 -4 -1 2 8 16 8 14 12 47 50 52 56 24 16 23 17 -6 -2 2 5 11 13 14 12 14 15 18 20 15 12 11 12 381 385 389 54 22 24 22 23 24 25 26 27 28 29 30 xi ni xi ni xi ni xi ni xi ni xi ni xi ni xi ni xi ni 0,1 16 0,02 32 10 14 -3 15 6 21 246 24 421 32 15 13 44 29 Окончание табл. 2 0,3 0,5 21 13 0,05 0,08 29 39 16 26 18 18 -1 5 7 11 25 19 9 11 14 32 23 24 250 257 12 14 428 432 44 24 18 23 24 5 14 8 48 52 46 25 Таблица 3 Вариант 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 a0 10 20 20 40 58 60 70 70 50 30 50 90 86 80 60 x 12 22 18 44 56 64 66 72 48 34 52 88 84 78 66 Вариант 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 s1 1 4 2 3 4 6 8 5 2 4 3 6 5 4 5 38 a0 100 80 80 50 60 90 80 70 70 60 42 60 30 40 84 x 96 78 84 48 54 96 86 68 74 62 46 62 34 38 80 s1 6 4 3 2 2 5 4 5 6 3 2 3 2 4 6 Таблица 4 Вариант 1 2 3 4 5 6 7 X Вариант Y xi 142 145 146 148 37 38 40 41 42 39 43 45 47 51 3,5 3,7 3,9 4,0 4,1 9 10 11 12 14 6,1 6,5 6,6 7,0 7,4 ni 3 1 2 4 2 1 4 3 6 4 2 3 4 2 1 3 5 4 4 4 5 3 2 1 2 3 1 4 2 yi 140 146 147 151 38 39 40 41 43 75 80 84 91 94 3,6 3,7 3,8 4,4 4,2 9 10 11 13 14 5,8 6,0 6,2 6,3 6,8 mi 5 3 2 2 4 3 2 2 3 4 2 3 4 2 3 5 2 1 4 5 6 4 8 3 6 4 5 2 3 20 22 23 24 26 3 4 2 2 4 18 19 20 22 23 6 3 4 2 5 16 17 18 19 20 21 22 39 X Y xi 42 45 46 50 30 32 33 34 36 42 44 48 50 53 31 35 40 42 44 61 62 64 67 68 12 16 19 21 25 ni 15 17 12 16 4 5 8 1 2 4 8 3 5 10 7 3 4 2 4 5 4 6 2 3 10 12 14 9 5 yi 84 87 92 96 30 31 32 34 35 44 45 46 51 55 29 32 33 35 39 60 63 64 68 70 14 15 20 21 24 mi 3 2 4 1 6 4 3 5 2 16 12 11 6 5 8 9 12 10 11 4 3 2 6 5 7 6 8 10 9 44 45 48 52 54 5 2 3 4 6 43 46 48 50 53 3 3 4 4 6 8 9 10 11 12 13 14 15 0,2 0,4 0,8 1,0 1,2 31 33 34 38 42 15 17 20 21 25 27 29 32 33 82 83 85 90 51 53 55 56 59 12 15 18 19 23 -8 -5 -3 1 3 4 6 4 2 5 3 6 2 1 3 2 1 3 2 4 6 3 9 6 2 2 1 3 4 6 5 4 3 2 2 5 3 1 4 3 2 4 5 4 2 0,4 0,5 0,9 1,2 1,4 85 88 95 97 100 20 22 23 25 26 28 29 30 32 -10 -9 -6 -3 15 18 20 23 27 44 46 47 50 52 10 14 15 18 21 25 3 5 6 6 6 1 3 4 2 5 4 2 2 3 1 8 9 4 9 14 18 12 6 7 5 4 3 6 4 5 8 6 7 4 10 9 7 4 6 23 24 25 26 27 28 29 30 40 16 18 21 24 25 71 73 75 79 80 70 72 73 75 78 10 11 13 14 6 7 9 10 10 11 12 14 16 12,1 12,5 12,7 13,0 13,2 23 25 26 28 Окончание табл. 4 12 18 3 10 25 1 14 29 4 8 36 6 6 40 6 4 68 10 5 69 14 8 70 13 10 74 12 3 78 11 12 16 7 10 18 4 12 21 8 8 25 5 8 28 6 10 9 5 14 10 3 12 12 4 14 13 8 1 6,5 2 8 7,4 5 7 8,2 3 2 9,1 7 7 9 9 5 11 12 4 12 14 6 14 9 8 15 6 1 12,2 4 2 12,4 8 4 12,5 3 1 12,7 2 2 13,0 8 8 30 7 7 35 8 6 41 2 9 46 3 Таблица 5 Вариант Корреляционная таблица Х 1 2 Y 14 24 34 44 5 10 15 20 25 30 4 6 8 8 10 32 4 12 16 17 4 6 18 6 Х 4 15 20 25 30 35 40 Y 100 2 1 7 120 4 2 3 140 5 10 5 2 160 3 1 2 3 Х 5 Y 105 115 125 135 145 19 20 25 30 35 40 45 4 2 3 1 1 4 2 3 2 10 2 3 1 1 8 3 8 Корреляционная таблица Х 10 15 20 25 30 35 Y 15 6 4 25 6 8 35 21 2 5 45 4 12 6 55 1 5 Х 20 25 30 35 40 45 Y 10 4 8 4 20 2 4 2 30 10 8 40 4 10 4 Х 3 Вариант 5 3 2 2 20 41 Y 100 110 120 130 140 Х Y 15 25 35 45 55 Х Y 10 30 50 70 90 Х Y 20 40 60 80 100 Х Y 80 100 120 140 160 10 15 20 25 30 35 40 2 3 4 8 5 3 2 4 4 6 4 2 5 4 5 10 6 1 5 5 10 15 20 25 30 35 10 10 6 5 5 10 4 2 5 8 4 5 4 6 1 2 3 3 4 7 2 4 10 15 20 25 30 35 2 3 2 4 4 2 3 8 7 5 4 5 10 6 6 4 5 10 1 5 4 10 12 14 16 18 20 22 2 4 4 2 3 6 8 5 5 10 1 10 6 3 4 7 4 2 5 5 10 15 20 25 30 5 1 2 3 6 4 10 10 4 4 5 2 8 7 5 3 2 4 6 5 4 5 Продолжение табл. 5 Х 6 7 8 9 10 11 Y 15 25 35 45 55 Х Y 30 40 50 60 70 Х Y 105 115 125 135 145 Х Y 14 24 34 44 54 Х Y 20 40 60 80 100 Х Y 15 25 35 45 55 10 15 20 25 30 6 4 6 8 21 20 2 5 12 1 5 5 6 5 10 15 20 25 30 35 6 2 1 4 4 5 3 5 4 10 10 4 2 2 12 17 22 27 32 37 5 2 3 1 4 3 4 3 7 1 5 8 10 1 8 2 23 4 1 2 1 4 2 3 2 10 2 3 1 1 8 3 9 35 5 3 2 1 10 15 20 25 30 35 1 2 4 5 5 3 7 4 5 2 4 3 4 6 6 10 2 4 8 5 10 5 10 15 20 25 30 2 4 6 2 5 9 22 3 4 3 1 5 6 10 15 20 25 30 2 Х 35 3 5 4 8 2 1 10 8 4 5 7 6 24 25 26 1 7 1 42 Y 10 20 30 40 50 Х Y 20 30 40 50 60 Х Y 10 20 30 40 50 Х Y 5 15 25 35 45 Х Y 15 30 45 60 75 Х Y 30 40 50 60 70 10 15 20 25 30 35 40 1 5 2 3 10 2 2 4 4 5 3 7 6 4 4 4 5 8 5 6 10 30 40 50 60 70 80 90 6 4 5 4 3 4 5 3 4 5 7 10 4 10 2 1 5 6 2 2 8 24 28 32 36 40 44 48 6 4 5 5 4 3 2 5 3 7 5 4 10 10 4 2 1 5 6 2 2 8 10 15 20 25 30 35 10 3 4 4 4 3 10 5 2 6 4 5 7 10 1 8 1 4 6 5 10 15 20 25 30 35 40 2 4 3 3 5 4 4 7 6 4 2 2 5 5 1 6 5 4 10 10 8 20 22 24 26 28 30 32 6 4 5 4 3 4 4 5 3 10 7 2 1 5 4 5 6 10 2 2 8 Окончание табл. 5 Х 12 13 14 15 Y 5 15 25 35 45 Х Y 10 20 30 40 50 Х Y 30 40 50 60 70 Х Y 30 50 70 90 110 5 10 3 2 Х 10 15 20 25 30 35 4 4 3 10 5 2 6 4 5 7 10 1 8 1 Y 100 110 120 130 140 Х Y 30 40 50 60 70 Х Y 36 46 56 66 76 Х Y 15 25 35 45 55 4 27 6 5 10 15 20 25 30 35 40 2 4 3 3 5 5 4 4 7 5 4 2 2 5 1 6 5 4 10 10 8 28 10 15 20 25 30 35 6 4 5 6 4 3 4 5 3 7 5 4 10 10 4 2 1 5 29 6 2 2 8 10 15 20 25 30 35 40 4 2 7 4 3 10 2 6 4 5 5 1 6 5 2 4 8 5 30 3 10 4 5 10 15 20 25 30 4 6 2 5 9 3 5 4 8 2 1 10 8 2 5 7 6 4 1 7 1 20 25 30 35 40 45 4 3 5 6 1 3 2 4 5 4 2 7 5 10 3 6 2 3 5 10 15 20 25 30 35 2 3 1 4 3 3 1 5 10 1 8 2 4 1 2 42 46 50 54 58 62 4 2 3 1 1 4 2 3 2 10 2 3 1 1 8 3 9 5 3 2 1 Таблица 6 Вариант 1 Номер измерения 1 2 3 4 5 Ф1 Ф2 Ф3 24 16 12 5 6 18 14 10 4 16 22 15 16 12 8 43 Вариант 16 Номер измерения 1 2 3 4 5 Ф1 Ф2 Ф3 8 12 11 10 14 18 23 22 20 21 34 36 32 30 33 2 3 4 5 6 7 8 9 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 10 8 7 18 6 16 10 20 25 24 34 36 26 25 30 12 16 15 17 14 12 16 15 17 14 44 45 48 45 40 16 12 10 11 10 9 11 10 12 9 14 5 14 4 12 9 8 9 7 5 38 30 34 36 38 10 8 7 5 9 10 8 7 5 9 40 36 32 35 30 18 20 22 25 24 4 6 5 6 5 12 9 10 7 8 14 16 12 16 14 28 24 22 20 23 20 26 28 24 27 20 26 28 24 27 38 28 30 32 26 26 15 28 30 26 12 18 24 20 23 17 18 19 20 21 22 23 24 44 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 Продолжение табл. 6 21 35 69 45 30 54 18 38 40 16 18 12 40 34 36 12 34 18 10 32 21 11 30 22 10 33 20 16 31 28 8 15 24 16 24 34 40 42 18 12 25 9 32 30 14 17 26 54 40 16 12 16 17 40 36 30 17 30 12 44 17 26 45 40 16 12 16 17 40 36 30 17 30 12 44 45 36 44 44 30 28 40 31 15 41 38 40 39 35 32 12 24 20 16 20 18 14 34 14 15 26 20 13 28 19 24 32 30 28 42 16 40 30 9 56 18 16 24 24 10 10 11 12 13 14 15 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 54 50 43 47 36 28 24 26 27 25 26 45 44 27 42 18 28 12 14 32 47 46 45 41 43 16 20 31 56 22 32 46 28 37 28 36 34 30 29 31 34 30 46 17 36 24 36 28 40 16 56 55 54 50 52 28 12 40 24 34 16 36 30 25 17 12 10 14 18 20 68 46 28 34 30 36 12 22 45 40 64 60 58 62 61 46 43 24 14 6 25 26 27 28 29 30 45 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 Окончание табл. 6 108 244 326 124 234 304 110 254 298 126 245 318 114 236 312 24 46 68 26 45 76 25 44 75 27 40 68 22 43 77 12 22 21 14 20 30 36 18 12 20 9 31 53 44 30 34 102 68 35 98 60 30 106 56 33 112 57 32 110 55 25 45 56 64 24 54 30 12 16 20 47 32 46 18 42 24 34 45 26 30 47 25 31 44 27 29 42 28 32 43 СПИСОК ЛИТЕРАТУРЫ 1. Гмурман В.Е. Теория вероятностей и математическая статистика / В.Е. Гмурман. – М ., 2000. 2. Кремер Н.Ш. Теория вероятностей и математическая статистика / Н.Ш. Кремер. – М., 2005. 3. Гмурман В.Е Руководство к решению задач по теории вероятностей и математической статистике / В.Е. Гмурман. – М., 1997. 4. Сборник задач по высшей математике для экономистов. Учеб. пособие / Под редакцией В.И. Ермакова. – М.: ИНФА, 2003. 46 СОДЕРЖАНИЕ 1. ВЫБОРКА И ЕЕ ПРЕДСТАВЛЕНИЕ…………………………………...3 1.1. Распределение частот…………………………………………………..3 1.2. Эмпирическая функция распределения……………………………….5 1.3. Полигон и гистограмма…………………………………………………7 2. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ…………………………………..9 2.1. Точечные оценки. Выборочная средняя и выборочная дисперсия…..9 2.2. Метод моментов………………………………………………………..11 2.3. Метод наибольшего правдоподобия………………………………….12 2.4. Интервальные оценки………………………………………………….14 3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ………………………...15 3.1. Основные понятия……………………………………………………..15 3.2. Сравнение выборочной средней с математическим ожидание……..17 3.3. Сравнение двух дисперсий……………………………………………19 3.4. Сравнение двух математических ожиданий…………………………21 3.5. Проверка гипотезы о распределении. Критерий Пирсона…………..23 4. РЕГРЕССИОННЫЙ АНАЛИЗ………………………………………….26 4.1. Линейная регрессия с несгруппированными данными……………...26 4.2. Линейная регрессия со сгруппированными данными……………….28 5. ДИСПЕРСИОННЫЙ АНАЛИЗ…………………………………………31 ПРАКТИКУМ ПО МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕ……………..35 Задания………………………………………………………………………35 СПИСОК ЛИТЕРАТУРЫ.…………………………....................................46 47 Составители: ИЗМАЙЛОВ Шамиль Зинурович САФИН Рашит Рафаилович Методические указания для самостоятельного изучения дисциплины «Математика» с контрольными заданиями Раздел IV «Математическая статистика» Технический редактор: С.А. Юдина Подписано в печать 02.02.09. Формат 60×84 1/16. Бумага писчая. Гарнитура «Таймс». Усл. печ. л. 2,73. Уч.-изд. л. 3. Тираж 100 экз. Цена свободная. Заказ № 14. Отпечатано с готовых авторских оригиналов на ризографе в издательском отделе Уфимской государственной академии экономики и сервиса 450078, г. Уфа, ул. Чернышевского, 145; тел. (347) 241-69-85. 48