Федеральное государственное образовательное учреждение высшего профессионального образования «ФИНАНСОВАЯ АКАДЕМИЯ ПРИ ПРАВИТЕЛЬСТВЕ РОССИЙСКОЙ ФЕДЕРАЦИИ» Кафедра «Теория вероятностей и математической статистики» И.Е. Денежкина, М.Г. Орлова, Ю.Н. Швецов Основы математической статистики УЧЕБНО-МЕТОДИЧЕСКОЕ ПОСОБИЕ для самостоятельной работы бакалавров Москва 2009 УДК 519.22(075.8) ББК 22.172 К1 Основы математической статистики Учебно-методическое пособие для самостоятельной работы бакалавров И.Е. Денежкина, М.Г. Орлова, Ю.Н. Швецов М., Финансовая академия, 2009, с иллюстрациями. . Пособие предназначено для подготовки бакалавров экономики и менеджемента Финакадемии. Оно может быть использовано как для проведения семинарских занятий, так и для организации самостоятельной работы студентов. По каждой теме кратко излагаются основные сведения из теории, даются решения типовых задач, упражнения для самостоятельной работы, рекомендации и задания для лабораторной работы, унифицированные задания для контрольных работ. Финансовая академия при Правительстве Российской Федерации, 2010 2 Содержание Введение.................................................................................................................................. 4 §1. Основы выборочного метода .......................................................................................... 6 1.1. Понятие о выборочном методе. ................................................................................. 6 1.2. Методы группировки экспериментальных данных ................................................. 8 1.3. Выборочные оценки и ошибки выборки................................................................. 12 1.4. Некоторые требования, предъявляемые к выборочным оценкам ........................ 18 1.5. Случайная повторная выборка для определения оценки доли признака ............ 18 1.6. Случайная повторная выборка для определения оценки генеральной средней 23 1.7. Оценка генеральной дисперсии .............................................................................. 27 1.8. Простая случайная бесповторная выборка ............................................................ 32 1.9. Эмпирическая ковариация ...................................................................................... 36 1.10. Межгрупповая дисперсия ...................................................................................... 41 Упражнения ...................................................................................................................... 43 Задания для контрольной работы № 1. .......................................................................... 48 §2. Статистическая проверка гипотез ................................................................................ 50 2.1. Основные понятия ..................................................................................................... 50 2.2.Сравнение выборочной средней с математическим ожиданием нормальной генеральной совокупности при известной дисперсии ............................................................. 55 2.3. Сравнение генеральных средних по выборкам одинакового объема при равных известных дисперсиях. ................................................................................................................ 56 2.4. Проверка гипотезы о равенстве математических ожиданий при известных дисперсиях .................................................................................................................................... 58 2.5. Проверка гипотезы о равенстве математических ожиданий при равных неизвестных дисперсиях ............................................................................................................. 61 2.6. Сравнение дисперсий двух нормальных распределений ...................................... 63 2.7. Критерии согласия .................................................................................................... 64 2.8. Распределение долей признаков .............................................................................. 66 2.9. Сравнение выборочной исправленной дисперсии с заданной дисперсией нормальной генеральной совокупности .................................................................................... 68 Упражнения ...................................................................................................................... 73 2.10. Задания для контрольной работы № 2 .................................................................. 77 § 3. Обработка результатов наблюдений ........................................................................... 77 3.1. Методические указания к лабораторной работе .................................................... 77 3.2. Задания для лабораторной работы .......................................................................... 85 Приложения ...................................................................................................................... 93 Ответы к упражнениям ...................................................................................................... 100 Заключение ......................................................................................................................... 101 3 Введение Математической статистикой называют раздел математики, посвященный математическим методам сбора, систематизации, обработки и интерпретации статистических данных. Статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками. Математическая статистика использует методы теории вероятностей, но решает иные задачи. В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты, свойства которых известны, устанавливаются свойства и взаимосвязи этих величин. Но часто результатом эксперимента является набор числовых (или их можно сделать числовыми) результатов, полученных повторением одного и того же случайного эксперимента в одинаковых условиях, по которым требуется сделать выводы о свойствах этого эксперимента и участвующих в нем величин. В ряде случаев бывает возможно высказать некие предположения об их распределении или о его свойствах. Тогда по опытным данным требуется подтвердить или опровергнуть эти предположения (“гипотезы”). При этом выводы могут быть сделаны лишь с определенной степенью достоверности, которая будет повышаться с увеличением количества экспериментов. Иногда некоторые свойства наблюдаемого эксперимента оказываются заранее известными и можно сформулировать какие-то априорные выводы о распределении: о наличии функциональной зависимости между наблюдаемыми величинами, о нормальности распределения, о его симметричности, о наличии у распределения плотности или о его дискретном характере и т. д. Наличие таких знаний помогает на основании результатов эксперимента делать выводы о прочих, неизвестных, свойствах распределения. Математическая статистика позволяет по результатам конечного числа экспериментов делать некоторые выводы о распределениях случайных вели- 4 чин, наблюдаемых в этих экспериментах. Точные выводы о распределении можно делать лишь тогда, когда проведено бесконечное число испытаний, что неосуществимо Коротко об истории математической статистики. Математическая статистика как наука начинается с работ знаменитого немецкого математика Карла Фридриха Гаусса (1777-1855), который на основе теории вероятностей исследовал и обосновал метод наименьших квадратов, созданный им в 1795 г. и примененный для обработки астрономических данных (с целью уточнения орбиты малой планеты Церера). Его именем часто называют одно из наиболее популярных распределений вероятностей – нормальное, а в теории случайных процессов основной объект изучения – гауссовские процессы. В конце XIX в. – начале ХХ в. крупный вклад в математическую статистику внесли английские исследователи, прежде всего К.Пирсон (1857-1936) и Р.А.Фишер (1890-1962). В частности, Пирсон разработал критерий «хиквадрат» проверки статистических гипотез, а Фишер – дисперсионный анализ, теорию планирования эксперимента, метод максимального правдоподобия оценки параметров. В 30-е годы ХХ в. Польский ученый Ежи Нейман (1894-1977) и английский Э.Пирсон развили общую теорию проверки статистических гипотез, а советские математики академик А.Н. Колмогоров (1903-1987) и член- корреспондент АН СССР Н.В.Смирнов (1900-1966) заложили основы непараметрической статистики. В сороковые годы ХХ в. А. Вальд (Румыния) (19021950) построил теорию последовательного статистического анализа. Математическая статистика бурно развивается и в настоящее время. 5 §1. Основы выборочного метода 1.1. Понятие о выборочном методе. Предметом исследования в математической статистике является совокупность объектов, однородных относительно некоторых признаков. Примером такой серии экспериментов может служить социологический опрос, набор экономических показателей или, наконец, последовательность гербов и решек при тысячекратном подбрасывании монеты. Множество всех объектов, объединенных этими признаками, называется генеральной совокупностью.. Число объектов генеральной совокупности называется объемом генеральной совокупности и обозначается N. Задачей исследования является изучение признаков генеральной совокупности, которые определяются влиянием некоторых случайных факторов. Для решения этой задачи проводится эксперимент (измерение, тестирование, анкетирование), в результате которого получают значение некоторой случайной величины (результаты тестирования, количество баллов). Если в эксперименте участвуют все объекты генеральной совокупности, то такое обследование называют сплошным (например, перепись населения). На практике сплошное обследование часто бывает невозможным (например, если при обследовании объект уничтожают), либо нерентабельным. В этих случаях применяют выборочный метод, который заключается в том, что из генеральной совокупности случайным образом извлекают n элементов. Эти элементы называются выборочной совокупностью или выборкой. Исследователь анализирует выборочную совокупность и на основании полученных показателей делает вывод о параметрах генеральной совокупности. Число объектов выборки называется объемом выборки и обозначается п. Еще рпз отметим, что отбор в выборку должен быть случайным, т.е. каждый элемент генеральной совокупности должен иметь равную вероятность 6 быть отобранным. Репрезентативность выборки (представительность) обеспечивается способом случайного отбора и объемом выборки. Различают два вида отбора: - случайная повторная выборка (отобранный элемент возвращается в генеральную совокупность) и - случайная бесповторная выборка (элементы не возвращаются в генеральную совокупность). По способам отбора можно выделить следующие виды выборок : простая случайная выборка; механическая выборка; типическая или районированная; серийная или гнездовая; многоступенчатая и многофазная выборки. Рассмотрим эти способы отбора подробнее. Простая случайная выборка. Каждому объекту генеральной совокупности присваивается свой номер, затем все номера от 1 до N наносят на отдельные карточки, помещают их в закрытый ящик или лотерейный барабан. Из этого барабана случайно (повторно или бесповторно) n раз извлекаются карточки с номерами. Соответствующие этим номерам объекты генеральной совокупности подвергаются исследованию. Иногда для этой же процедуры используют датчик случайных чисел. Если какое-либо из отобранных случайных чисел оказывается больше N, то его отбрасывают. Механическая выборка. Все объекты генеральной совокупности делят на n равных частей. Из каждой части отбирают каждый k-ый объект. Полученная таким образом совокупность объёмом в n элементов и образует механическую выборку. Например, N = 2000, n = 100. В этом случае будет получено 100 групп по 20 объектов. Из каждой группы выберем один, например, объект с номером 15. Заметим, что механическую выборку не рекомендуется применять, если суще- 7 ствует какая-либо систематическая повторяемость свойств среди механически отбираемых элементов. Типическая или районированная выборка. Вся генеральная совокупность делится на однородные группы (районы). Из каждой группы берётся число объектов, согласно его доле во всей генеральной совокупности Пример 1.1. Tипическая выборка: пусть обследуются бюджеты 6000 рабочих (N = 6000). Среди них 1000 рабочих средней квалификации и 3000 - высокой квалификации, 2000 - малоквалифицированных. Требуемый объем выборки п = 600 рабочих. Из каждой группы с помощью простой случайной бесповторной выборки или с помощью механической выборки отбирают в соответствии с удельным весом группы в генеральной совокупности: из 1-й 100 рабочих, из 2-й 200 рабочих, из 3-й 300 рабочих. Серийная или гнездовая выборка. Из генеральной совокупности отбирают не отдельные объекты, а целые серии, которые подвергают сплошному обследованию. Пример 1.2. Серийная выборка: пусть обследуются 3000 рабочих на наличие более 2-х детей. Рабочие разбиты на 150 бригад. Надо обследовать 10% всех рабочих. Берут любые 15 бригад из 150 с помощью простой случайной бесповторной выборки (пронумеровав все бригады и заготовив карточки на каждую тянут из ящика без возвращения 15 карточек) и исследуют их все полностью (п = 300). Многоступенчатый отбор. Из генеральной совокупности сначала производят отбор более крупных подмножеств, а затем из них отбирают более мелкие множества объектов. Наиболее часто применяется двухступенчатый отбор. Сначала серийная выборка подмножеств, а затем случайный отбор внутри каждого из них. 1.2. Методы группировки экспериментальных данных Допустим, из генеральной совокупности извлечена каким-то способом выборка объемом n, измерена некоторая величина Х, в результате чего получено 8 множество значений х1, х2, . . . хn. Это множество называется простым статистическим рядом. Он является первичной формой представления статистического материала. Отдельные значения статистического ряда называются вариантами. Если варианта хi появилась m раз, то число m называют частотой, а ее отношение к объему выборки m/n – относительной частотой. Последовательность вариант, записанная в возрастающем (убывающем) порядке, называется ранжированным или вариационным рядом. Таблица, в первой строке которой записаны все значения величины (варианты), во второй – соответствующие им частоты, называется безынтервальным вариационным рядом. Графическим изображением безынтервального вариационного ряда является полигон. Для его построения на оси ОХ откладывают значения вариант, на оси ОY –соответствующие им частоты. Точки с координатами (хi; mi) соединяют отрезками, полученная ломаная линия называется полигоном частот. Пример 1.3: В детском саду измерили массу тела 10 детей 5 лет. Полученные данные образуют простой статистический ряд: 24 22 23 28 24 23 25 27 25 25 Ранжированный ряд имеет вид: 22 23 23 24 24 25 25 25 27 28 Подсчитав частоты каждого значения, можно постороить безынтервальный вариационный ряд: Х 2 2 m 2 3 1 2 4 2 2 5 2 2 7 3 2 8 1 1 На рис. 1 представлен полигон этого вариационного ряда. 9 Рис. 1.1. Полигон вариационного ряда Длина R интервала [xmin; xmax] называется размахом ряда, т.е. R = xmax – xmin где xmax и xmin соответственно наибольшее и наименьшее значения варианты. Если выборка представлена слишком большим количеством различных значений случайной величины, группировку данных проводят в виде интервального вариационного ряда. Для этого диапазон варьирования признака разбивают на несколько равных интервалов и указывают количество вариант, попавших в каждый интервал. Количество интервалов k определяется условиями задачи исходя из требований исследователя. Зная количество интервалов, можно определить длину h каждого интервала: h =R/(k-1). Рассмотрим процедуру построения интервального вариационного ряда на примере. Пример 1.4. При диспансеризации производилось определение веса 100 человек одной возрастной группы. Получены значения от 60 до 90 кг. Размах ряда: R = xmax – xmin =90-60=30. Разобьем полученный диапазон на 6 интервалов (k=6). Тогда ширина интервала h=R/(k-1)=30/5=6. Расположим полученне данные в виде интервального вариационного ряда: интервалы 60-65 65-70 70-75 75-80 80-85 85-90 количество 14 34 29 15 6 2 Для удобного представления материал часто располагают в таком виде: 10 интервал се- m редина /h m интервала 60- 62,5 65 1 4 65- 67,5 70 70- 72,5 75 77,5 80 80- 82,5 85 4 ,83 1 5 5 ,67 2 9 75- ,33 3 4 2 2 ,5 6 1 ,00 85- 87,5 90 2 0 ,33 Графическим изображением интервального вариационного ряда является гистограмма. Для ее построения на оси ОХ откладывают интервалы шириной h, на каждом интервале строят прямоугольник выРис.1.2. Гистограмма вариационного ряда сотой m/h. Величина m/h называется плотностью частоты. Гистограмма является эмпирическим аналогом графика функции распределения. Для рассмотренного ряда гистограмма представлена на рис.2. 11 1.3. Выборочные оценки и ошибки выборки На практике для изучения закономерностейслучайных явлений массового характера. ипользуются именно выборками Выборочный метод математической статистики основывается на законе больших чисел , согласно которому результаты обработки выборки ограниченного объема можно распространять на всю генеральную совокупность. С вероятностной точки зрения важно подчеркнуть, что результат каждого наблюдения в предполагаемом испытании следует рассматривать как случайную величину, поскольку до проведения испытания заранее неизвестно, какое значение примет тот или иной результат наблюдения. Основными параметрами генеральной совокупности являются математическое ожидание (генеральная средняя) Е(Х) и среднее квадратическое отклонение . Это постоянные величины, которые можно оценить по выборочным данным. Оценка генерального параметра, выражаемая одним числом, называется точечной. Пусть имеется закон распределения генеральной совокупности (на практике обычно неизвестен): Х x1 x2 … xk P p1 p2 … pk xi - значение признака, Mi - число объектов с признаком xi. Оценки генеральной совокупности (генеральные оценки): pi Mi N (1.1) I - доля i-ого признака в генеральной совокупности, Отметим, что k pi 1 , т.к. M 1 M 2 ... M k N . i 1 k x0 pi xi i 1 - генеральная средняя 12 (1.2) D0 02 pi ( xi x0 ) 2 (1.3) - генеральная дисперсия Функция распределения случайной величины Х: F x P X x (1.4) Оценки выборочной совокупности (выборочные оценки): xi - значение признака, mi - число объектов в выборке с признаком xi; pi * m n (1.5) k - выборочная частота, pi 1 , т.к. m1 m2 ... mk n . i 1 k k m1 xi i 1 n (1.6) mi ( xi xв )2 i 1 n (1.7) xв p i xi i 1 - выборочная средняя k Dв в2 - выборочная дисперсия k x1 m1 x2 m2 ... xn xik mi k k k n n i 1 k n - (1.8) Выборочный начальный момент k-го порядка n mi ( xi xв ) k i 1 n k - (1.9) выборочный центральный момент k-го порядка . Если обозначить через mx число наблюдений, при которых значение признака Х меньше х, то частота события « Х < х» равна p ется функцией от х. 13 mx , т.е. частота являn Эта функция находится опытным путем, ее называют эмпирической функцией распределения и обозначают: F ( x) mx 1 mi n n xi x (1.10) Функция F (x) при фиксированном х является случайной величиной, распределённой по закону: k Р F * ( x) Cnk F k ( x) (1 F ( x)) n k , k (0, n) n (1.11) т.е. функция y nF ( x) k распределена по биномиальному закону. Обозначим любую из генеральных характеристик 0 , а соответствующую выборочную — в . Определение 3. в называется точечной характеристикой 0 . Определение 4. B 0 называется ошибкой выборки или точностью выборки. Ошибки выборки могут быть систематическими (например, если в выборке существует какая-либо правильная повторяемость; такие ошибки могут быть исключены) и случайными (их исключить невозможно, поэтому B и 0 совпадать не будут). Нельзя утверждать, что B удовлетворяет неравенству B 0 , можно лишь указать, с какой вероятностью оно выполняется. Определение 5. P0 ( B 0 ) называется доверительной вероятно- стью или надежностью выборки. Из неравенства B 0 следует что B 0 B , Интервал B ; B называется доверительным интервалом. Всвою очередь, B и B называются доверительными границами генеральной характеристики. 14 Пример 1.5. Пусть генеральная совокупность содержит 300 единиц и имеет следующий закон распределения некоторого количественного признака: X 3 5 7 9 11 Mi 15 45 120 78 42 300 pi Mi N 0,05 0,15 0,40 0,26 0,14 1 Произведена случайная повторная выборка объемом 30 единиц. Результаты выборочных наблюдений приведены в таблице X 3 5 7 9 11 mi 3 9 10 6 2 30 pi* mi 0, 0, 1 0, 1 1 3 15 n1 3 2 Вычислить генеральную и выборочную средние, генеральную и выборочную дисперсии, а также составить теоретическую и эмпирическую функции распределения. Решение.. По формуле (1.2) вычислим генеральную среднюю x0 3 0,05 5 0,15 7 0,40 9 0,26 11 0,14 7,58 По формуле (1.3) находим генеральную дисперсию: D0 0,053 7,582 0,155 7,582 0,47 7,582 0,269 7,582 0,1411 7,582 4,3436 Функция распределения F ( x) P X x имеет вид: 0 , при x 3 0,05, при 3 x 5 0,20, при 5 x 7 F ( x) 0,60, при 7 x 9 0,86, при 9 x 11 1 , при x 11 15 Соответствующие характеристики в выборочной совокупности находим по формулам (1.6) и (1.7): 1 1 x B 3 0,1 5 0,3 7 9 0,2 11 6,67 3 15 DB 0,13 6,672 0,35 6,672 0,29 6,672 1 7 6,672 3 1 11 6,672 4,56 15 Построим эмпирическую функцию распределения F * ( x) по данным выборки. Поскольку наименьшее выборочное значение признака равно 3, то F * (3) 0 . Значение x 5 наблюдалось 3 раза, следовательно, F * (5) 3 . 30 Значение x7 наблюдалось 12 раз из 30, потому F * (7) 12 ; значение 30 x9 наблюдалось 3+9+10=22 раза, следовательно, F * (9) 22 28 . При ; F * (11) 30 30 x 10 , F * ( x) 1 . Таким образом 0 , при x 3 0,1, при 3 x 5 0,4, при 5 x 7 F * ( x) 11 , при 7 x 9 15 14 , при 9 x 11 15 1 , при x 11 Пример 1.6. В партии из 6000 деталей 120 бракованных. Из этой партии произведена случайная повторная выборка объемом 200 единиц. Среди отобранных деталей оказалось 6 бракованных. Найти генеральную и выборочную доли бракованных деталей. 16 Решение. По условию доля бракованных деталей в генеральной совокупности равна p 120 0,02 (или 2%). Доля или частота бракованных 6000 деталей в выборке равна p m 6 0,03 (или 3%). n 200 Пример 1.7. Пусть X1, X2,…, X6 выборка из равномерного распределения на отрезке [7, 17]. F * ( x) соответствующая данной выборке эмпирическая 5 функция распределения. Найти вероятность P F * (12) . 6 Решение. В каждом испытании вероятность того, что) выбранные числа будут не более 12 равна 0,5, поскольку число 12 – середина отрезка [7, 17], а все возможные числа распределены на указанном отрезке равномерно. Таким обра- 5 зом, запись P F * (12) означает распределение вероятностей в схеме Бер6 нулли, в которой n = 6, k = 5, p = q = 0,5 , таким образом 5 1 5 1 5 3 1 1 1 1 P F * (12) С65 p 5 q 6 6 . 6 32 2 2 2 2 Пример 1.8. Пусть X1, X2,X3, X4 выборка из равномерного распределения на отрезке [9, 15]. F * ( x) соответствующая данной выборке эмпирическая функция распределения. Найти вероятность P F * (11) F (13) . Решение. n = 4, P xi 11;13 13 11 1 . 15 9 3 Тогда P F * (11) F (13) = P( xi [11;13]) 4 17 4 1 16 = 1 . 81 3 1.4. Некоторые требования, предъявляемые к выборочным оценкам Для того, чтобы выборочная или статистическая оценка B дала "наилучшее" оценивание параметра 0 , она должна быть: 1) несмещенной; 2) состоятельной; 3) эффективной. Определение 6. Статистическая оценка b называется несмещенной, если E B 0 . Если ;же E B 0 , то оценка B называется смещенной. Замечание. Свойство несмещенности оценки означает, что отсутствуют систематические ошибки. Определение 7. Статистическая или выборочная оценка B называется состоятельной, если при n она по вероятности стремится к оцениваемой характеристике 0 , т.е. lim P B 0 1, n Замечание. Свойство состоятельности обеспечивает сближение оценки с измеряемым параметром при увеличении числа измерений. Определение 8. Статистическая оценка B называется эффективной в некотором классе оценок, если о в этом классе на при заданном объеме выборки имеет наименьшую возможную дисперсию, т.е. D B min . На практике трудно найти оценку, чтобы она удовлетворяла всем указанным свойствам, однако выполнение всех этих требований желательно. 1.5. Случайная повторная выборка для определения оценки доли признака 1) Точечная оценка доли признака. Пусть 0 p . Точечной оценкой этой характеристики будет B 18 m p . n Очевидно, что эта оценка несмещенная. По теореме Бернулли m по вероятности стремится к n p - следовательно, оценка состоятельна. m pq 0 при n , следовательно, это эффективная Так как D n n оценка. 2) Интервальная оценка доли признака. Для неизвестного параметра определяется соответствующий доверительный интервал при заданной вероятности. Случайная величина m при n распределена по закону, близкому к n нормальному, следовательно, m P0 p 2 , m n n m n Поскольку (1.12) pq ,то n n m . P0 p 2Ф n pq Если р неизвестно, то в силу того, что (1.13) m является точечной оценкой для n р, удовлетворяющей всем требованиям, на практике можно заменить p m n 19 m m 1 n n n m . n (1.14) и n m P0 p 2Ф . m m n n 1 n (1.15) Замечание . Можно получить интервальную оценку доли признака р: ис- n ходя из следующего. Обозначим pq t , тогда по заданной доверительной вероятности P0 находим по таблицам t (приложение 2), откуда t pq и n t pq m p . n n Возведем обе части неравенства в квадрат: t 2 p1 p m . p n n 2 В результате преобразований получим квадратное неравенство оносительно р: m2 1 t p 2m t p 0. n 2 2 2 Если левая часть имеет корни р1 и р2, то в силу того, что коэффициент 1 t 2 0 , p1 p p2 , что и является интервальной оценкой р. Пример 1.9. В случайной повторной выборке объемом 400 единиц, произведенной для определения доли стандартных деталей в партии, частота стандартных деталей оказалась равной 0,950. Определить, с какой доверительной вероятностью процент стандартных деталей в партии может быть принят равным 95 %, если допустимая погрешность при его определении равна ± 2 %. 20 Решение. По условию п = 400, m 0,950 , 0,02 0,95 0,019. Опреn делить Р0. По формуле (1.15) находим: 0,019 400 n m 2Ф1,74 0,9181 P0 p 2Ф 2 Ф n 0 , 95 0 , 05 m m n 1 n Пример 1.10. Для определения процента изделий первого сорта в партии производится случайная повторная выборка объемом 200 единиц. В выборке число изделий первого сорта оказалось равным 160. Определить доверительные границы для процента изделий первого сорта в партии, которые можно принять с доверительной вероятностью равной 0,95. Решение. По условию P0 0,95, n 200, m 160, Найти и доверительные границы Вычисляем m 160 0,8. n 200 m m ; ; ; n n m m 1 n n 0,8 0,2 0,028. n 200 Определим t по известному значению Р0 (по таблице): 2Фt P0 0,95, t 1,96. Вычисляем P0 2Ф 2Фt , следовательно t , t 1,96 0,028 0,055. Отсюда доверительные границы : m 0,8-0,055=0,745; n и m =0,8+0,055=0,855.или 74,5 % и 85,5 % . n Рассмотрим задачу об определнии объема выборки, гарантирующего заданную ошибку. Пусть значение выборочной частоты неизвестно, а доля при- 21 знака р известна. Найдем объем выборки точность выборки n max , который обеспечивает с доверительной вероятностью P0 Т.к. P0 2Ф(t ) , по таблицам находим t n t2 m m , откуда n 2 1 n n m m 1 n n Пусть теперь неизвестна доля признака. В этом случае найдем гарантированный минимально необходимый объем выборки ет точность выборки Обозначим t2 2 с доверительной вероятностью P0 . A; m x . Функция n( x) Ax1 x Ax Ax 2 имеет n максимум в точке х = 0,5, следовательно, nmax Пример 1.11. n max который обеспечива, m 0,5 и отсюда n t2 2. 4 (1.16) Определить необходимый объем выбоки, который дает ошибку выборки, не превышающую 0,05 с доверительной вероятностью 0,991, если известно, что доля признака равна 0,8. Решение. По условию P0 0,991, 0,05, 1) По P0 = 0,991 определяем t m 0,8 . Найти n. n 2,61 . 2) По формуле (1.15) определяем t 2 m m 2,612 0,8 0,2 n 2 1 436 0,05 2 n n . Пример 1.12. Определить необходимый объем выборки, который дает ошибку выборки при определении доли изделий первого сорта, не превышаю- 22 щую 0,05 с доверительной вероятностью 0,991, если значение этой доли неизвестно. Решение. По условию 0,05; P0 0,991. По таблицам t 2,61 . По формуле (1.16) находим n max t2 2,612 681 4 2 4 0,05 2 . Как видим, объем выборки значительно вырос при неизвестной выборочной частоте. 1.6. Случайная повторная выборка для определения оценки генеральной средней Точечная оценка генеральной средней. k k k i 1 i 1 i 1 * Пусть 0 x0 xi pi , в xв xi pi xi mi . n Выборка рассматривается как п повторных независимых испытаний. Результат каждого испытания есть случайная величина xi, закон распределения которой совпадает с генеральным распределением, т.е. E[ xi ] x0 и D[ xi ] D0 . После n испытаний, получены n попарно независимых одинаково распределенных случайных величин,. xB x1 x2 ... xn - случайная величина. n n Всего выборок можно произвести N . Определив вероятность каждой выборки и составив закон распределения для x B , найдем x x2 ... xn 1 E xB E 1 n x0 x0 ... x0 x0 , n отсюда E xB x0 и x B - несмещенная оценка x0 . x B - состоятельная оценка x0 (по теореме Чебышева. 23 Рассмотрим дисперсию x x ... xn D( xi ) nD0 D0 D xB D 1 2 2 n2 n n n (1.17) D x B при n будет иметь минимально возможное значение, следовательно x B - эффективная оценка x0 . Итак, точечная оценка генеральной средней удовлетворяет всем необходимым требованиям. Интервальная оценка генеральной средней. P0 xb x0 2Ф xB (1.18) Формула (1.18) получена на основании частного случая теоремы Ляпунова, т.е. теоремы Лапласа для одинаково распределенных случайных величин при больших объемах выборки. Но D x B xB D0 согласно (1.17), следовательно, n 0 n . (1.19) Тогда n . P0 x B x0 2Ф 0 (1.20) Замечание Если значение 0 неизвестно, то егоследует заменить "хорошей" точечной оценкой. Считая, что. 0 x B x получим аналог формулы (1.20): n . P0 xB x0 2Ф x B (1.21) Пример 1..13. Определяется средний рабочий стаж x 0 большой группы рабочих. Произведена случайная повторная выборка 900 личных листков. Средний рабочий стаж в выборке оказался равным 15,5 годам, а среднее квад24 ратическое отклонение 4,8 года. С какой вероятностью можно утверждать, что отклонение выборочной средней от генеральной не превысит 0,5 года. Решение. По условию x B 15,5 ; B 4,8; 0, 5 ; n 900 . Найти P0 . t Вычисляем n 0,5 900 3,13 . B 4,8 По таблице находим 2Ф(3,13) 0,9983 , сле-довательно, по формуле (1.20) доверительная вероятность P0 0,9983 . Пример 1.14. По данным предыдущего примера найти доверительные границы при оценке генеральной средней, которые можно гарантировать с вероятностью 0,9500. Решение. По условию xB 15,5 ; B 4,8; P0 0,9500, n 900. Найти и xB , xB . Так как по формуле (1.20 ) P0 2Ф(t ), где дим t = 1,96. t B x n 1,96 4,8 t n , B x по таблицам нахо- 0,31. 900 Доверительные границы будут: 15,5 0,31 x 0 15,5 0,31 или 15,19 x 0 15,81. Пример 1.15. В условиях предыдущего примера определить необходимый объем выборки, при котором ошибка не превысит 0,5 с доверительной вероятностью 0,9990. Решение. По условию Po = 0,9990; x B 15,5 ; B 4,8; 0,5. Найти п. 25 t 3,29. Из равен- По таблицам 2Ф(t ) P0 0,9990 определяем 2 2 n 3,29 2 4,82 t в t , 998. n x 0,52 B 2 ства находим Пример 1.16. Случайная величина Х имеет показательное распределение (например, время бесперебойной работы устройства) с плотностью f ( x) e x , x 0. В таблице дан эмпирический закон распределения времени работы этого устройства Время работы Число устройств 0 - 20 20 - 40 40 - 60 60 - 80 100 40 15 4 Методом моментов найти точечную оценку параметра Решение. X 10 mi n 100/1 xв 30 50 15/ 40/159 59 159 70 4/159 159 1 3230 ˆ 1 (10 100 30 40 50 15 70 4) ; . 3230 xв 159 159 Пример 1.17. Случайная величина Х распределена по закону Пуассона k e P( X k ) . k! Результаты 120 независимых наблюдений X отражены в таблице Значение Х Частота 0 0 1 2 3 7 2 1 1 0 4 6 Методом моментов найти точечную оценку параметра . Решение. Математическое ожидание случайной величины Х равно . Составим эмпирический закон распределения относительных частот 26 Значение Х 0 1 Относительная частота 7/12 1/6 2 3 7/6 0 2/15 1 96 ˆ хв (0 70 1 20 14 2 16 3) 0,8. 120 120 Пример 1.18. По выборке x1 = 4; x2 = 3; x3 = 2; x4 = 4; x5 = 2. Определить точечную оценку p̂ параметра геометрического p распределения P( X k ) (1 p) k 1 p , где X – случайная величина, которая означает число испытаний до первого появления события, а p – вероятность появления события в одном испытании. Решение. Среднее выборочное значение случайной величины X Х 1 15 ( 2 2 1 3 4 2) 3 5 5 Отсюда точечная оценка параметра pˆ 1 1 . x 3 1.7. Оценка генеральной дисперсии Пусть n 0 D0 xi x 0 pi ; 2 0 2 i 1 n B DB xi x B 2 B 2 i 1 Поскольку заменяются две величины ( pi mi и n mi . n x0 x B ), то это вызывает смещение оценки D0 : E DB n 1 D0 . n Покажем это . Dв E ( X 2 ) E 2 ( X ). 27 (1.22) Известно что D( X С ) D( X ) Dв D( X С) Dв E( Х С) 2 ( X в C) 2 () . Пусть Х1, Х2,…, Хi ,...,Xn - независимые случайные величины, каждая из которых имеет один и тот же закон распределения с числовыми характеристии D(Xi)=D0. Пусть С Х о ками: E( X i ) хO подставим в (*), тогда: Dв E ( X X 0 ) 2 ( X в X 0 ) 2 . Найдем E[Dв]: EDB n 2 ( xi xo ) E xв х 0 E i 1 n 2 n 2 E ( xi x o ) i 1 D xв n n D( xi ) D nD D 0 0 0 n 1 D0 . i 1 n n n n n Итак E DB n 1 D0 . Что и требовалось доказать. n При больших п смещение невелико, им можно пренебречь, но при малых выборках оно существенно. n DB D0 есть несмещенная оценка дисперсии или Таким образм, E n 1 Dв* n Dв n 1 . (1.23) Тогда исправленное среднее квадратическое отклонение имеет вид: B Для интервальной оценки 2 1 k xi x B mi . n 1 i 1 используется n P0 x B x 0 2Ф , где B находится по формуле (1.24). B 28 (1.24) выражение Замечание. Однако для больших выборок можно считать, что B B . В случае малых выборок (п < 30) пользуются исправленной дисперсией по формуле (1.24). По закону больших чисел DB является состоятельной оценкой для D0 генеральной дисперсии. А так как множитель DB n 1 n 1 при n , то n DB также является состоятельной оценкой для D0 . Оценка DB , строn 1 го говоря, не является эффективной оценкой для D0 , однако при наличии нормального распределения ее можно считать приближенно эффективной. Замечание. Если известно точное значение математического ожидания « а » для n измерений, то E(Xi) = а где хi – отдельные измерения. Исправлен- ная (несмещённая) дисперсия находится по формуле 1 n 2 D xi a . n i 1 * B (1.25) Действительно. 1 n n i 1 E ( Dв* ) E xi a 2 1 n 1 n 2 2 D ( xi a) E ( xi a) Dxi E ( xi a n i 1 n i 1 1 1 n 2 0 (a a) 2 n 02 02 , т.е. E(D*в) = D0 . n i 1 n Пример 1.19. В ящике содержатся стержни трех размеров (N = 3): 12 см, 14 см и 16 см с соответствующими долями 0,1; 0,3; 0,6. Производится повторная выборка двух стержней (n = 2). Найти все возможные выборочные распределения и построить законы распределения для ном примере E xB x0 ; E DB xB и DB . Проверить на дан- справедливость D n 1 D0 ; D xB 0 . n n Решение. Определим количество возможных выборок: 29 равенств ~ ANn N n 32 9 . Закон распределения генеральной совокупности представлен в следующей в таблице X 12 14 16 P 0,1 0,3 0,6 Вычислим генеральные характеристики : x0 1,2 4,2 9,6 15; D0 0,9 0,3 0,6 1,8. Все выборочные законы представлены в следующей таблице. № выборки 1 2 3 4 5 6 7 8 9 x 12 12 12 14 14 14 16 16 16 12 14 16 12 14 16 12 14 16 1 1 1 1 1 1 1 mi 2 1 xB 12 13 14 13 14 15 DB 0 1 4 1 0 1 0,03 0,06 0,03 Pвыборки 0,0 1 Проверим, что p i 1 1 2 1 1 2 14 15 16 4 1 0 0,09 0,18 0,06 0,1 8 0,36 1. По данным последней таблицы получим строим законы распределения для x B и Dв и находим соответствующие характеристики. хв 12 13 14 15 16 P 0,01 0,06 0,21 0,36 0,36 1 E xB 0,12 0,78 2,94 5,4 5,76 15 , D x B 0,9 30 DB P 0 1 4 0,46 0,42 0,12 1 E[Dв]=0,42+0,48=0.9/ Итак, E xB x0 15; EDв D0 1 2 Откуда следует: EDв 1 0,18 0,9 , 2 D n 1 D0 и D xB 0 при n = 2. n n Пример 1.20. Даны результаты 6 независимых измерений одной и той же величины прибором, не имеющим систематических ошибок: 36; 37; 32; 43; 39; 41. Найдите несмещенную оценку дисперсии ошибок измерений, если истинная длина неизвестна. Решение. Представим исходные данные в виде таблицы: xi 32 36 37 39 41 43 р 1/6 1/6 1/6 1/6 1/6 1/6 Вычислим последовательно xв 1 1 114 (32 36 37 39 41 43) 228 38 ; 6 6 3 Dв 32 382 36 382 37 382 41 382 43 382 1 6 Отсюда Dв 75 1 36 4 1 9 25 12,5; 6 6 n 6 Dв 12,5 15. 5 n 1 Пример 1.21. В условиях предыдущей задачи найдите несмещённую оценку дисперсии ошибок измерений, если истинная величина известна и равна 37,8. Решение В этом случае в формулу подставляется не выборочное среднее, а истинная величина: 31 1 2 2 2 2 Dв (32 37,8 36 37,8 37 37,8 39 37,8 6 2 41 37,8 (43 37,8) 2 ) 1 76,24 33,64 3,24 0,64 1,44 10,24 27,04 12,71. 6 6 1.8. Простая случайная бесповторная выборка При оценке генеральных характеристик мы исходили из того, что выборка была произведена по схеме повторного случайного отбора. В случае бесповторной случайной выборки применяют те же формулы, что и для повторной выборки, но вычисление средних квадратических отклонений производится с поправочным коэффициентом. бесповтор. B 1 n . N (1.26) Оценка генеральной доли для бесповторной выборки есть p Теорема. Выборочная доля p m n M . N бесповторной выборки есть несме- щенная и состоятельная оценка генеральной доли p M N , причем её диспер- сия в2 pq N n pq 1 n . n N 1 n N (1.27) Доказательство. мМтематическое ожидание суммы равно сумме математических ожиданий слагаемых, поэтому и для бесповторной выборки M m m М p , т.е. - несмещённая оценка для p . n N n Рассмотрим теперь дисперсию бесповторной выборки: 32 m 1 в2 2 2 в2 (m) . n n Случайная величина m в случае бесповторной выборки имеет гипергеометрическое распределение и D ( m) n M M n 1 1 N 1 N N Подставим его в (*), получим: в2 1 n2 M M n n N 1 1 N 1 N 1 M M N n pq N n , 1 n N N N 1 n N 1 т .к. M p; 1 M q. N N При n N , т.е. если объём выборки много меньше N, можно считать, что выборка практически не отличается от повторной и дисперсии их приближённо 2 равны, т.е. в pq . n 2 Если n N , в 0, то выборочная доля будет совпадать с генеральной, и её дисперсия будет равна нулю. Рассмотрим теперь оценку генеральной средней для бесповторной выборки. Теорема: X в бесповторной выборки есть несмещенная и состоятельная оценка для генеральной средней X 0 , причем 2 2 2 ( xв ) о N n 0 1 n n N 1 33 n N (1.28) Доказательство.Пусть X1, X2,…,Xk – зависимые случайные величины. все они распределены так же, как и в повторной выборке, с теми же частотами, что и в генеральной совокупности. Xi a1 a2 … ak m1 N m1 N m2 N … mк N При этом E(xi) = x0 ; D0 02 – генеральная дисперсия. Обозначим С М xi x0 x j x0 Соv( xi , x j ). Если i j , то С – генеральная дисперсия ( С 2 ), Если i j , то С – ковариация (C = Cov(xi,xj)). xв x1 x2 ... xn n (1.29) 2 1 n 1 D xв 2 D xi 2 М ( x1 x0 ) ( x2 x0 ) ... ( xn x0 ) . n i 1 n Выделим из n 2 слагаемых те n слагаемых, где i j , тогда D xв 1 1 1 2 2 2 2 n cov( x , x ) ( n C ( n n )) .( 0 C (n 1)). 0 i j 0 n n2 n2 Пусть теперь объём выборки n = N, тогда x1,x2,…, xn – не случайные вели- чины, и дисперсия такой «выборки» D = 0, т.е. o C (n 1 0. 2 o2 Отсюда С Соv( xi , x j ) . Подставим это в последнее. равенство N 1 2 n 1 2 02 (n 1) 02 n 1 0 N n 0 1 D xв . о 1 . n N 1 n N 1 n N 1 n N 2 34 Теорема о несмещённости и состоятельности оценки генеральной средней и об оценке дисперсии бесповторной выборки полностью доказана. Пример 1.22. Для определения доли стандартных изделий в партии, содержащей 2500 деталей, произвели случайную бесповторную выборку объёмом 400 деталей.Доля стандартных деталей в ней оказалась равной 0,95. Известно также, что при повторной выборке того же объёма среднеквадратичное отклонение составляло B 0,011. Найти доверительную вероятность, если допустимая погрешность при определении этой доли равна ±2% Решение. По условию n 400 ;N= 2500; m 0,95; 0,02 0,95 0,019; B 0,011 . Найти P0 . n 1) B 0,011 бесп. B 1 n 400 0,011 1 0,010 N 2500 0,019 1,9 0,010 2) t 3) 2Ф1,9 0,9426, P0 0,9426 Пример 1.23. Выборочная совокупность объёмом 900 единиц является бесповторной и выделена из генеральной совокупности объемом 4500 единиц, при этом x B 15,5 B 4,8 . Определить доверительные границы при оценке генеральной средней, которые можно гарантировать с вероятностью 0,95. Решение. По условию n 900, N 4500, P0 0,950 . Найти xB , xB . n 900 4,8 1 4,27 N 4500 1) бесп. b 1 2) Так как P0 Ф(t ) 0,950 , то по таблицам t 1,96 3) t 1,96 4,27 0,23 . n 900 35 или Доверительные границы: 15,5 - 0,23 и 15,5 + 0,23, т.е. 15,27 x 0 15,73. Заметим, что ошибка приближенного равенства x B x0 для бесповторной выборки может быть вычислена по формуле: x о2 N n 02 n 1 n N 1 n N в (1.30) 1.9. Эмпирическая ковариация xi X ( ) Пусть и y j Y ( ) заданы на совокупности 1 , 2 ,..., n . Cov(X,Y) – ковариация признаков X, Y в генеральной совокупности объема N. Тогда ковариация выборочных средних определяется следующими соотношениями: Соv( Х ,У ) Соv( Х ,У ) Соv X , Y n - в случае повторной выборки, (1.31) Соv X , Y N n - в случае бесповторной выборки. n N 1 (1.32) Совместное частотное распределение признаков имеет вид x1 x2 …… xk y1 m11 m12 …… m1k y1 m21 m22 …… m2k : : : : : : : : : yl ml1 m l2 X Y : …… : : …… m lk где mij – частота пары (xi ,yj). Эмпирическая ковариация на основе такой таблицы определяется по формуле 36 1 k l Соv( X , Y ) xi x в y yв mij . n i1 j 1 (1.33) Эмпирический коэффициент корреляции ( X ,Y ) признаков определяется: cov( X , Y ) . в ( x) в ( y ) (1.34) Пример 1.24. Совместное частотное распределение признаков задано таблицей : x1 = 2 x2 =3 y1 =2 2 0 y2 =3 3 1 X Y Найти эмпирический коэффициент корреляции k Решение. l m i 1 j 1 ij n 6 Находим отдельные частотные распределе- ния признаков xв 1 13 1 16 (10 3) , y в (4 12) . 6 6 6 6 Cov( x, y ) 1 13 8 13 8 13 8 1 2 2 2 2 3 3 3 3 1 . 6 6 6 6 6 6 6 18 2 1 5 13 в ( x) 5 5 ; Dв ( x) (4 5 9 1 6 36 6 36 6 2 2 1 22 64 2 8 Dв ( y ) (8 36) в ( y) . 6 3 9 9 3 3 ( x, y ) 1 covx, y 18 в ( x) в ( y ) 5 2 6 37 3 1 0,316. 10 Пример 1.25. Три интегральные кости разных цветов подбрасываются до тех пор, пока не выпадет 18 различных с учетом цвета комбинаций очков. Пусть Si – сумма очков на всех 3-х костях в i-ой комбинации, s среднее арифметическое всех этих сумм, i = 1, 2,…,18. Найдите математиче- ское ожидание и дисперсию среднего значения s. Решение. xi – число очков на каждой из костей соответственно x1,x2 и x3 – независимы, одинаково распределены и заданы таблицей: xi 1 2 3 4 5 6 р 1/6 1/6 1/6 1/6 1/6 1/6 Комбинации различные, следовательно выборка – бесповторная, объем её n=18, N=63= 216. S x1 x2 x3 ; S 1 ( s1 s2 ... s18 ) ; 18 1 1 6 6 3,5 ; E ( x1 ) E ( x2 ) E ( x3 ) 6 2 D( x1 ) D( x2 ) D( x3 ) 1 4 9 16 25 36 3,52 35 ; 1 6 12 E (S ) E ( x1 x2 x3 ) 3,5 3 10,5 E (S ) 1 E ( s1 s2 ... s18 ) E ( S ) 10,5 18 D(S ) D( x1 ) D( x2 ) D( x3 ) D( S ) 35 35 3 12 4 D( s ) N n 35 216 18 77 n N 1 4 18 216 1 172 . Пример 1.26. Признак Х(к) задан на множестве 1,2,...,12 таблицей: 38 K 1 2 3 4 5 6 7 8 9 10 11 1 2 Х(к) 1 3 2 1 3 3 1 2 3 3 1 2 Из извлекается случайная повторная выборка объема 7. Найдите математическое ожидание и дисперсию среднего значения X признака Х в выбор- ке. Решение. Генеральная совокупность имеет закон распределения: Х(к) 1 2 3 р 4/12 3/12 5/12 Ее объем N = 12, объем повторной выборки n = 7 Последоваьельно вычисляем: X0 1 25 (4 6 15) 12 12 2 1 25 61 625 107 D0 (4 4 3 9 5) . 12 12 12 144 144 D( X в ) D0 107 n 144 7 Пример 1.27. В некотором городе болельщики футбольной команды А составляют 24%, команды В 30%. Известно, что объём бесповторной выборки составляет 14% от числа жителей города. Пусть p̂ A – выборочная доля болельщиков команды А, nB – число отобранных болельщиков команды В. Найдите Cov ( p̂ A , nB ) (приближенно). болеют за команду А 1, 0, не болеют за команду А. Решение.Пусть X болеют за команду B 1, Y Пусть 0, не болеют за команду B. 39 Х и Y – несовместные случайные величины. Их законы распределения, а также совместный закон рапсределения представлены в таблицах; Х 0 1 Y 0 1 XY 0 Р 0 0 Р 0, 0, Р 1 7 3 ,76 ,24 E(Х) = 0.24; E(Y)= 0,3; E(ХY) = 0; D(Х)= 0,24 - 0,0576 = 0,1824; D(Y) = 0,3 - 0,009 = 0,21; n = 0,14N; cov(Х,Y )= E(ХY) - E(Х) E(Y) = 00,24 0,3 = - 0,072. cov( pA ; nB ) cov( хв ; n yв ) n cov хв , yв n cov X , Y N n . n N 1 Отсюда в нашем примере n 0,14 N cov( p A ; nB ) 0,072 1 0,072 1 0,06192. N N Пример 1.28. Значения признака Х в генеральной совокупности заданы таблицей частот Интервал 10 - 14 14 - 18 18 - 22 Частота 5 11 9 Из этой генеральной совокупности производится бесповторная выборка объёма 5. Найдите среднеквадратическую ошибку в приближённом равенстве X0 Xв. Решение. Представим исходные данные в виде такой таблицы X I 12 16 20 P 5/25 9/25 11/25 40 X0 D0 1 424 (60 144 220) 16,96; 25 25 1 (144 5 256 9 400 11) 16,96 2 296,96 287,6416 9,3184. 25 Далее по формуле (1.29) D( xв ) 2 N n n Отсюда xВ N 1 2 n 4 1 86,8326 . n N 25 86,8326 2 9,3184 3,727 . 25 5 1.10. Межгрупповая дисперсия Пусть совокупность объёма n разбита на к групп, ni – число элементов i-й группы. Пусть Х – некоторый признак, он встречается в каждой их групп, при этом хi –групповое среднее в i-ой группе.. Тогда среднее во всей совокупности можно высислит по формуле: х0 n1 x1 n2 x2 ... nk xк n1 n2 ... nk (1.35) Это озачает, что среднее значение признака во всей совокупности есть взвешенное среднее групповых средних. 2 Аналогично можно вычислить i – i-ую групповую дисперсию. Взве- шенное среднее групповых дисперсий 2 называют среднейя групповой дисперсией: n1 12 ... nk k2 , n1 n2 ... nk 2 (1.36) Кроме того, вычисляют межгруппоую дисперсию: 2 2 n x x n2 x2 x 0 ... nk xк x0 1 1 0 n1 n2 ... nk 2 41 2 . (1.37) Общая дисперсия равна сумме средней групповой и межгрупповой дисперсии: 2 2 D( X ) 2 , где первое слагаемое (1.38) характеризует разброс групповых средних х1 , х 2 ,… хk , а второе слагаемое характеризует среднюю изменчивость в каждой группе. Пример 1.29. Статистические данные о результатах экзамена в 5-ти группах приведены в таблице: Средний №№ Число студентов ni Групп балл Среднее квадратичное хi отклонение ФК2-13 24 72 5 ФК2-14 22 70 4 ФК2-15 22 68 6 ФК2-16 21 69 6 ФК2-17 23 71 4 i2 Экзамен проводился в разных аудиториях, условия экзамена во всех аудиториях были одинаковы.. В одной из них оказалось 30 человек. Найти математическое ожидание и дисперсию среднего балла по результатам, полученным в данной аудитории. Решение. N = 24 + 22 + 22 + 21 + 23 = 112; n = 30. 1) Вычислим средний бал: х0 n1 x1 n2 x2 ... n5 x5 n1 n2 ... n5 24 72 22 (70 68) 21 69 23 71 70,05. 112 2) Межгрупповая дисперсия: 42 2 2 n x x n2 x2 x 0 ... n5 x5 x0 2 1 1 0 n1 n2 ... n5 2 24 72 70,05 22 70 70,05 (68,5 70,05) 2 112 2 2 21 69 70,05 23 69 70,05 (71 70,05) 2 2,033. 112 2 2 3) Средняя групповая дисперсия: 2 n1 12 n2 22 ... n5 52 24 52 22 (4 2 6 2 ) n1 n2 ... n5 112 21 6 2 23 4 2 3,29. 112 4) Общая дисперсия: 2,033 3,29 5,323 M x X 70,5 2 D( x ) 2 В D( xB ) 2 0 D( X ) N n 5,32 112 30 0,133. 30 112 1 n N 1 Упражнения 1.1. Привести числовой пример и описание простой случайной выборки (повторной и бесповторной). 1.2. Привести числовой пример и описание механической выборки. 1.3. Привести числовой пример и описание типической выборки. 1.4. Привести числовой пример и описание серийной выборки. 1.5. Привести пример двухступенчатой выборки. 1.6. Имеются 4 стержня следующих размеров: 20 см (2 стержня), 21 см и 22 см. производится повторная выборка двух стержней. Составить все воз- можные выборочные распределения для X B и DB . Найти M xв , M Dв и проверить их связь с соответствующими генеральными характеристиками. 1.7. В выборке объемом 500 единиц, произведенной для определения процента всхожести зерна, установлена частота доброкачественных зерен 0,96. Определить, с какой степенью надежности может быть принят процент всхоже43 сти, равный 96 %, если допустимая погрешность при его определении равна 2 %. 1.8. Для определения процента изделий 1-го сорта в партии (доли признака) производится случайная повторная выборка объемом в 100 единиц. В выборке установлено, что число изделий первого сорта 75 единиц. Определить доверительные границы для процента изделий первого сорта во всей партии, которые могут быть гарантированы с доверительной вероятностью 0,99. 1.9. Определить необходимый объем выборки, который гарантировал бы ошибку выборки, не превышающую 0,1 с вероятностью 0,999. Ориентировочно известно, что m 0,9 . Выборка случайная повторная. n 1.10. В условиях предыдущей задачи определить необходимый объем выборки, если значение m неизвестно. n 1.11. Для определения доли брака продукции отобрано 1000 единиц, из которых бракованных оказалось 50. Выборка случайная повторная. Найти с вероятностью 0,954 пределы возможного отклонения выборочно установленной частоты брака от доли брака во всей совокупности. 1.12. Сколько семян надо отобрать для определения процента всхожести, чтобы с вероятностью 0,977 можно было утверждать, что отклонение частоты доброкачественных семян от их доли, равной 0,99, не превышало по абсолютной величине 0,02? 1.13. Численность повторной выборки – 800 единиц. Доля признака 0,4. Найти с вероятностью 0,8, в каких пределах находится отклонение частоты от доли признака. 1.14. Проверено 3000 электрических лампочек. Доля брака в этой партии составляет 0,15. Какова вероятность того, что отклонение выборочно установленной частоты брака от доли брака во всей продукции не превышает по абсолютной величине 0,01 (выборка повторная). 1.15. Для определения доли изделий первого сорта в партии из 1000 штук была произведена выборка объемом в 100 единиц. В отобранной пробе частота изделий первого сорта оказалось равной 0,75. Оценить с вероятностью 0,90 доверительные границы для определяемой доли. Расчет произвести для повторной и бесповторной выборки. 1.16. Определить необходимый объем выборки, который ту же предельную погрешность, что и в предыдущей задаче, обеспечит с вероятностью 0,99. 1.17. Построить график зависимостей необходимого объема выборки п от определяемой доли признака р, предельной погрешности и доверительной вероятности Р0. При построении задаться значениями остальных параметров произвольно. 1.18. Из партии готовой продукции объемом в 10000 единиц для определения доли брака производится бесповторная выборка. Определить необходимый объем этой выборки, который с вероятностью 0,99 гарантировал бы ошибку, не превышающую 0,1. Определить с вероятностью 0,96, в каких границах заключено отклонение выборочной средней от генеральной средней. 44 1.19. Для определения средней урожайности массива пшеницы площадью в 400 га был произведен случайный отбор 50 опытных участков, каждый площадью 0,25 га. Выборочная средняя урожайность оказалась равной 19 цга, а среднее квадратическое отклонение 1,5 цга. Найти с вероятностью 0,99 возможные пределы для определяемой средней урожайности. 1.20. Какой объем выборки необходимо взять, чтобы с вероятностью 0,98 можно было бы гарантировать отклонение выборочной средней от генеральной средней не более чем на 1 %? Предварительная выборка дала x B 40 и B 2. 1.21. Обследуется средняя продолжительность телефонного разговора. Сколько телефонных разговоров должно быть зафиксировано, чтобы с вероятностью 0,997 можно было бы утверждать, что отклонение выборочной средней от генеральной средней не превосходит 10 секунд, если среднее квадратическое отклонение равно 2,5 минуты? 1.22. Производится выборочное обследование возраста читателей массовых библиотек. Имеется 30000 читательских карточек. Сколько карточек необходимо взять для обследования, чтобы с вероятностью 0,99 можно было бы утверждать, что выборочная средняя отклонится от генеральной средней не более чем на 1 год? Среднее квадратическое отклонение принять равным 5 годам. 1.23. Испытание крепости отобранных 150 нитей дали следующие результаты: 330 – Крепости нити (в г) 210 – 250 250 – 290 290 – 330 370 Число нитей 30 70 40 10 Определить с вероятностью 0,99 среднюю крепость нитей всей партии. 1.24. При проверке бухгалтерской отчетности универмага установлено, что 80 счетов, случайно отобранных из 6000, имеют среднее дебетовое сальдо x B 85 руб. при среднем квадратическом отклонении B 26 руб. Найти с вероятностью 0,9 возможные пределы для среднего сальдо всех 6000 счетов. 1.25. В отрасли, включающей 1500 заводов, была составлена случайная выборка из 60 заводов. Результаты выборочного обследования показали, что на заводе работает в среднем 328 человек при среднем квадратическом отклонении 25 человек. С какой вероятностью можно утверждать, что отклонение выборочно установленного среднего числа работающих x B на одном заводе от среднего числа работающих на одном заводе во всей отрасли не превосходит 5 человек. 1.26. Пусть X1, X2,…, X9 – выборка из равномерного распределения на отрезке [6; 16]. F*(x) – соответствующая выборочная функция распределения. 4 Найдите вероятность P F (14) . 9 1.27. Пусть X1, X2, X3, X4, X5 – выборка из равномерного распределения на отрезке [10; 18], F*(x) – соответствующая выборочная функция распределения. Найдите PF (12) F (14) . 45 1.27. Случайная величина X (время работы элемента) имеет показа x тельное распределение с плотностью f ( x) e ( x 0) . По эмпирическому распределению среднего времени работы элемента в час методом моментов найдите точечную оценку неизвестного параметра xi 2,5 7,5 12,5 17,5 mi 131 43 12 6 1.29. Случайная величина X распределена по закону Пуассона P X k k е k! . Дана выборка случайной величины X в следующей таблице: xi 0 1 2 3 mi 204 157 79 25 (mi – число опытов, в которых событие наблюдалось xi раз). Найти точечную оценку неизвестного параметра . 1.30. По выборке x1 = 5; x2 = 4; x3= 2; x4= 4; x5= 3; x6= 2 найти точечную оценку параметра р геометрического распределек 1 ния: P( x к ) p (1 p) , где Х – случайная величина, означающая число испытаний до первого появления события А, а р – вероятность появления события А в одном испытании. 1.31. Даны результаты 8 независимых измерений одной и той же величины прибором, не имеющим систематических ошибок: 369, 376, 318, 422, 388, 401, 372, 383 м. Найдите несмещённую оценку дисперсии ошибок измерений, если истинная длина не известна. 1.32. Даны результаты 8 независимых измерений одной и той же величины прибором, не имеющим систематических ошибок: 365, 379, 315,425, 386,403, 374, 381 м. Найдите несмещённую оценку дисперсии ошибок измерений, если истинная длина известна и равна 373 м. 1.33. Совместное частотное распределение признаков задано таблицей: Y x =1 x=2 X y=2 4 2 y=3 0 3 Найдите эмпирический коэффициент корреляции 1.34. Значение признаков X и Y заданы на множестве 1,...,200 таблицей частот: X x = 200 46 x= x= 400 100 Y y=2 38 24 22 y=3 30 38 48 Из без воз вращения извлекаются 30 элементов. X в и Yв – средние значения в выборочной совокупности. Найдите Cov X в , Y в . 1.35. Три игральные кости, красная, зелёная и синяя подбрасываются до тех пор, пока не выпадет 20 различных с учётом цвета комбинаций очков. Пусть Si число очков на красной и зелёной костях в i-й комбинации, Ŝ – сред- нее арифметическое значение всех этих чисел, i = 1, 2,…, 20. Найдите математическое ожидание и дисперсию среднего значения 1.36. Признак X(к) задан на множестве S. {1,2,...,15} следующей табли- цей: 1 1 0 1 X(k) 2 1 3 1 1 3 2 1 1 3 2 k Из 1 2 3 4 5 6 7 8 9 12 13 14 15 1 3 2 2 извлекается случайная повторная выборка объёма 10. Найдите математическое ожидание дисперсию среднего значения Х признака X в вы- борке. 1.37. В некотором городе сделали прививку от гриппа 38% всех жителей, не сделали – 12%, но не заболели. Известно, что объём бесповторной выборки составляет 15% от числа всех жителей города. Пусть р̂А –выборочная доля, сделавших прививку, nв – число отобранных жителей, не сделавших прививку и не заболевших. Найдите приближённо Cov X в , Y в (примем, что человек не заболел после того, как сделал прививку). 1.40. Значения признака в генеральной совокупности заданы таблицей частот: 47 Интер- 11 – 15 – 19 – 23 вал 15 19 23 27 Частота 6 8 11 5 – Из этой совокупности производится бесповторная выборка объёма 6. Найдите среднеквадратическую ошибку в приближённом равенстве x xв . 1.41. Статистические данные о результатах ЕГЭ в трёх школах приведены в таблице: № Число Ср п школьников едний /п Среднее квадратическое отклонение бал 1 70 81 10 2 75 74 9 3 60 52 7 ЕГЭ сдавали на нейтральной территории в разных аудиториях. Условия экзамена во всех аудиториях одинаковы. В одной из них оказалось 35 человек. Найти математическое ожидание и дисперсию среднего бала по результатам, полученным в данной аудитории. Задания для контрольной работы № 1. 1. В урне содержится пять видов шариков с диаметрами b 11, a 12, b 13, a 14 и b 15 мм с соответствующими долями 0,15; 0,17; 0,21; 0,22; 0,25. Производится повторная выборка двух шариков. Найти все возможные выборочные распределения, построить законы распределения xB и B 2 . Проверить справедливость равенств M xB x0 , M B 2 D xB n 1 2 0 , n 1 2 0 . n 2. Население города составляет 100000 (b+1) человек. Для определения доли детей дошкольного возраста произведена бесповторная выборка объемом 48 5000 (а+1) человек. Среди них оказалось 1200 (а+1) детей дошкольного возраста. Определить, с какой доверительной вероятностью можно утверждать, что доля детей дошкольного возраста отличается от найденной относительной частоты не более чем на b2 . 2000 3. Выборочным путем проверено 1000 (b+1) пластмассовых болванок из партии в 5000(b+1) штук. Среди них оказалось (а+3)% нестандартных. Определить границы, в которых заключено число нестандартных болванок во всей партии, если результат необходимо гарантировать с вероятностью 0,95b 20 . a b 21 4. Из 5000(а+1) рабочих предприятия выборочным путем отобрали 200(а+1) человек для обследования их заработной платы (выборка случайная бесповторная). Средняя выборочная заработная плата оказалась равной 130 (a b 1) руб., а дисперсия 940 (a b 1) . Определить: 1) вероятность того, что ошибка выборочной средней не превысит (a b 1) рубля; 2) с вероятностью 0,999 граничные значения генеральной средней. П р и м е ч а н и е. 10a +b – номер, соответствующий студенту в групповом списке. 49 §2. Статистическая проверка гипотез 2.1. Основные понятия Пусть (x1, x2,…, xn) - случайная выборка объёма n из некоторой генеральной совокупности (конечной или бесконечной). Каждое значение xi в этой выборке само является случайной величиной, даже если генеральная совокупность состоит из конечного числа элементов. Необходимо также иметь в виду, что случайная выборка из какой-либо генеральной совокупности должна соответствовать некоторой схеме испытаний, при реализации которой выявляется искомая случайная величина X. При этом полученные в вышеупомянутой серии испытаний значения случайной величины X должны быть независимыми и распределены по тому же закону, что и сама генеральная совокупность X (хотя бы и приближённо). Мы будем рассматривать гипотезы о виде и параметрах распределения некоторой генеральной совокупности, а также о сравнении выборок из различных генеральных совокупностей. Определение. Статистической гипотезой называется любое предположение относительно вида или параметров генерального распределения. Статистическая гипотеза называется параметрической, если она содержит утверждение о значении конечного числа параметров распределения, которое считается известным. Примеры параметрических статистических гипотез: - нормально распределенная случайная величина X имеет математическое ожидание a0 и дисперсию 2 ; - две нормально распределенные случайные величины имеют одинаковую дисперсию; Непараметрическая гипотеза - это утверждение о виде распределения. Например: 50 - выборка (x1, x2,…, xn) соответствует нормально распределённой случайной величине X. Пусть H0 и H1 - две взаимно исключающие гипотезы. Одну из них называют основной или нулевой гипотезой. Тогда конкурирующая или альтернативная гипотеза - это логическое отрицание H0. В качестве базисного предположения принимается утверждение о справедливости одной их этих гипотез. Отметим, что для одной основной гипотезы может быть выдвинуты несколько альтернативных Так, например, пусть случайная величина X имеет нормальное распределение со средним a и дисперсией 2 . Рассмотрим основную гипотезу: Н0 : a=0, 2 =1. В качестве альтернативных могут быть выдвинуты такие гипотезы: 1). H1 : a=0, 2 =2; 2). H1 : a≠0, 2 =1. Рассмотрим их подробнее. 1). Альтернативная гипотеза H1 по структуре такая же, как и основная. Базисное предположение в этом случае состоит в том, что случайная величина имеет нормальный закон распределения N(0, 2 ), причем значение дисперсии либо 1, либо 2. 2). Альтернативная гипотеза H1 более сложная, т.к. a может принимать различные значения. Базисное предположение состоит в том, что генеральное распределение имеет вид N(a,1), причем значение a неизвестно. Гипотеза такого вида называется двусторонней. Можно было бы выдвинуть альтернативные гипотезы H1: a<0 (левосторонняя гипотеза); или H1: a > 0 (правосторонняя гипотеза). Определение. Статистический критерий - это правило, по которому решают, принять или отклонить нулевую гипотезу H0 (соответственно, отклонить или принять альтернативную гипотезу H1). Обычно критерий задается с помощью критической области К . По рассматриваемой выборке вычисляется неко51 торая величина, зависящая от выборочных значений (статистика критерия). Если полученное значение принадлежит критический области К, нулевая гипотеза отвергается, в противном случае принимается. При этом возможны такие ситуации: 1. Гипотеза H0 верна и она принимается. 2. Гипотеза H0 отклоняется, хотя на самом деле она верна. 3. Альтернативная гипотеза H1 верна и она принимается. 4. Альтернативная гипотеза H1 отклоняется, хотя на самом деле она верна. Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно. Верная гипотеза H0 Результат H критерия H1 неверно отвергнуH0 верно принята 0 применения H 1 H1 та (Ошибка второго рода) H0 неверно отвергнута H1 верно принята (Ошибка первого рода) О смысле ошибок первого и второго рода Как видно из определения, ошибки первого и второго рода являются взаимно-симметричными, то есть если поменять местами гипотезы H0 и H1, то ошибки первого рода превратятся в ошибки второго рода и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) — например, что обследуемый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, альтернативная гипотеза H1 обозначает противоположную ситуацию, 52 которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции. С учётом этого ошибку первого рода часто называют ложной тревогой — например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня. Соответственно, ошибку второго рода иногда называют пропуском события — человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, изза того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов). Определение. Вероятность ошибки первого рода при проверке статистических гипотез называют уровнем значимости и обычно обозначают α (отсюда название α-errors). Вероятность ошибки второго рода обозначается β (отсюда βerrors). Величина (1 − β)— мощность критерия. Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода. В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением и является уровень значимости. Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности - к увеличению риска ошибки второго рода (пропуск запрещённого предмета). Итак, выбирается критерий, т.е. статистика t(x1 ,… .xn) и критическая область. затем задают уровень значимости критерия α. При этом область значений критерия разбивают на части: область принятия гипотезы H0 и область отклонения (критическая область К). Вероятность отклонения гипотезы H0 в точности 53 совпадает с уровнем значимости: P( t K) = . Для двусторонней гипоте- Область принятия Область отклонения 1 К1 Область отклонения К2 зы вся ситуация отражена на рисунке 2.1. К Рисунок 2.1 Критическую область в этом случае можно задать в виде двух неравенств K= {t < К1} {t > K2}, критические значения К1 и К2 находим по заданному уровню значимости α из уравнений P(t < К1) = α /2 и P(t > K2) = α /2. Дальнейшее изложение требует знания некоторых стандартных статистических распределений. Напомним их определения. Пусть Z1, Z2,…,Zk распеределены по стандартному нормальному закону N(0,1). Случайная величина Y= Z12 +Z22 +…+Zk2 распределена по закону, который называется распределением 2 с k степенями своботы и обозначается 2(k). Распределение случайной величины T (k ) X , где X и Y независимы и Y (k ) XN(0,1), и Y2(k), называется распределением Стьюдента с с k степенями своботы и обозначается t(k). Распределение отношения X (k ) где X и Y независимы и X2(k), и Y (l ) Y2(l), называется распределением Фишера с k и l степенями своботы и обозначается F(k,l). 54 Для каждого из этих определений методами теории вероятностей можно найти функцию плотности f(x), а также функцию распределения F(x). Однако практически этими распределениями пользуются с помощью таблиц, в которых приведены критические значения критериев для различной доверительной вероятности и определенном числе стпеней свободы. 2.2. Сравнение выборочной средней с математическим ожиданием нормальной генеральной совокупности при известной дисперсии Пусть (x1, x2,…, xn) – выборка объёма n извлечена из некоторой генеральной совокупности, распределённой по нормальному закону с известным мате2 матическим ожиданием a и дисперсией . Необходимо сравнить выборочную среднюю с генеральной средней. Нулевая гипотеза H0: E(X) = a. Построим критерий проверки этой гипотезы. Рассмотрим величину x x1 x2 ... xn . n Её математическое ожидание E ( x ) = a, дисперсия D( x ) = следовательно ( x )= n Di n2 Di 2 , n n . n Введем статистику Z x a n. (2.1) Утверждение: Если гипотеза H0 верна, то случайная величина Z имеет стандартное нормальное распределение. Пример 2.1. Рост абитуриентов среди поступающих юношей-подростков в Финансовую Академию при Правительстве РФ распределён по нормальному закону с математическим ожиданием a = 181 см и среднеквадратическим отклонением = 3 см. Для выдачи медицинских справок об основных физиоло- 55 гических показателях были случайно отобраны 8 абитуриентов, полученные данные о их росте приведены в следующей таблице: № 1 2 3 4 5 6 7 8 9 X (Рост, см) 185,5 180,3 182,7 177,7 178,8 181,9 174,2 180,7 180,7 Проверим гипотезу о равенстве средней по выборке и математического ожидания по этому показателю у обследованных абитуриентов. Положим уровень значимости = 0,1; Решение. Введем переменную U = X – 180. Составим вспомогательную таблицу: № 1 2 3 4 5 6 7 8 9 U 5,5 0,3 2,7 -2,3 -1,2 1,9 -5,8 0,7 0,7 2,5 Вычислим среднее значение по выборке . Получим U = 2,5 , следовательно X = 182,5 см. Применяя формулу (2.1), вычислим Zнабл = 182,5 181 9 = 1,5 3 Из уравнения ( z2 ) 0,5 2 =0,5 – 0,05 = 0,45 находим по таблице функции Лапласа (приложение 2) правое критическое значение z2 = 1,65. Поскольку zнабл (1,65;1,65) , то нулевая гипотеза H0 принимается. 2.3. Сравнение генеральных средних по выборкам одинакового объема при равных известных дисперсиях. Пусть (x1, x2,…, xn) и (y1, y2,…, yn) – выборки одного и того же объёма n из нормальных распределений N (a x , 2 ) и N (a y , 2 ) соответственно, причем значение известно. 56 Далее будем считать, что случайные величины X и Y независимы. В этих предположениях проверим нулевую гипотезу H0: a x = a y . Построим критерий проверки Z этой гипотезы. Рассмотрим величину Z: Z x y 2 n. (2.2) Если гипотеза верна, вновь полученная случайная величина Z имеет стандартное нормальное распределение N(0,1). Пример 2.2. Количество продаж молока по неделям (в тыс. литров), реализуемого в супермаркетах "Просто продукты" (ПП) и «Крестовский» (К), заданы в следующих таблицах: 1 П 15, П К 2 3 4 5 6 7 8 9 10,3 12,7 7,7 8,8 11,9 4,2 4,2 10,7 5 1 2 3 4 5 6 7 8 9 10, 11, 13, 12, 13. 13. 12, 13. 8, 8 1 6 5 7 7 4 7 5 Проверим гипотезу H0 о равенстве математических ожиданий при альтернативной гипотезе, что они не равны. Предполагается, что для этих супермаркетов стандартные отклонения продаж молока известны и равны = 2. Зада- дим уровень значимости = 0,1. Решение. Применив смещение обеих случайных величин на х0 = 10, т.е. введя переменные U=X-10, V=Y-10, составим служебные таблицы для новых переменных: № 1 2 3 4 5 6 7 8 9 U 5 0 2 - - 1 - - 0 - ,5 ,3 ,7 2,3 1,2 ,9 5,8 5,8 ,7 4 57 №1 2 3 4 5 6 7 8 9 V 0, 1 3 2 3 3 2 3 - 20, 8 ,1 ,6 ,5 .7 .7 ,4 .7 1,5 0 Последовательно получим: u 4 9 x 86 9,556 , 9 v = 20 2,222 y 110 12,222. 9 9 Вычислим статистику Z, применив формулу (2.2): Z x y 2 n 24 86 / 9 110 / 9 9, 9 92 2 2 2 Z набл 2 2 2,83. Из уравнения Ф(z2) = 0,5 - / 2 = 0,5 - 0,05 = 0,45 по таблице значений функции Лапласа (таблица приложения 2) находим левое критическое значение z1 = -1,65. Поскольку Z набл (1,65;1,65) , то гипотеза H0 отвергается. Таким образом отличие средних продаж молока в этих супермаркетах значимо. 2.4. Проверка гипотезы о равенстве математических ожиданий при известных дисперсиях Пусть (x1, x2,…, xn) - выборка объема n значений случайной величины X, подчиненной нормальному закону распределения с параметрами a x и x2 , причем значение параметра a x неизвестно, а значение дисперсии известно. Аналогично пусть (y1, y2,…, ym) - выборка объема m значений случайной величины Y, также имеющей нормальный закон распределения с неизвестным параметром a y и известную дисперсию 2 . y 58 Будем считать, что случайные величины X и Y независимы. В этих предположениях проверим нулевую гипотезу H0: a x = a y Построим критерий проверки этой гипотезы. Рассмотрим последовательно величины: x x1 x2 ... xn y1 y 2 ... y m и y . n m Величина x имеет нормальное распределение с параметрами E ( x) a x и D ( x) x2 / n , аналогично величина y - нормальное распределение с параметра- ми E( y) a y и D( y) y2 / m , поэтому величина ( x y ) распределена по нормальному закону с параметрами E( x y) a x a y =0. Для независимых случайных величин Х и Y получим D( x y ) x2 n y2 m . Определим статистику xy Z x2 n (2.3) y2 m Утверждение: Если гипотеза H0 верна, то случайная величина Z имеет стандартное нормальное распределение. В качестве альтернативной гипотезы H1 выберем, например, такую: ax a y .Для заданного уровня значимости α критические значения находим из условий P(Z < z1) = 0,5 α и P(Z > z2) = 0,5 α . Отсюда видно, что z1 = –z2, а правое критическое значение z2 получим из уравнения ( z2 ) 0,5 0,5 . В частности, если m =n, x= y= , то получим формулу (2.2). Кроме того, если сравнивается только один вариационный ряд с известным нормальным законом N (a, ) , то формула (2.3) принимает вид (2.1). Замечание. Данный критерий применяют, например, когда производится обследование характеристик товаров, выпускаемых на аналогичных предприя59 тиях. Предстоит выяснить, носит ли различие среднего выпуска статистический характер (различие незначимо) или обусловлено организацией производства (различие значимо). Пример 2.3. Количество продаж дезодоранта «Афродита» по месяцам (в тыс. флаконов), производимого на фабриках "Московские зори" (МЗ) и «Вестерн» (В), заданы в следующих таблицах: МЗ 1 2 3 4 5 6 7 8 115,5 110,3 112,7 107,7 108,8 111,9 104,2 110,7 В 1 2 3 4 5 6 7 110,8 111,1 113,6 112,5 112,4 113.7 108,5 Проверим гипотезу H0 о равенстве математических ожиданий при альтернативной гипотезе, что они не равны. Предполагается, что у этих фабрик стандартные отклонения известны и равны соответственно 1 =3 и 2 =2. Положим уровень значимости =0,1. Решение. Для удобства вычислений введем новые случайные величин U=X-110, V=Y-110.. Составим служебные таблицы для новых переменных: № 1 2 3 4 5 6 7 8 U 5,5 0,3 2,7 -2,3 -1,2 1,9 5,8 0,7 13,4 № 1 2 3 4 5 6 7 V 0,8 1,1 3,6 2,5 2,4 3.7 -1,5 12,6 Вычислим средние значения, получим u = 1,675 Z набл x = 111,675; v =1,8 y = 111,8. 1,675 1,8 0,125 0,0906 . 9 4 1,6964 8 7 Из уравнения Ф(z2) = 0,5 - / 2 = 0,5 - 0,05 = 0,45 60 находим правое критическое значение z2 = 1,65. Поскольку Zнабл (1,65; 1,65), то гипотеза H0 принимается. 2.5. Проверка гипотезы о равенстве математических ожиданий при равных неизвестных дисперсиях Пусть теперь для тех же выборок обе генеральные дисперсии неизвестны, но одинаковы, т.е. x2 y2 2 . Рассмотрим их выборочные средние и исправленные дисперсии: n xi x x 2 x1 x2 xn , s 2X i 1 n n 1 y j y m y y1 y 2 y m , sY2 m Известно, что x ~ N a X , , 2 j 1 m 1 . - нормально распределенные , y ~ N aY , m n случайные величины. Величины s 2X , sY2 подчинены 2 распределению соответ- ственно с ( n 1) и (m 1) степенями свободы. Поскольку случайные величины X и Y независимы, то величина U= имеет 2 m 1s 2X 2 n 1sY2 2 распределение с (m+n2) степенями свободы, а величина x y 2 2 1 1 N a X aY , . распределена нормально: x y ~ N a X aY , m n m n Поэтому нормализованная случайная величина V= x y a X aY 1 1 m n (2.5) имеет стандартное нормальное распределение N(0, 1), а отношение 61 V U m n 2 x y a X aY m 1s 2X n 1sY2 1 1 m n 2 1 mn2 2 имеет распределение Стьюдента с (m+n2) степенями свободы. Таким образом, если гипотеза H0: aх = aу верна, то величина xy T (2.6) 2 2 1 1 m 1s X n 1sY mn2 m n имеет распределение Стьюдента с (m+n2) степенями свободы. Эта величина используется в качестве критерия для проверки гипотезы H0. В качестве альтернативной к данной гипотезе рассмотрим гипотезу H1: ax a y .Зададим уровень значимости и построим двустороннюю критическую область. Левое критическое значение определим из уравнения Fn+m-2(x1) = 0,5 , где Fn+m-2(x) - функция распределения Стьюдента с (n+m-2) степенями свободы, а правое критическое значение по свойству чётности соответствующей функции плотности: x2=-x1. Далее проверка гипотезы аналогична изложенному в предыдущем разделе. Пример 2.4. Для того чтобы проверить технологию изготовления нового кваса "Будь здоров", периодически отбирают случайным образом 10 бутылок и находят концентрацию сахара. В следующей таблице приведены данные по стандартной партии (Х) и по очередной проверяемой (Y). № 1 2 3 4 5 6 7 8 9 10 X 11,93 9,43 10,43 8,93 9,93 9,43 7,43 8,93 8,43 9,93 Y 10,24 9,74 10,74 8,24 11,24 9,74 8,74 11,24 9,74 9,24 Выдвигаем нулевую гипотезу H0: aх = aу при конкурирующей гипотезе H1: aх ≠ aу. Положим уровень значимости α= 0,1. Проверим H0 Решение. Введём новые переменные u = x – 9,43; v = y- 9,24. Составим служебные таблицы для новых переменных: 62 № 1 2 3 4 5 6 7 8 9 10 U 2,5 0 1 -0,5 0,5 0 -2 -0,5 -1 0,5 0,5 U2 6,5 0 1 0,25 0,25 0 4 0,25 1 0,25 13,5 № 1 2 3 4 5 6 7 8 9 10 V 1 0,5 1,5 -1 2 0 -0,5 0 0,5 0 4 V2 1 0,25 2,25 1 4 0 0,25 0 0,25 0 9,5 Вычисление средних значений и стандартных отклонений дают следующие результаты u 0,05 x 9,48 ; v 0,4 v 9,64 , s x 1,22 , s y 0,89 . Учитывая, что в данном примере n = m = 10, мы можем вычислить критерий Tнабл.: Tнабл. xy 1 1 m 1 n 1 mn2 m n s 2X sY2 = 0,335. По данному значению α и по числу степеней свободы (n+m2) = 18 находим по таблице критическое значение Ткр2 == 1,73. Следовательно, область принятия имеет вид (1,73; 1,73). Поскольку найденное значение Tнабл. попадает в область принятия, то гипотезу H0 принимается. В этой задаче мы в первом приближении предполагали, что дисперсии обеих выборок статистически не различимы. Ниже будет показано, как оценить существенно ли отличаются дисперсии двух выборок из нормально распределённой совокупности. 2.6. Сравнение дисперсий двух нормальных распределений Пусть случайные величины X и Y распределены по нормальному закону. По выборкам значений X объема n и Y объема m требуется проверить нулевую гипотезу H0 о равенстве дисперсий этих случайных величин: 2(X) = 2(Y). Как обычно предположим вначале, что математические ожидания X и Y известны и рассмотрим случайную величину F s 2 X 63 s 2 Y , sx > sy. (2.7) Указанная случайная величина распределена по закону ФишераСнедекора со степенями свободы (n1) и (m1). Пример 2.5. По двум независимым выборкам значений нормально распределенных случайных величин X и Y, объемы которых равны 9 и 6, найдены выборочные дисперсии s X2 = 23,27 и sY2 = 8,91. При уровне значимости = 0,1 проверить двустороннюю нулевую гипотезу H0: D(X) = D(Y) . Решение. Поскольку sX > sY ,то находим значение критерия ФишераСнедекора: Fнабл 2 23,27 2,612 . Число степеней свободы 8 и 5, а значение 8,91 0,05 , по таблице критических значений распределения Фишера-Снедекора находим Fкр = 4,82. Поскольку Fнабл < Fкр, нулевая гипотеза принимается. 2.7. Критерии согласия Критерии согласия предназначены для проверки того, что нулевая гипотеза H0 о виде распределения соответствует выборочным данным. Рассмотрим таблицу выборочного закона распределения некоторого вариационного ряда. Наша задача состоит в том, чтобы, во-первых, подобрать соответствующий закон теоретического распределения. Предположим, что нам удалось найти некоторую теоретическую функцию плотности f(x), приближённо соответствующую данному вариационному ряду. Тогда, во-вторых, надо проверить насколько точно наши статистические данные соответствуют выбранному теоретическому распределению. В этом случае альтернативная гипотеза не выдвигается. Схема проверки нулевой гипотезы практически не изменяется. Представим функцию f(x) виде гистограммы (см. рис.2.2), разбив размах выборки и предполагаемой генеральной совокупности на r разрядов. 64 f (x) x O Рис. 2.2 Представим теоретические и полученные после предварительной обработки выборки частоты попадания случайной величины в соответствуюший разряд в виде следуюшей таблицы: Интервалы x1 ; x2 ; x2 x3 Теоретические частоты n1 n2 Эмпирические частоты m1 m2 … xr; xr+1 nr … mr Предполагается, что объем выборки равен n, т.е. m1 + m2 +…+ mr = n. (2.8) По теоретическому закону распределения, заданному с помощью функции f(x), находим вероятности попадания случайной величины X в каждый из данных разрядов: p1, p2, …, pk. Затем вычисляем теоретические частоты ni, умножив вероятности на объем выборки: ni = npi. применяют критерий В качестве критерия согласия 2 ("хи-квадрат") Пирсона: k mi ni 2 i 1 ni 2 . ( 2.9) 2 Распределение зависит только от одного параметра k числа степеней свободы. Число степеней свободы k равно числу разрядов r минус число независимых условий, наложенных на частоты mi. 65 Условие (2.8) накладывается всегда. Часто используют еще два условия: равенство среднего значения и математического ожидания и равенство выборочной и теоретической дисперсий. Поэтому обычно выполняется равенство k = r 3. (2.10) Пример 2.6. При уровне значимости = 0,05 проверить гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические и теоретические частоты mi 4 27 73 135 128 78 50 5 ni 5 27 70 125 137 82 48 6 Решение. Вычислим значение критерия Пирсона m ni 2 набл = i = 2,457. 2 8 i 1 ni Число степеней свободы в данном случае k = 8 3 = 5. По таблице критических точек распределения 2 ней свободы k = 5 находим 2 крит по уровню значимости = 0,05 и числу степе= 11,1. Итак, 2 2 набл < крит , поэтому можно принять нулевую гипотезу о нормальном распределении генеральной совокупности. Замечание. Критерий Пирсона, как показывает практика, успешно применяется для выборок объема n>50 и если все частоты ni = npi>5. 2.8. Распределение долей признаков Критерий 2 используют еще в одном простом, но очень распространен- ном случае. Пусть выполняются следующие условия: Генеральную совокупность можно разбить на непересекающиеся классы A1, A2, …, доли которых в генеральной совокупности составляют p1, p2, … . 66 Имеется выборка объема n, пусть выполняются условия: np1 5, np2 5, … . (2.11) Обозначим далее mi число представителей выборки, попадающих в категорию i, ni ожидаемое число в каждом классе, вычисленное согласно нулевой гипотезе. Тогда отклонение выборочных значений от ожидаемых вычисляется по формуле 2 mi ni 2 i ni , (2.12) где суммирование производится по всем классам. При ранее сформулированных условиях эта статистика подчиняется распределению 2 с k = (r1) степенями свободы, где r число категорий. Пример 2.7. Данные о различных заболеваниях, определенные на основе сводных данных за год по всем поликлиникам Москвы, представлены в следующей таблице: Виды Грипп забол. Доля Сердечно- Кишечные Онкологиче- сосудистые 34% 18% 12% Травматологи- Иммунные ские ческие 10% 15% 11% В некоторой районной поликлинике Москвы аналогичные данные о частоте заболеваний за тот же период представлены ниже. Виды Грипп Сердечно- Кишечные Онкологические Травматологические Иммунные забол. сосудистые mi 1116 502 341 313 415 413 ni 1054 558 372 310 465 341 Следует поверить, соответствует ли распределение заболеваний в данной поликлинике общей структуре заболеваний? Решение. Вычислим общее количество заболеваний за год: n = 1116 + 502 + 341 + 313 + 415 + 413 = 3100. 67 Найдем предполагаемые значения теоретических частот по каждой категории и внесём их 3-ю строку таблицы. Пусть уровень значимости 0,01. Для проверки нулевой гипотезы вычислим критерий 2 1116 1054 набл = 2 1116 372 415 4652 413 3412 465 Поскольку 2. 502 5582 341 3722 313 3102 558 341 = 313 32,25 . 2 2 2 крит =15,1 и набл > крит , то наша гипотеза не принимается. Более подробный анализ слагаемых, из которых состоит сумма наблюдаемых значений критерия, показывает, что основной вклад даёт последнее слагаемое. Районным властям следует обратить внимание на неблагополучную экологическую обстановку, приводящую к росту иммунных заболеваний. 2.9. Сравнение выборочной исправленной дисперсии с заданной дисперсией нормальной генеральной совокупности Рассмотрим ещё один класс задач, связанный с параметрической проверкой статистических гипотез. в которых применяется критерий 2. Рассматривается выборка, предположительно извлечённая из нормально распределённой генеральной совокупности с заданной дисперсией 02 . Однако случайная величина, которой в данном случае является дисперсия, не подчиняется нормальному закону распределения. В этом случае применяется критерий 2. 2 На практике нулевая гипотеза Н0: E(S2) = 0 проверяется, если нужно про- верить точность приборов, методики контроля ритмичности работы и т.д. В качестве критерия проверки нулевой гипотезы примем случайную величину K 68 (n 1) S 2 02 . Здесь S2 - выборочная исправленная дисперсия. Можно показать, что случайная величина К имеет теоретическое распределение 2 с (n - 1)-й степенью свободы. Итак, по данным эмпирического ряда вычисляется величина 2 (n 1) S набл 02 затем по таблице 2 2 , (2.13) определяется критическое значение крит . Если 2 2 набл > крит , то нулевую гипотезу отвергают, т.е. принимают односторон- 2 2 нюю альтернативную гипотезу Н1: S2 > 0 . В противном случае можно считать различие исправленной выборочной дисперсии S2 и гипотетической дисперсии 02 незначимым. Пример 2.8. Ритмичность работы кассира сбербанка по приёму коммунальных платежей определяется дисперсией времени обслуживания клиентов, которая не должна превышать величины D = 1 мин2. Результаты 30 наблюдений за работой нового кассира приведены в таблице: Время обслуживания клиента 5, 6, 7, 8, 9, 10, 11, ti 5 5 5 5 5 5 5 Число наблюдений n 2 1 1 3 2 1 1 0 1 Проверим нулевую гипотезу о допустимой ритмичности работы новичка при уровне значимости 0,05. Решение. Введем новую переменную и составим вспомогательную таблицу: ni 2 10 11 3 2 1 1 Среднее xi = ti-7,5 -2 -1 0 1 2 3 4 0 xi 2 4 1 0 1 4 9 16 54 0 1,8 2 30 Dв(t) = 1,8 , st = 1,8 = 1,86. 29 69 Вычислим статистику по формуле (2.13) и применим критерий 2 набл = (n 1) st2 02 = 2. 29 1,86 =53,94. 1 2 2 крит (0,05; 29) = 42,6, набл > 2 крит . Нулевая гипотеза о равенстве дисперсий должна быть отвергнута, следовательно, новый кассир пока ещё не вошёл в требуемый ритм работы. Рассмотренные примеры применения основных правил проверки статистических гипотез не исчерпывают всех сфер применения указанной теории, являющейся частью более общей теории планирования эксперимента. Дополним вышеперечисленные правила таблицей, позволяющей легче ориентироваться в многообразных задачах проверки параметрических и непараметрических гипотез (см. Таблица 2.1). Рассмотрим пример применения этой таблицы. Пример 2.9. Вероятность приобрести выигрышный билет в некоторой лотерее р = 0,2. Предприятие приобрело 100 лотерейных билетов, из которых в результате очередного розыгрыша лотереи оказалось 14 выигрышных билетов. При уровне значимости 0,05 требуется проверить правильность случайной выборки. Решение. Проверим нулевую гипотезу Н0 о равенстве фактической вероятности выигрыша сотрудника предприятия, приобретшего на предприятии один лотерейный билет, гипотетической вероятности. Согласно таблице критериев проверки статистических гипотез выбираем 4-ую строку таблицы. Критерий проверки имеет вид: m p n Z n. pq Вычислим наблюдаемое значение критерия 70 № п/п задача статистика Z набл 0,14 0,2 0,2 0,8 Теоретическое. распределение 100 = -1,5. По условию задачи критическая область – двусторонняя. Найдём правую критическую точку из равенства ( z крит ) 0,5 2 = 0,5 – 0,025 == 0,475, отсю- да zкрит = 1,96. Таким образом z набл < zкрит. Следовательно, нет оснований отвергнуть нулевую гипотезу. Наблюдаемая относительная частота 0,14 незначимо отличается от гипотети ческой вероятности 0,2. 71 1. Сравнение выборочной средней с математическим ожиданием нормальной ГС 2. Сравнение двух выборочных средних из нормальных ГС с равными n и 3. Сравнение выборочных средних (две выборки) из нормальных ГС с разными, но заданными x и y 4 Сравнение доли признака xa Z Z Z n x y n 2 - ,, - x y - ,, - x2 m y2 n m p Z n n pq m в n выборке с вероятностью p 5. Сравнение выборочных средних (две выборки) с большими и независимыми выборками любого распределения Z x y Dв ( x) Dв ( y ) m n 6. Сравнение выборочной ис(n 1) s 2 2 правленной дисперсии с за2 2 данной норм. ГС l (m n ) 2 7. Сравнение выборочного рас2 i i пределения долей признаков с ni i 1 теоретическим распределением 8. Сравнение выборочной гистоr (m n ) 2 2 i i граммы с плотностью норni i 1 мального закона 9. Сравнение средних (две малые ( x y ) mn(m n 2) независимые выборки из нор- T (m n)[( m 1) s 2 (n 1) s 2 ] x y мальных ГС) с неизвестными, но равными дисперсиями 10 Сравнение двух дисперсий s x2 F 2 (sx > sy) . нормальных ГС sy 72 N(0;1) H0 принимается, если Z набл (Z кр , Z кр ) - ,, - Приближенный N(0;1) H0 принимается, если Z набл (Z кр , Z кр ) «хи-квадрат» k n 1 «хи-квадрат» k l 1 «хи-квадрат» k r 3 Распределение Стьюдента k mn2 Распределение ФишераСнедекора k1 n x 1 k2 n y 1 Упражнения 2.1 По двум независимым выборкам, объёмы которых m =30 и n = 40, из нормальных генеральных совокупностей (ГС) получены выборочные средние: x =117 и y = 127. Генеральные дисперсии известны: x2 =75, y2 = 60. Прове- рить нулевую гипотезу H0 : E(X)= E(Y) при уровне значимости 0,01 и альтернативной гипотезе H1: E(X)) E(Y). 2.2 Из нормальной ГС извлечена случайная выборка объёма n = 20, по этой выборке найдена исправленная выборочная дисперсия s2 = 16,3. При уровне значимости 0,01 проверить нулевую гипотезу H0, приняв в качестве 2 конкурирующей гипотезы H1: > 14. 2.3 По двум независимым выборкам объёмов m = 9 и n = 15, извлеченных из нормальных ГС соответственно X и Y, найдены исправленные выборочные 2 2 дисперсии s x = 2,61 и s y = 0,77. При уровне значимости 0,1 проверить нулевую гипотезу H0 о равенстве генеральных дисперсий при конкурирующей гипотезе H1: D( X ) D(Y ) . 2.4 Из двух нормальных генеральных совокупностей с неизвестными (предположительно равными) дисперсиями извлечены выборки, объёмы которых m = 11 и n = 17, выборочные средние x = 131,2 и y = 127,2; исправленные 2 2 дисперсии s x = 0,87 и s y = 0,65. Требуется при уровне значимости 0,05 прове- рить нулевую H0 о равенстве математических ожиданий. 2.5 Из двух партий тортов, изготовленных на одном хлебозаводе, в булочную завезли 10 тортов первой партии и 12 тортов второй партии. Был произведен замер веса каждого из тортов и получены следующие результаты: 73 Вес тортов 1-й партии хi кг 1,3 1,3 1,3 1,3 Число тортов первой пар- 4 5 7 9 2 3 4 1 тии Вес тортов 2-й партии yi кг 1,32 1,3 1,36 4 Число тортов второй пар- 2 2 2 тии Требуется при уровне значимости 0,02 проверить гипотезу H0 о равенстве математических ожиданий. Предполагается, что случайные величины X и Y распределены нормально. 2.6. В двух цехах в течение нескольких дней проводился выборочный контроль производительности труда. Результаты отражены в таблицах. Цех № 1 1 Производительность труда 22,6 23 4 5 22, 2 23, 23,6 3,0 8 Цех № 2 1 Производительность труда 23,4 2 2 3 4 22, 23,0 23, 7 3 При уровне значимости 0,1 проверить нулевую гипотезу о равенстве средней производительности труда в этих цехах в предположении равенства их дисперсий. 2.7 Ритмичность работы городского автобуса определяется дисперсией времени ожидания пассажиров, которая не должна превышать величины D = 9 мин2. Результаты 30 наблюдений за работой нового маршрута приведены в таблице: 74 Время ожидания клиента, ti Число наблюдений, n 3 5 7 9 1 1 1 0 2 3 1 1 1 1 3 5 2 1 1 Проверить нулевую гипотезу о ритмичности работы нового автобусного маршрута по сравнению со средней нормой при уровне значимости 0,05. 2.8. Рекламное агентство рассылает своим клиентам каталоги. Вероятность того, что клиент приобретёт одно из рекламируемых изделий р = 0,07. Агентство разослало серию из 1000 каталогов улучшенной формы. В результате клиентами было приобретено 97 изделий по новому каталогу. При уровне значимости 0,05 требуется проверить, эффективность новой серии по сравнению с прежней. 2.9. Данные о продаже основных марок телевизоров за месяц по всем магазинам Москвы, представлены в следующей таблице: Марки телевизо- А В С D E F 3 1 1 1 1 5 7 8 2 3 5 ров Доля, % В некоторой торговой фирме Москвы аналогичные данные об объёме продаж за тот же период представлены ниже. Марки телевизоров A B C D E F Объёмы 56 41 41 48 19 2 5 0 5 2 mi продаж, 113 6 Требуется проверить нулевую гипотезу о соответствии законов распределения вероятностей, заданных этими таблицами. 2.10. При уровне значимости = 0,05 проверить гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические и теоретические частоты выборки объёма 1000 наблюдений по вкладам сбербанка. 75 m 57 99 150 195 191 147 93 68 66, 91, 149, 191, 191, 149, 91, 66, 8 9 8 5 5 8 9 8 i ni 76 2.10. Задания для контрольной работы № 2 1. При формировании портфеля ценных бумаг предварительно были отобраны два вида активов А и В, обладающих оптимальным соотношением доходности и риска. Реализованные доходности этих активов ra и rb на протяжении последних 12 месяцев заданы таблицей: № 1 2 3 4 5 6 7 8 9 10 11 12 ra 0,05b 0,3 0,4 0,2 -0,1 0,3 0,4 0,2 0,3 0,5 0,4 0,1 rb 0,04b 0,5 0,4 0,3 0,1 -0,1 0,5 0,2 0,1 0,3 0,1 0 Найти средние выборочные доходности ra и 2 rb , исправленные диспер- 2 сии s a и sb . 2 2 2. Определить, значимы ли различия рисков s a и sb активов А и В за указанный период времени по данным задачи 1 при уровне значимости = 0,05. 3. Определить, значимы ли различия средней доходности ra и rb активов А и В за указанный период времени по данным задачи 1 при уровне значимости = 0,05. § 3. Обработка результатов наблюдений 3.1. Методические указания к лабораторной работе Постановка задачи Пусть задана последовательность x1 , x2 , ..., xn значений случайной величины (признака) Х, полученных в результате проведения в одних и тех же условиях п взаимно независимых опытов. 77 Значения x1 , x2 , ..., xn случайной величины Х называются выборкой объема п из генеральной совокупности объема N. Задача обработки результатов наблюдений случайной величины состоит в следующем: Построение вариационного ряда или ряда распределения и гистограммы для него. Определение выборочных оценок числовых характеристик случайной величины. Определение точности выборкиъ Определение теоретической функции распределения. Выравнивание статистического ряда. Проверка согласованности теоретического и статистического распреде- 2 лений, используя критерий . Работа должна быть выполнена на бланке (приложения 4, 5), используя калькулятор и заполнив указанные ниже таблицы. Результаты достаточно получить с точностью до двух десятичных знаков после запятой. Работу выполнять в следующей последовательности: 1. Построить вариационный (статистический) ряд с длиной интервала x и числом интервалов k, указанными в задании. Отыскав x k x0 k . Если среди значений признака xi x0 min xi , xk max xi , находим x k x0 k соответствует заданному x , то x xi xi1 и начи- наем разбиение на интервалы, а если нет, то уменьшив xk или увеличив x0 , добиваемся того, чтобы x0 , xk xk x0 x , при этом "вылетевшие" из промежутка k значения будем учитывать в соответствующем крайнем интервале. Определим количество значений mi m1 m2 ... mk n , приходящихся на каждый i-ый интервал, занося в таблицу Iа "точки" для значений внутри интервала 78 и "зарубки" для значений, находящихся в точности на границе интервала, как показано на примере. После выполненных подсчетов и проверки m1 m2 ... mK n заполнить таблицу 3.I (основную). Таблица 3.I № интер- 1 2 … i … К x0 , x1 x1 , x 2 ... xi 1 , … x K 1 , x1* x 2* … x i* ... x K* m1 m2 … mi … mK в p1* p 2* … p i* ... p K* вала Границы xi xK интервала Середина интервала Число наблюдений в интервале mi Частота интервале * В таблице 3.1 xi1 , xi - границы i-го интервала, xi * го интервала, pi xi 1 xi -середина i2 mi - частота в i-ом интервале. n 2. Построить для полученного вариационного ряда гистограмму (см. рис. 3.1). 3. Определить выборочное среднее, дисперсию, коэффициент асимметрии и коэффициент эксцесса, используя упрощенные формулы для "ручного" счета. 79 0 Рисунок 3.1 xi c * Обозначим: zi , где xi - среднее значение признака в i-ом инx тервале; с - среднее значение признака в интервале с наибольшей частотой, принятое в качестве "нуля"; x - ширина k А z i p i i 1 k В z i2 p i i 1 k Д z i3 p i i 1 k Е z i4 p i i 1 занести результаты в таблицу 3.2 x = … . Таблица 3.2 с = …; Интер- x i p i z i вал интервала. P0 x z i4 А В xi c x Д Е Ф(t ) z i3 p i z i4 p i 1 x1 p1 z1 z12 z13 z14 2 x 2 p 2 z 2 z 22 z 23 z 24 .. …… … … … … i x i p i z i z i2 z i3 z i4 .. …… … … … … 80 x k p k z k k K z k4 K pi* 1 x pi* xi* * i 1 i 1 k i 1 Выборочная средняя: k k k k x x p x zi c p x zi p c pi x A C. i 1 i i i i 1 i i 1 i 1 Аналогично выводятся остальные расчетные формулы. k Выборочная дисперсия: D ( x) xi x i 1 p 2 i x 2 B A 2 . Среднее квадратическое отклонение: x D x . Выборочные центральные моменты 3-го и 4-го порядков: 3 x 3 Д 3 АВ 2 А3 4 x 4 ( Е 4 АД 6 А2 В 3 А4 ). 3 . Коэффициент асимметрии: S 2 3 1 4 Коэффициент эксцесса: 4 3 . 8 4. Определить точность выборки. При достаточно большом числе испытаний п можно считать закон распределения нормальным и для оценки точности полученного значения выбо рочной средней x применить формулу: n , P0 x x 0 2Ф ( x ) где x0 - среднее значение признака в генеральной совокупности; - точность (ошибка) выборки; 81 P0 - доверительная вероятность, т.е. вероятность того, что при x от x 0 не превзойдет ; данном п отклонение Ф(t ) - функция Лапласа (см. Приложение 2). При заданном значении функции Лапласа 2Ф(t ) P0 по таблицам (приложение 2) найдем аргумент t, а затем из равенства t n определим точность (x) выборки при доверительной вероятности P0 . Попробуйте по полученным результатам сделать вывод о качестве выборки. 5. Определить теоретическую функцию распределения, ее параметры. Произвести выравнивание статистического ряда. Пусть выравнивание проводится с помощью нормального закона распределения. Согласно методу моментов параметры выбираются с таким расчетом, чтобы моменты теоретического распределения были равны соответствующим статистическим моментам. Если f ( x) 1 2 e x m 2 2 2 , то параметры m и выбираем равными соот xi x ветственно m x и x. pi f x x t x , где t . Значения x x * 1 * (t ) находим в приложении 3. Строим на рис. 3.1 (где уже построена гисто* грамма) график по точкам xi* , pi , где x i - среднее значение признака в интер- вале. 6. Проверка согласованности теоретического и статистичского распределений. Согласованность теоретического и статистического распределений про2 веряется с помощью критерия (Приложение 3). K mi npi 2 i 1 npi 2 , где 82 * pi Фt i Фt i 1 Фt i x x ti i * x - см. в приложении 2. Для статистического ряда (табл. 3.1) определим меру расхождения 2 по этой формуле (табл. 3.3). 2 Вычислив , найдем число "степеней свободы" распределения r k s , * где k- число интервалов, а S - число связей, накладываемых на частоты p i . При гипотезе о нормальном распределении число связей равно 3: Таблица 3.3 И н- pi Фt i Фt i 1 mi np i mi npi 2 mi npi 2 npi тервал 1 2 . . . . . . К Ито2 го : 83 K p i 1 * i 1 (это условие должно выполняться всегда) K x pi* xi* * i 1 K D * x xi* x i 1 p. * 2 * i Число степеней свободы r k 3 . Для получения значений rи 2 по таблицам (приложение 3) найдем ве- роятность Pr . Если эта вероятность мала, то гипотеза, состоявшая в том, что данная случайная величина имеет закон распределения f (x ) , отвергается, как мало правдоподобная. Если же эта вероятность значительна, то гипотеза не отвергается или принимается. (Уровень значимости принять 5%). Сделайте необходимые выводы. Замечание. При использовании приложения 3 иногда приходится пользоваться формулой линейной интерполяции. f ( x) y 0 y1 y0 x x0 ; h y0 f ( x0 ); y1 f ( x0 h) h x1 x0 Пример: Пусть r 6, X 2 9,2, Pr ? При X 2 9 x0 ,Pr 0,1736 f ( x0 ) y 0 При X 2 10 x1 , Pr 0,1247 f ( x1 ) y1 f (9,2) 0,1736 0,1247 0,1736 9,2 9 0,16 Pr 0,16 . 10 9 Сведите все полученные данные в расчетный бланк, который начертите по образцу, данному в приложениях 4 и 5 (лицевая сторона - приложение 4, обратная сторона - приложение 5). 84 3.2. Задания для лабораторной работы № 1. Произведено обследование величины вклада (в руб.) на 1 января текущего года в сбербанке по 100 лицевым вкладам. Результаты обследования приведены в следующей таблице (Х - величина вклада, X = 100 руб., k = 7, Р0 = 0,9950). 530 665 797 760 775 760 580 828 1180 800 570 785 785 810 950 930 695 817 840 1040 660 840 550 850 970 955 530 800 1230 1000 701 805 900 820 860 960 600 819 1200 767 700 820 760 885 1000 740 881 943 700 969 670 818 660 850 682 1000 1190 883 953 1160 825 900 650 873 1000 608 821 595 1100 700 780 860 910 773 574 1220 699 890 788 1210 700 830 905 870 1050 708 1200 880 900 997 600 840 640 880 980 1190 600 885 860 900 № 2 В следующей таблице приведены транспортные затраты (в руб. за тонну) на доставку продукции предприятия к потребителям (Х - транспортные затраты, X = 0,2 руб. за тонну, k = 7, Р0 = 0,9970). 2,01 2,88 3,05 2,66 2,36 2,24 2,71 2,08 2,78 2,02 2,22 3,41 3,43 2,61 2,69 2,32 2,79 2,92 3,15 2,49 2,72 3,29 2,72 2,12 3,13 2,99 2,62 3,28 2,71 2,75 3,20 2,63 2,14 2,67 2,65 2,38 3,54 2,67 2,55 3,09 2,68 2,57 3,08 2,96 2,56 2,22 2,78 2,71 3,02 2,75 2,76 2,71 2,58 2,51 2.62 2,18 2,51 2,78 3,11 2,59 2,92 3,06 3,24 2,84 2,36 2,82 2,67 3,14 2,15 2,12 2,06 1,98 2,36 2,38 1,99 2,71 3,09 2,41 2,25 2,76 2,56 3,39 2,54 2,79 2,88 3,35 2,36 2,68 2,61 2,85 85 № 3. Известны удельные затраты на производство товарной продукции (руб.шт.) по ста предприятиям отрасли. Результаты обследования приведены в следующей таблице (Х - удельные затраты, X = 0,2 руб.шт., k = 9, Р0 = 0,9960). 3,61 3,72 3,85 4,19 4,55 4,98 4,06 4,87 4,57 4,28 4,06 4,27 4,08 4,36 4,55 4,29 4,32 4,95 4,57 4,26 4,28 4,27 4,44 4,26 4,31 4,38 3,85 4,87 4,36 4,15 4,01 5,02 4,08 4,25 4,49 4,34 4,28 4,77 4,82 4,06 4,28 4,45 3,83 4,46 4,24 4,29 5,08 4,29 4,47 5,18 4,28 5,09 4,08 4,42 4,49 3,86 4,14 4,72 4,81 4,39 4,02 3,38 4,19 4,31 4,60 4,68 4,05 3,79 4,54 4,87 4,26 5,05 4,01 4,36 4,65 5,08 4,67 4,24 4,72 3,88 4,27 4,45 3,67 4,38 4,72 3,78 4,05 4,29 4,44 4,25 4,15 4,29 3,82 4,36 4,62 4,29 4,28 4,51 4,30 3,90 № 4. Проведено выборочное обследование бюджетов 100 семей микрорайона за месяц. Результаты обследования приведены в следующей таблице (Х - месячный бюджет, X = 50 руб., k = 7, Р0 = 0,9910). 230 270 275 357 400 260 287 370 361 371 385 310 448 445 470 423 490 409 400 410 378 480 240 436 321 245 330 250 250 340 350 340 392 290 375 350 600 350 350 289 445 400 400 367 460 392 360 365 450 368 355 450 450 450 350 468 470 495 500 450 225 300 343 285 381 300 295 385 342 297 370 380 350 415 400 390 387 376 500 357 375 391 412 440 410 600 700 400 500 550 337 345 430 258 610 328 560 540 348 390 86 №5. В таблице проведены результаты обследования среднемесячной заработной платы 100 рабочих одного предприятия (X - среднемесячная заработная плата, X =20 руб., k = 8, P0 =0,9960). 200 310 270 298 300 327 238 300 325 280 271 315 260 281 290 295 235 275 335 340 295 345 210 284 289 250 248 315 320 280 225 350 274 291 292 337 273 300 300 260 268 270 300 280 360 249 237 300 310 320 245 270 275 235 300 350 256 261 310 345 275 295 300 230 365 271 255 265 300 350 248 360 260 289 290 298 238 262 330 279 250 300 260 240 330 300 220 273 268 258 270 285 260 280 290 345 220 355 300 260 №6. В следующей таблице приведены данные об урожайности ржи (в ц /га) по ста участкам одного колхоза (Х - урожайность в ц /га, X =3 ц /га, k =6, P0 =0,9970). 9,2 12,0 15,3 20,8 15,2 15,6 13,7 15,2 15,5 12,8 12,8 20,4 18,0 9,0 20,0 20,0 18,0 20,5 18,0 15,6 15,0 21,8 22,5 28,7 24,0 24,0 22,5 21,7 23,8 16,0 17,2 16,2 15,7 17,3 11,1 16,1 14,1 20,3 18,2 19,7 21,0 11,2 20,8 19,7 15,2 15,5 18,5 18,4 19,4 21,0 20,3 17,8 20,2 21,0 26,5 10,0 20,4 11,2 12,0 21,0 13,5 14,0 14,6 19,1 15,0 13,2 17,3 18,6 14,8 13,0 21,0 20,0 19,8 20,0 18,0 15,6 17,9 21,0 16,7 24,5 20,5 19,5 18,8 24,5 18,5 19,0 25,5 25,0 17,2 17,4 20,8 12,0 18,3 17,0 18,4 22,0 26,5 26,0 24,8 17,9 87 №7. В следующей таблице приведены данные об урожайности пшеницы (в ц/ га) по участкам совхоза (Х - урожайность в ц /га, X =2 ц /га, k =7, P0 =0,9910). 32,0 34,5 37,0 36,5 39,8 39,2 34,8 39,3 43,0 36,0 33,2 39,7 37,5 36,0 38,8 39,1 35,0 40,0 42,5 39,9 38,1 39,3 32,5 36,7 40,0 39,3 38,0 38,2 39,0 42,8 36,5 40,0 40,1 38,2 41,0 45,0 39,0 42,8 36,0 40,0 34,2 39,5 38,9 37,5 40,0 41,2 38,0 38,7 39,0 44,0 38,0 38,8 40,5 40,0 40,5 32,8 36,8 46,0 43,0 43,5 33,5 38,2 41,2 38,0 41,8 42,0 39,6 42,0 44,0 35,7 36,8 39,5 41,0 40,0 40,9 33,0 46,0 40,0 42,0 37,2 36,0 39,3 40,0 38,0 40,5 42,0 34,8 41,6 44,5 45,0 37,5 40,0 37,0 39,2 45,8 34,0 37,8 41,7 44,8 39,3 №8. Результаты обследования стажа работы 100 сотрудников одного предприятия приведены в следующей таблице (Х - стаж работы, X =2 года, k =7, P0 =0,9910). 2,5 5,5 6,0 6,5 7,2 9,3 10,8 7,7 9,4 9,8 10,0 11,0 11,0 10,9 10,4 10,6 10,6 10,5 12,6 10,4 12,2 7,2 3,0 7,4 4,8 9,5 14,8 7,9 12,8 13,2 9,6 10,9 11,1 9,3 9,0 11,3 11,5 13,0 4,5 13,5 12,4 11,5 11,4 12,8 11,2 13,0 13,8 12,9 13,7 14,1 10,2 9,6 12,2 11,8 4,5 14,5 5,1 16,0 5,1 14,7 5,4 8,5 5,3 7,7 6,2 6,7 7,1 7,1 8,2 8,5 10,0 11,8 10,1 11,3 10,1 10,2 10,5 10,3 10,5 13,1 10,4 10,7 11,2 9,8 11,0 10,1 11,5 12,5 10,6 14,7 7,0 12,1 7,1 12,1 8,5 17,2 11,8 8,6 8,8 15,7 88 №9 В следующей таблице приведены данные о среднемесячных товарных запасах ста торговых предприятий района на 1 января текущего года (в тыс. руб.) (Х - среднемесячный запас в тыс. руб., X =2 тыс. руб., k =8, P0 =0,9910). 36,2 41,1 42,5 40,1 42,1 42,9 40,2 42,8 42,7 42,2 37,5 42,9 42,9 49,8 44,2 50,8 36,8 51,6 44,2 43,5 39,1 40,8 44,6 40,9 38,8 40,6 44,6 39,2 36,3 38,4 42,2 44,2 41,8 42,8 42,6 43,5 42,4 43,6 43,5 44,2 45,9 45,6 43,1 44,5 43,1 45,1 45,2 46,3 46,2 47,1 50,2 42,8 44,2 44,4 51,1 39,2 47,2 51,2 38,1 43,0 40,9 43,1 39,8 42,6 44,6 42,4 41,3 47,4 41,2 44,6 48,8 49,6 47,6 47,8 52,2 48,2 38,5 43,2 43,4 44,8 45,9 46,2 42,8 48,6 43,5 48,1 46,6 47,5 45,8 42,7 43,0 42,4 41,9 40,3 42,8 44,3 48,2 39,1 43,9 47,6 №10. В следующей таблице приведены результаты роста ста студентов I курса одного из институтов г. Москвы (Х - рост студента в см., X =5 см., k =8, P0 =0,9920). 145 170 185 157 171 182 158 169 178 179 167 169 147 158 170 172 153 169 179 180 161 170 167 182 167 172 160 169 176 178 163 170 148 159 166 173 154 168 176 159 158 164 168 159 169 184 165 172 173 175 89 160 147 166 181 168 173 151 172 175 158 167 151 152 169 167 174 155 173 175 175 152 166 146 162 170 174 164 169 179 159 166 151 153 157 173 164 169 166 167 181 160 170 170 156 157 163 155 169 168 166 №11. В следующей таблице приведены средние баллы аттестатов ста абитуриентов, подавших документы в один из вузов г. Москвы (Х - средний балл, X =0,2, k =8, P0 =0,9960). 3,59 4,01 4,27 4,01 4,50 4,57 4,34 4,36 4,27 4,15 3,72 4,25 4,32 5,00 4,29 5,00 5,00 4,57 4,55 4,27 3,91 4,09 4,47 4,12 3,99 4,15 4,00 3,75 3,65 3,75 4,25 4,35 4,18 4,28 4,42 4,49 4,44 4,35 4,15 4,28 4,62 4,55 4,26 4,53 4,32 4,56 3,42 4,70 4,67 4,62 5,00 4,25 5,45 5,42 4,30 3,98 4,73 3,45 3,76 4,12 4,15 4,30 4,02 4,28 5,00 4,27 5,00 4,02 4,09 4,65 4,85 5,00 4,90 4,80 4,56 4,85 4,75 4,31 4,28 4,39 4,61 4,65 4,32 4,95 5,00 4,80 4,32 4,50 4,45 4,28 4,29 4,28 4,28 4,21 4,32 4,46 3,42 4,29 4,22 3,92 № 12. В данной таблице приведена численность специалистов с высшим и средним образованием по ста совхозам одной из республик (Х - человек, X = 20 чел., k = 7, Р0 = 0,9960). 20 125 50 118 120 69 75 77 120 100 55 99 47 76 116 110 62 80 121 37 88 92 45 105 109 98 108 115 128 131 72 85 88 62 125 99 58 85 77 60 65 97 29 99 131 98 105 89 138 160 90 85 91 95 75 120 138 99 160 155 38 74 98 30 99 122 125 81 115 139 155 88 100 145 68 120 135 70 97 47 98 69 120 25 79 117 98 80 95 147 96 72 119 40 78 125 60 155 90 52 124 № 13. Жилищные фонды 100 поселков городского типа одного из районов характеризуются следующими данными (тыс. м2) (Х - жилищный фонд в тыс. м2, X = 2 тыс. м2, k = 7, Р0 = 0,9960). 42,0 43,2 48,1 46,5 44,2 47,7 43,5 46,8 45,9 47,5 44,5 49,7 49,3 49,8 49,5 48,8 48,2 49,5 49,3 50,0 47,0 47,5 42,5 50,0 48,9 50,5 51,2 51,1 49,8 47,0 46,5 46,0 46,7 47,9 47,5 49,8 48,0 50,0 47,6 49,2 49,8 48,8 49,8 50,8 49,9 50,5 51,8 50,9 50,5 55,8 49,2 49,1 49,3 49,9 51,2 42,8 51,9 42,8 52,0 44,0 44,8 45,2 48,0 44,8 47,6 46,8 49,6 55,7 44,8 47,8 49,3 50,1 48,2 49,2 48,7 56,2 51,8 49,8 51,6 51,7 53,1 52,5 48,7 52,8 49,1 53,1 53,9 52,2 54,5 54,8 46,2 49,9 52,8 46,1 53,8 53,5 45,7 47,2 55,0 49,8 № 14. Имеются данные о возрасте ста сотрудников одной из лабораторий предприятия по состоянию на 1 января текущего года (Х - возраст число лет , X = 2 года, k = 8, Р0 = 0,9960). 20 31 27 30 30 33 23 30 32 28 27 32 26 28 29 30 24 28 34 34 30 35 21 29 28 25 25 32 32 28 23 35 27 29 29 34 27 30 30 26 27 27 30 28 36 25 24 30 31 32 91 25 27 28 24 30 35 26 26 31 35 27 28 26 28 29 34 22 35 30 26 28 30 30 23 37 27 26 27 30 35 25 36 26 29 29 30 23 26 33 28 25 30 26 24 33 30 22 27 27 26 № 15. В следующей таблице приведены данные о выполнении плана за месяц (тыс. руб.) по ста строительно-монтажным управлениям одного из районов (Х - план в тыс. руб., X = 30 тыс. руб., k = 6, Р0 = 0,9970). 128 150 172 210 203 135 210 205 208 92 121 204 218 162 112 178 142 201 195 121 163 162 286 157 206 202 146 198 188 163 90 208 237 173 197 211 191 200 245 176 152 203 240 111 152 285 150 180 185 184 92 156 200 240 161 155 100 132 156 190 270 137 180 225 141 185 204 173 179 255 265 152 205 217 203 184 112 186 210 250 260 155 180 238 182 194 120 148 167 172 248 128 156 160 197 210 210 130 245 174 179 Приложения Приложение 1. Таблица значений функции ( x) 0 1 2 3 4 5 6 7 1 2 e x2 2 8 . 9 0,0 0,3989 3989 3989 3988 3986 3984 3982 3980 3977 3973 0,1 0,3970 3965 3961 3956 3951 3945 3939 3932 3925 3918 0,2 0,3910 3902 3894 3885 3876 3867 3857 3847 3836 3825 0,3 0,3814 3802 3790 3778 3765 3752 3739 3726 3712 3697 0,4 0,3683 3668 3653 3637 3621 3605 3589 3572 3555 3538 0,5 0,3521 3503 3485 3467 3448 3429 3410 3391 3372 3352 0,6 0,3332 3312 3292 3271 3251 3230 3209 3187 3166 3144 0,7 0,3123 3101 3079 3056 3034 3011 2989 2966 2943 2920 0,8 0,2897 2874 2850 2827 2803 2780 2756 2732 2709 2685 0,9 0,2661 2637 2613 2589 2565 2541 2516 2492 2458 2444 1,0 0,2420 2396 2371 2347 2323 2299 2275 2251 2227 2203 1,1 0,2179 2155 2131 2107 2083 2059 2036 2012 1989 1965 1,2 0,1942 1919 1895 1872 1849 1826 1804 1781 1758 1736 1,3 0,1714 1691 1669 1647 1626 1604 1582 1561 1539 1518 1,4 0,1497 1476 1456 1435 1415 1394 1374 1354 1334 1315 1,5 0,1295 1276 1257 1238 1219 1200 1182 1163 1145 1127 1,6 0,1109 1092 1074 1057 1040 1023 1006 0989 0973 0957 1,7 0,0940 0925 0909 0893 0878 0863 0848 0833 0818 0804 1,8 0,0790 0775 0761 0748 0734 0721 0707 0694 0681 0669 1,9 0,0656 0644 0632 0620 0608 0596 0584 0573 0562 0551 93 2,0 0,0540 0529 0519 0508 0498 0488 0478 0468 0459 0449 2,1 0,0440 0431 0422 0413 0404 0396 0387 0379 0371 0363 2,2 0,0355 0347 0339 0332 0325 0317 0310 0303 0297 0290 2,3 0,0283 0277 0270 0264 0258 0252 0246 0241 0235 0229 2,4 0,0224 0219 0213 0208 0203 0198 0194 0189 0184 0180 2,5 0,0175 0171 0167 0163 0158 0154 0151 0147 0143 0139 2,6 0,0136 0132 0129 0126 0122 0119 0116 0113 0110 0107 2,7 0,0104 0101 0099 0096 0093 0091 0088 0086 0084 0081 2,8 0,0079 0077 0075 0073 0071 0069 0067 0065 0063 0061 2,9 0,0060 0058 0056 0055 0053 0051 0050 0048 0047 0046 3,0 0,0044 0043 0042 0040 0039 0038 0037 0036 0035 0034 3,1 0,0033 0032 0031 0030 0029 0028 0027 0026 0025 0025 3,2 0,0024 0023 0022 0022 0021 0020 0020 0019 0018 0018 3,3 0,0017 0017 0016 0016 0015 0015 0014 0014 0013 0013 3,4 0,0012 0012 0012 0011 0011 0010 0010 0010 0009 0009 3,5 0,0009 0008 0008 0008 0008 0007 0007 0007 0007 0006 3,6 0,0006 0006 0006 0005 0005 0005 0005 0005 0005 0004 3,7 0,0004 0004 0004 0004 0004 0004 0003 0003 0003 0003 3,8 0,0003 0003 0003 0003 0003 0002 0002 0002 0002 0002 3,9 0,0002 0002 0002 0002 0002 0002 0002 0002 0001 0001 94 x2 Таблица значений функции 2Ф(t ) Приложение 2. 0 2 t 2 e dx. 2 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0080 0160 0239 0319 0309 0478 0558 0638 0717 0,1 0,0797 0876 0955 1034 1113 1192 1271 1350 1429 1507 0,2 0,1585 1662 1741 1819 1807 1974 2051 2128 2205 2282 0,3 0,2358 2434 2510 2586 2661 2737 2818 2886 2961 3035 0,4 0,3108 3182 3255 3328 3101 3473 3545 3616 3688 3799 0,5 0,3829 3900 3969 4039 4109 4177 4245 4313 4381 4448 0,6 0,4515 4581 4647 4713 4778 4843 4908 4971 5035 5098 0,7 0,5161 5223 5235 5346 5107 5468 5528 5587 5646 5705 0,8 0,5763 5821 5378 5035 5991 6047 6102 6157 6211 6265 0,9 0,6319 6372 6424 6176 6528 6579 6629 6680 6729 6778 1,0 0,6827 6875 6923 6970 7017 7063 7109 7154 7199 7243 1,1 0,7287 7330 7373 7115 7457 7199 7540 7580 7620 7660 1,2 0,7699 7737 7775 7813 7850 7887 7923 7959 7995 8030 1,3 0,8064 8098 8132 8165 8198 8230 8262 8293 8324 8355 1,4 0,8383 8415 8411 8173 8501 8529 8557 8584 8611 8639 1,5 0,8664 8690 8715 8740 8764 8789 8813 8836 8859 8882 1,6 0,8904 8926 8948 8969 8990 9011 9031 9051 9070 9090 1,7 0,9109 9127 9146 9164 9181 9199 9216 9233 9249 9266 1,8 0,9281 9297 9312 9328 9312 9357 9371 9385 9399 9112 1,9 0,9426 9439 9451 9461 9476 9488 9500 9512 9523 9534 2,0 0,9545 9556 9566 9576 9587 9596 9606 9616 9625 9634 2,1 0,9643 9651 9600 9668 9677 9684 9692 9700 9707 9715 95 2,2 0,9722 9729 9736 9743 9749 9756 9752 9768 9774 9780 2,3 0,9786 9791 9797 9802 9807 9812 9817 9822 9827 9832 2,4 0,9836 9841 9845 9849 9853 9857 9861 9865 9869 9872 2,5 0,9876 9879 9883 9886 9889 9892 9895 9898 9901 9904 2,6 0,9907 9910 9912 9915 9917 9920 9922 9924 9926 9929 2,7 0,9931 9933 9935 9937 9939 9941 9942 9944 9943 9947 2,8 0,9949 9951 9952 9954 9955 9956 9958 9959 9960 9962 2,9 0,9963 9964 9965 9966 9967 9968 9969 9970 9971 9972 3,0 0,9973 9974 9975 9976 9976 9977 9978 9979 9979 9980 3,1 0,9981 9981 9982 9983 9983 9984 9984 9985 9985 9986 3,2 0,9986 9987 9987 9989 9988 9989 9989 9989 9990 9990 3,3 0,9990 9991 9991 9991 9992 9992 9992 9993 9993 9993 3,4 0,9990 9994 9994 9994 9994 9994 9995 9995 9995 9995 3,5 0,9995 9996 9996 9996 9996 9996 9996 9996 9997 9997 3,6 0,9997 9997 9997 9997 9997 9997 9998 9998 9998 9998 3,7 0,9998 9998 9998 9998 9998 9998 9998 9998 9998 9998 3,8 0,9999 9999 9999 9999 9999 9999 9999 9999 9999 9999 3,9 0,9999 9999 9999 9999 9999 9999 9999 9999 9999 9999 96 Приложение 3 .Таблица значений вероятности P X 2 X q2 r 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 1 2 3 4 5 6 7 8 0,3173 1574 0833 0455 0254 0143 0081 0047 0027 0016 0009 0005 0003 0002 0001 0001 0000 0,6065 3679 2231 1353 0821 0498 0302 0183 0111 0067 0047 0025 0015 0009 0006 0003 0002 0001 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0,8013 5724 3916 2615 1718 1116 0719 0460 0293 0186 0117 0074 0046 0029 0018 0011 0007 0004 0003 0002 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000 0,9098 7358 5578 4060 2873 1991 1359 0916 0611 0404 0266 0174 0113 0073 0047 0030 0019 0012 0008 0005 0003 0002 0001 0001 0001 0000 0000 0000 0000 0000 0,9626 8491 7000 5494 4159 3062 2206 1562 1091 0752 0514 0348 0234 0146 0104 0068 0045 0029 0019 0013 0008 0005 0003 0002 0001 0001 0001 0000 0000 0000 0,9856 9197 8088 6767 5438 4232 3208 2381 1736 1247 0884 0620 0430 0296 0203 0138 0093 0062 0042 0028 0018 0012 0008 0005 0003 0002 0001 0001 0001 0000 0,9948 9598 8850 7798 6600 5398 4289 3326 2527 1886 1386 1006 0721 0512 0360 0251 0174 0120 0082 0056 0038 0025 0017 0011 0008 0005 0003 0002 0001 0001 0,9982 9810 9344 8571 7576 6472 5366 4335 3423 2650 2017 1512 1119 0818 0591 0424 0301 0212 0149 0103 0071 0049 0034 0023 0016 0010 0007 0005 0003 0002 97 5 2 6 2 7 2 8 2 9 3 0 98 Приложение 4 (лицевая сторона бланка) Финансовая академия при Правительстве РФ Кафедра теории вероятностей и математической статистики Расчетный бланк к лабораторной работе "Обработка результатов наблюдений" Вариант№ Группа Выполнил Проверил p i* f (x ) 0 x Таблица 1 № интервалов 1 2 Границы интервалов xi 1 ; xi Среднее значение в * интервале x i Число наблюдений в интервале mi Частота в интервале p i* m1 n 99 3 4 5 6 7 8 Приложение 5 (обратная сторона бланка) x k= Р0 = с = (X ) D (X ) x M 3 M 4 X2 = S= r= Pr = Выводы: Ответы к упражнениям §1 1.7. 0 0,9707 ; 1.8. 0,11 ; 1.9. n 98 ; 1.10. n 272 ; 0,014 ; 1.12. n 1160 ; 1.13. 0,022 ; 1.14. 0 0,8764 ; 1.15. 0,682; 0,818 ; 1.16. 1.22. n 1985 ; §2 1.11. 0,679; 0,821 и n 255 ; 1.18. n 166 ; 1.19. 0,19 ; 1.20. 19 0,55 ; 1.21. n 111 ; 1.23. n 166 ; 1.24. x 0 278 7 ; 1.25. 4,76 ; 1.26. P0 0,8926 . 2.1. Zн = 5 > 2,58 = Zкр Н0 отв.; 2.2. 2 2 крит набл = 22,1 < 36,2 = Н0 прин. ; 2.3. Fн= 3,39 >2,7 = Fкр Н0 отв.; 2.4. Fн= 1,34 < 2,49 = Fкр x y , Tн =12,06 > 2,06 = Tкр Н0 отв.; 2.5. Fн= 1,07 < 4,63 = Fкр x y , Tн =1,46 < 2,53 = Tкр Н0 прин. ; 2.6. Fн= 1,48 < 9,12 = y Fкр x , |Tн| =0,25 < 1,89 = Tкр Н0 прин.; 2.7. набл = 8,63 < 42,6 = 2 2 крит Н0 прин. ; 2.8. Zн = 3,3 > 1,645 = Zкр Н0 отв.; 2.9. 2 крит 2 2 крит набл Н0 прин. Н0 прин. ; 2.10. = 2,139 < 11,1 = 100 2 набл = 8,166 < 15,1 = §4 4.1. 0,89; y 1,096 0,447 x ; 4.3. T (0,63;0,16;3,07;0,59;1,69) , 4.2. T 4.4. (0,63;0,16;3,07;0,59;1,69) , 0,81; y 1,1 1,3x ; 4.4. T (0,63;0,16;3,07;0,59;1,69) , y 1,1 1,3 x ; 4.5. 0,82; y 2,94 1,22 x ;4.7. 4.6. y 5 6 x 3x 2 ;4.8. R = 0,94, y 3,41 2,43x1 1,96 x2 . §5 1 ln R 5.1. 0,688; 5.3. ; 5.4. a) -0,952; б) –1,01; в) 166,852; 5.5. 0,83; 5.6. 6140; 5.7. 0,954; 5.8. 661. Заключение Исторически первой появились некоторые области статистики объектов нечисловой природы (в частности, задачи оценивания доли брака и проверки гипотез о ней) и одномерная статистика. Математический аппарат для них проще, поэтому на их примере обычно демонстрируют основные идеи математической статистики. Лишь те методы обработки данных, т.е. математической статистики, являются доказательными, которые опираются на вероятностные модели соответствующих реальных явлений и процессов. Речь идет о моделях поведения потребителей, возникновения рисков, функционирования технологического оборудования, получения результатов эксперимента, течения заболевания и т.п. Вероятностную модель реального явления следует считать построенной, если рассматриваемые величины и связи между ними выражены в терминах теории вероятностей. Соответствие вероятностной модели реальности, т.е. ее адекватность, обосновывают, в частности, с помощью статистических методов проверки гипотез. Невероятностные методы обработки данных являются поисковыми, их можно использовать лишь при предварительном анализе данных, так как они не 101 дают возможности оценить точность и надежность выводов, полученных на основании ограниченного статистического материала. Вероятностные и статистические методы применимы всюду, где удается построить и обосновать вероятностную модель явления или процесса. Их применение обязательно, когда сделанные на основе выборочных данных выводы переносятся на всю совокупность (например, с выборки на всю партию продукции). В конкретных областях применений используются как вероятностностатистические методы широкого применения, так и специфические. Например, в разделе производственного менеджмента, посвященного статистическим методам управления качеством продукции, используют прикладную математическую статистику (включая планирование экспериментов). С помощью ее методов проводится статистический анализ точности и стабильности технологических процессов и статистическая оценка качества. К специфическим методам относятся методы статистического приемочного контроля качества продукции, статистического регулирования технологических процессов, оценки и контроля надежности и др. Широко применяются такие прикладные вероятностно-статистические дисциплины, как теория надежности и теория массового обслуживания. Содержание первой из них ясно из названия, вторая занимается изучением систем типа телефонной станции, на которую в случайные моменты времени поступают вызовы - требования абонентов, набирающих номера на своих телефонных аппаратах. Длительность обслуживания этих требований, т.е. длительность разговоров, также моделируется случайными величинами. Большой вклад в развитие этих дисциплин внесли член-корреспондент АН СССР А.Я. Хинчин (18941959), академик АН УССР Б.В.Гнеденко (1912-1995) и другие отечественные ученые. 102