Математическая статистика - Финансовый Университет при

реклама
Федеральное государственное образовательное учреждение высшего профессионального образования
«ФИНАНСОВАЯ АКАДЕМИЯ ПРИ ПРАВИТЕЛЬСТВЕ
РОССИЙСКОЙ ФЕДЕРАЦИИ»
Кафедра «Теория вероятностей и математической статистики»
И.Е. Денежкина, М.Г. Орлова, Ю.Н. Швецов
Основы математической статистики
УЧЕБНО-МЕТОДИЧЕСКОЕ ПОСОБИЕ
для самостоятельной работы бакалавров
Москва 2009
УДК 519.22(075.8)
ББК 22.172
К1
Основы математической статистики
Учебно-методическое пособие
для самостоятельной работы бакалавров
И.Е. Денежкина, М.Г. Орлова, Ю.Н. Швецов
М., Финансовая академия, 2009, с иллюстрациями.
. Пособие предназначено для подготовки бакалавров экономики и менеджемента Финакадемии. Оно может быть использовано как для проведения семинарских занятий, так и для организации самостоятельной работы студентов. По
каждой теме кратко излагаются основные сведения из теории, даются решения
типовых задач, упражнения для самостоятельной работы, рекомендации и задания для лабораторной работы, унифицированные задания для контрольных
работ.
Финансовая академия при Правительстве Российской Федерации, 2010
2
Содержание
Введение.................................................................................................................................. 4
§1. Основы выборочного метода .......................................................................................... 6
1.1. Понятие о выборочном методе. ................................................................................. 6
1.2. Методы группировки экспериментальных данных ................................................. 8
1.3. Выборочные оценки и ошибки выборки................................................................. 12
1.4. Некоторые требования, предъявляемые к выборочным оценкам ........................ 18
1.5. Случайная повторная выборка для определения оценки доли признака ............ 18
1.6. Случайная повторная выборка для определения оценки генеральной средней 23
1.7. Оценка генеральной дисперсии .............................................................................. 27
1.8. Простая случайная бесповторная выборка ............................................................ 32
1.9. Эмпирическая ковариация ...................................................................................... 36
1.10. Межгрупповая дисперсия ...................................................................................... 41
Упражнения ...................................................................................................................... 43
Задания для контрольной работы № 1. .......................................................................... 48
§2. Статистическая проверка гипотез ................................................................................ 50
2.1. Основные понятия ..................................................................................................... 50
2.2.Сравнение выборочной средней с математическим ожиданием нормальной
генеральной совокупности при известной дисперсии ............................................................. 55
2.3. Сравнение генеральных средних по выборкам одинакового объема при равных
известных дисперсиях. ................................................................................................................ 56
2.4. Проверка гипотезы о равенстве математических ожиданий при известных
дисперсиях .................................................................................................................................... 58
2.5. Проверка гипотезы о равенстве математических ожиданий при равных
неизвестных дисперсиях ............................................................................................................. 61
2.6. Сравнение дисперсий двух нормальных распределений ...................................... 63
2.7. Критерии согласия .................................................................................................... 64
2.8. Распределение долей признаков .............................................................................. 66
2.9. Сравнение выборочной исправленной дисперсии с заданной дисперсией
нормальной генеральной совокупности .................................................................................... 68
Упражнения ...................................................................................................................... 73
2.10. Задания для контрольной работы № 2 .................................................................. 77
§ 3. Обработка результатов наблюдений ........................................................................... 77
3.1. Методические указания к лабораторной работе .................................................... 77
3.2. Задания для лабораторной работы .......................................................................... 85
Приложения ...................................................................................................................... 93
Ответы к упражнениям ...................................................................................................... 100
Заключение ......................................................................................................................... 101
3
Введение
Математической статистикой называют раздел математики, посвященный
математическим методам сбора, систематизации, обработки и интерпретации
статистических данных. Статистическими данными называются сведения о
числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.
Математическая статистика использует методы теории вероятностей, но
решает иные задачи. В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты, свойства которых известны, устанавливаются свойства и взаимосвязи этих величин. Но часто
результатом эксперимента является набор числовых (или их можно сделать
числовыми) результатов, полученных повторением одного и того же случайного эксперимента в одинаковых условиях, по которым требуется сделать выводы
о свойствах этого эксперимента и участвующих в нем величин. В ряде случаев
бывает возможно высказать некие предположения об их распределении или о
его свойствах. Тогда по опытным данным требуется подтвердить или опровергнуть эти предположения (“гипотезы”). При этом выводы могут быть сделаны
лишь с определенной степенью достоверности, которая будет повышаться с
увеличением количества экспериментов. Иногда некоторые свойства наблюдаемого эксперимента оказываются заранее известными и можно сформулировать
какие-то априорные выводы о распределении: о наличии функциональной зависимости между наблюдаемыми величинами, о нормальности распределения, о
его симметричности, о наличии у распределения плотности или о его дискретном характере и т. д. Наличие таких знаний помогает на основании результатов
эксперимента делать выводы о прочих, неизвестных, свойствах распределения.
Математическая статистика позволяет по результатам конечного числа
экспериментов делать некоторые выводы о распределениях случайных вели-
4
чин, наблюдаемых в этих экспериментах. Точные выводы о распределении можно делать лишь тогда, когда проведено бесконечное число испытаний,
что неосуществимо
Коротко об истории математической статистики. Математическая статистика как наука начинается с работ знаменитого немецкого математика Карла
Фридриха Гаусса (1777-1855), который на основе теории вероятностей исследовал и обосновал метод наименьших квадратов, созданный им в 1795 г. и примененный для обработки астрономических данных (с целью уточнения орбиты
малой планеты Церера). Его именем часто называют одно из наиболее популярных распределений вероятностей – нормальное, а в теории случайных процессов основной объект изучения – гауссовские процессы.
В конце XIX в. – начале ХХ в. крупный вклад в математическую статистику внесли английские исследователи, прежде всего К.Пирсон (1857-1936) и
Р.А.Фишер (1890-1962). В частности, Пирсон разработал критерий «хиквадрат» проверки статистических гипотез, а Фишер – дисперсионный анализ,
теорию планирования эксперимента, метод максимального правдоподобия
оценки параметров.
В 30-е годы ХХ в. Польский ученый Ежи Нейман (1894-1977) и английский Э.Пирсон развили общую теорию проверки статистических гипотез, а советские
математики
академик
А.Н.
Колмогоров
(1903-1987)
и
член-
корреспондент АН СССР Н.В.Смирнов (1900-1966) заложили основы непараметрической статистики. В сороковые годы ХХ в. А. Вальд (Румыния) (19021950) построил теорию последовательного статистического анализа.
Математическая статистика бурно развивается и в настоящее время.
5
§1. Основы выборочного метода
1.1. Понятие о выборочном методе.
Предметом исследования в математической статистике является совокупность объектов, однородных относительно некоторых признаков. Примером такой серии экспериментов может служить социологический опрос, набор экономических показателей или, наконец, последовательность гербов и решек при
тысячекратном подбрасывании монеты.
Множество всех объектов, объединенных этими признаками, называется
генеральной совокупностью.. Число объектов генеральной совокупности называется объемом генеральной совокупности и обозначается N.
Задачей исследования является изучение признаков генеральной совокупности, которые определяются влиянием некоторых случайных факторов. Для
решения этой задачи проводится эксперимент (измерение, тестирование, анкетирование), в результате которого получают значение некоторой случайной величины (результаты тестирования, количество баллов). Если в эксперименте
участвуют все объекты генеральной совокупности, то такое обследование
называют сплошным (например, перепись населения).
На практике сплошное обследование часто бывает невозможным (например, если при обследовании объект уничтожают), либо нерентабельным. В этих
случаях применяют выборочный метод, который заключается в том, что из генеральной совокупности случайным образом извлекают n элементов. Эти элементы называются выборочной совокупностью или выборкой. Исследователь
анализирует выборочную совокупность и на основании полученных показателей делает вывод о параметрах генеральной совокупности. Число объектов выборки называется объемом выборки и обозначается п.
Еще рпз отметим, что отбор в выборку должен быть случайным, т.е. каждый элемент генеральной совокупности должен иметь равную вероятность
6
быть отобранным. Репрезентативность выборки (представительность)
обеспечивается способом случайного отбора и объемом выборки.
Различают два вида отбора:
- случайная повторная выборка (отобранный элемент возвращается в генеральную совокупность) и
- случайная бесповторная выборка (элементы не возвращаются в генеральную совокупность).
По способам отбора можно выделить следующие виды выборок :

простая случайная выборка;

механическая выборка;

типическая или районированная;

серийная или гнездовая;

многоступенчатая и многофазная выборки.
Рассмотрим эти способы отбора подробнее.
Простая случайная выборка. Каждому объекту генеральной совокупности присваивается свой номер, затем все номера от 1 до N наносят на отдельные
карточки, помещают их в закрытый ящик или лотерейный барабан. Из этого
барабана случайно (повторно или бесповторно) n раз извлекаются карточки с
номерами. Соответствующие этим номерам объекты генеральной совокупности
подвергаются исследованию. Иногда для этой же процедуры используют датчик случайных чисел. Если какое-либо из отобранных случайных чисел оказывается больше N, то его отбрасывают.
Механическая выборка. Все объекты генеральной совокупности делят на
n равных частей. Из каждой части отбирают каждый k-ый объект. Полученная
таким образом совокупность объёмом в n элементов и образует механическую
выборку.
Например, N = 2000, n = 100. В этом случае будет получено 100 групп по
20 объектов. Из каждой группы выберем один, например, объект с номером 15.
Заметим, что механическую выборку не рекомендуется применять, если суще-
7
ствует какая-либо систематическая повторяемость свойств среди механически отбираемых элементов.
Типическая или районированная выборка. Вся генеральная совокупность делится на однородные группы (районы). Из каждой группы берётся число объектов, согласно его доле во всей генеральной совокупности
Пример 1.1. Tипическая выборка: пусть обследуются бюджеты 6000 рабочих (N = 6000). Среди них 1000 рабочих
средней квалификации и 3000 -
высокой квалификации, 2000 -
малоквалифицированных. Требуемый объем
выборки п = 600 рабочих. Из каждой группы с помощью простой случайной
бесповторной выборки или с помощью механической выборки отбирают в соответствии с
удельным весом группы в генеральной совокупности: из 1-й
100 рабочих, из 2-й
200 рабочих, из 3-й 300 рабочих.
Серийная или гнездовая выборка. Из генеральной совокупности отбирают не отдельные объекты, а целые серии, которые подвергают сплошному
обследованию.
Пример 1.2. Серийная выборка: пусть обследуются 3000 рабочих на наличие более 2-х детей. Рабочие разбиты на 150 бригад. Надо обследовать 10%
всех рабочих. Берут любые 15 бригад из 150 с помощью простой случайной
бесповторной выборки (пронумеровав все бригады и заготовив карточки на
каждую тянут из ящика без возвращения 15 карточек) и исследуют их все полностью (п = 300).
Многоступенчатый отбор. Из генеральной совокупности сначала производят отбор более крупных подмножеств, а затем из них отбирают более мелкие множества объектов. Наиболее часто применяется двухступенчатый отбор.
Сначала серийная выборка подмножеств, а затем случайный отбор внутри каждого из них.
1.2. Методы группировки экспериментальных данных
Допустим, из генеральной совокупности извлечена каким-то способом выборка объемом n, измерена некоторая величина Х, в результате чего получено
8
множество значений х1, х2, . . . хn. Это множество называется простым
статистическим рядом. Он является первичной формой представления статистического материала.
Отдельные значения статистического ряда называются вариантами. Если
варианта хi появилась m раз, то число m называют частотой, а ее отношение к
объему выборки m/n – относительной частотой.
Последовательность вариант, записанная в возрастающем (убывающем)
порядке, называется ранжированным или вариационным рядом.
Таблица, в первой строке которой записаны все значения величины (варианты), во второй – соответствующие им частоты, называется безынтервальным
вариационным рядом. Графическим изображением безынтервального вариационного ряда является полигон. Для его построения на оси ОХ откладывают значения вариант, на оси ОY –соответствующие им частоты. Точки с координатами
(хi; mi) соединяют отрезками, полученная ломаная линия называется полигоном
частот.
Пример 1.3: В детском саду измерили массу тела 10 детей 5 лет. Полученные данные образуют простой статистический ряд:
24 22 23 28 24 23 25 27 25 25
Ранжированный ряд имеет вид:
22 23 23 24 24 25 25 25 27 28
Подсчитав частоты каждого значения, можно постороить безынтервальный
вариационный ряд:
Х
2
2
m
2
3
1
2
4
2
2
5
2
2
7
3
2
8
1
1
На рис. 1 представлен полигон этого вариационного ряда.
9
Рис. 1.1. Полигон вариационного ряда
Длина R интервала [xmin; xmax] называется размахом ряда, т.е.
R = xmax – xmin
где xmax и xmin соответственно наибольшее и наименьшее значения варианты.
Если выборка представлена слишком большим количеством различных
значений случайной величины, группировку данных проводят в виде интервального вариационного ряда. Для этого диапазон варьирования признака разбивают на несколько равных интервалов и указывают количество вариант, попавших в каждый интервал. Количество интервалов k определяется условиями
задачи исходя
из требований исследователя. Зная количество интервалов,
можно определить длину h каждого интервала: h =R/(k-1). Рассмотрим процедуру построения интервального вариационного ряда на примере.
Пример 1.4. При диспансеризации производилось определение веса 100
человек одной возрастной группы. Получены значения от 60 до 90 кг. Размах
ряда: R = xmax – xmin =90-60=30. Разобьем полученный диапазон на 6 интервалов
(k=6). Тогда ширина интервала h=R/(k-1)=30/5=6. Расположим полученне данные в виде интервального вариационного ряда:
интервалы
60-65 65-70 70-75 75-80 80-85 85-90
количество 14
34
29
15
6
2
Для удобного представления материал часто располагают в таком виде:
10
интервал
се-
m
редина
/h
m
интервала
60-
62,5
65
1
4
65-
67,5
70
70-
72,5
75
77,5
80
80-
82,5
85
4
,83
1
5
5
,67
2
9
75-
,33
3
4
2
2
,5
6
1
,00
85-
87,5
90
2
0
,33
Графическим изображением интервального вариационного ряда является гистограмма. Для ее построения на оси
ОХ
откладывают
интервалы
шириной h, на каждом интервале строят прямоугольник выРис.1.2. Гистограмма вариационного ряда
сотой m/h. Величина m/h называется
плотностью
частоты.
Гистограмма является эмпирическим аналогом графика функции распределения. Для рассмотренного ряда гистограмма представлена на рис.2.
11
1.3. Выборочные оценки и ошибки выборки
На практике для изучения закономерностейслучайных явлений массового
характера. ипользуются именно выборками Выборочный метод математической статистики основывается на законе больших чисел , согласно которому результаты обработки выборки ограниченного объема можно распространять на
всю генеральную совокупность. С вероятностной точки зрения важно подчеркнуть, что результат каждого наблюдения в предполагаемом испытании следует
рассматривать как случайную величину, поскольку до проведения испытания
заранее неизвестно, какое значение примет тот или иной результат наблюдения.
Основными параметрами генеральной совокупности являются математическое ожидание (генеральная средняя) Е(Х) и среднее квадратическое отклонение . Это постоянные величины, которые можно оценить по выборочным
данным. Оценка генерального параметра, выражаемая одним числом, называется точечной.
Пусть имеется закон распределения генеральной совокупности (на практике обычно неизвестен):
Х
x1
x2
…
xk
P
p1
p2
…
pk
xi - значение признака, Mi - число объектов с признаком xi.
Оценки генеральной совокупности (генеральные оценки):
pi 
Mi
N
(1.1)
I
- доля i-ого признака в генеральной совокупности,
Отметим, что
k
 pi  1 , т.к. M 1  M 2  ...  M k  N .
i 1
k
x0   pi xi
i 1
- генеральная средняя
12
(1.2)
D0   02   pi ( xi  x0 ) 2
(1.3)
- генеральная дисперсия
Функция распределения случайной величины Х:
F  x   P X  x 
(1.4)
Оценки выборочной совокупности (выборочные оценки):
xi - значение признака,
mi - число объектов в выборке с признаком xi;
pi * 
m
n
(1.5)
k
- выборочная частота,  pi  1 , т.к. m1  m2  ...  mk  n .
i 1
k
k
m1
xi
i 1 n
(1.6)
mi
( xi  xв )2
i 1 n
(1.7)
xв   p i xi  
i 1
- выборочная средняя
k
Dв   в2  
- выборочная дисперсия
 k  x1 m1  x2 m2  ...  xn   xik  mi
k
k
k
n
n
i 1
k
n
- (1.8)
Выборочный начальный момент k-го порядка
n
mi
( xi  xв ) k
i 1 n
k  
- (1.9)
выборочный центральный момент k-го порядка .
Если обозначить через mx число наблюдений, при которых значение признака Х меньше х, то частота события « Х < х» равна p 
ется функцией от х.
13
mx
, т.е. частота являn
Эта функция находится опытным путем, ее называют эмпирической
функцией распределения и обозначают:
F  ( x) 
mx 1
  mi
n n xi  x
(1.10)
Функция F  (x) при фиксированном х является случайной величиной, распределённой по закону:
k

Р F * ( x)    Cnk  F k ( x)  (1  F ( x)) n  k , k  (0, n)
n

(1.11)

т.е. функция y  nF ( x)  k распределена по биномиальному закону.
Обозначим любую из генеральных характеристик  0 , а соответствующую
выборочную —  в .
Определение 3.
в
называется точечной характеристикой  0 .
Определение 4.    B   0 называется ошибкой выборки или точностью
выборки.
Ошибки выборки могут быть систематическими (например, если в выборке существует какая-либо правильная повторяемость; такие ошибки могут
быть исключены) и случайными (их исключить невозможно, поэтому  B и  0
совпадать не будут).
Нельзя утверждать, что  B удовлетворяет неравенству
 B  0   ,
можно лишь указать, с какой вероятностью оно выполняется.
Определение 5.
P0 (  B  0   ) называется доверительной вероятно-
стью или надежностью выборки.
Из неравенства  B  0   следует что
 B    0   B   ,
Интервал  B   ;  B    называется доверительным интервалом.
Всвою очередь,  B   и
 B   называются доверительными границами
генеральной характеристики.
14
Пример 1.5. Пусть генеральная совокупность содержит 300 единиц
и имеет следующий закон распределения некоторого количественного признака:
X
3
5
7
9
11

Mi
15
45
120
78
42
300
pi 
Mi
N
0,05 0,15 0,40 0,26 0,14
1
Произведена случайная повторная выборка объемом 30 единиц. Результаты выборочных наблюдений приведены в таблице
X
3 5 7 9 11

mi
3 9 10 6 2
30
pi* 
mi 0, 0, 1 0, 1 1
3
15
n1 3
2
Вычислить генеральную и выборочную средние, генеральную и выборочную дисперсии, а также составить теоретическую и эмпирическую функции
распределения.
Решение.. По формуле (1.2) вычислим генеральную среднюю
x0  3  0,05  5  0,15  7  0,40  9  0,26  11  0,14  7,58
По формуле (1.3) находим генеральную дисперсию:
D0  0,053  7,582  0,155  7,582  0,47  7,582 
 0,269  7,582  0,1411  7,582  4,3436
Функция распределения F ( x)  P X  x имеет вид:
0 , при x  3
0,05, при 3  x  5

0,20, при 5  x  7
F ( x)  
0,60, при 7  x  9
0,86, при 9  x  11

1 , при x  11
15
Соответствующие характеристики в выборочной совокупности
находим по формулам (1.6) и (1.7):
1
1
x B  3  0,1  5  0,3  7   9  0,2  11   6,67
3
15
DB  0,13  6,672  0,35  6,672 
 0,29  6,672 
1
7  6,672 
3
1
11  6,672  4,56
15
Построим эмпирическую функцию распределения F * ( x) по данным выборки. Поскольку наименьшее выборочное значение признака равно 3, то
F * (3)  0 . Значение x  5 наблюдалось 3 раза, следовательно, F * (5)  3 .
30
Значение
x7
наблюдалось 12 раз из 30, потому F * (7) 
12
; значение
30
x9
наблюдалось 3+9+10=22 раза, следовательно,
F * (9) 
22
28
. При
; F * (11) 
30
30
x  10 , F * ( x)  1 .
Таким образом
0 , при x  3
0,1, при 3  x  5

0,4, при 5  x  7


F * ( x)  11 , при 7  x  9
15
14
 , при 9  x  11
15

1 , при x  11
Пример 1.6. В партии из 6000 деталей 120 бракованных. Из этой партии
произведена случайная повторная выборка объемом 200 единиц. Среди отобранных деталей оказалось 6 бракованных. Найти генеральную и выборочную
доли бракованных деталей.
16
Решение. По условию доля бракованных деталей в генеральной совокупности равна p 
120
 0,02 (или 2%). Доля или частота бракованных
6000

деталей в выборке равна p 
m
6

 0,03 (или 3%).
n 200
Пример 1.7. Пусть X1, X2,…, X6 выборка из равномерного распределения
на отрезке [7, 17]. F * ( x)
соответствующая данной выборке эмпирическая
5

функция распределения. Найти вероятность P F * (12)   .
6

Решение. В каждом испытании вероятность того, что) выбранные числа
будут не более 12 равна 0,5, поскольку число 12 – середина отрезка [7, 17], а все
возможные числа распределены на указанном отрезке равномерно. Таким обра-
5

зом, запись P F * (12)   означает распределение вероятностей в схеме Бер6

нулли, в которой n = 6, k = 5, p = q = 0,5 , таким образом
5
1
5
1
5
3

1 1
1 1
P F * (12)    С65  p 5 q  6        6        .
6
32

2 2
2 2
Пример 1.8. Пусть X1, X2,X3, X4 выборка из равномерного распределения
на отрезке [9, 15]. F * ( x)
соответствующая данной выборке эмпирическая



функция распределения. Найти вероятность P F * (11)  F (13) .
Решение. n = 4, P  xi  11;13 
13  11 1
 .
15  9 3
Тогда


P F * (11)  F (13) = P( xi  [11;13]) 

4
17
4
 1  16
= 1   
.
81
 3
1.4. Некоторые требования, предъявляемые к выборочным оценкам
Для того, чтобы выборочная или статистическая оценка  B дала "наилучшее" оценивание параметра  0 , она должна быть:
1) несмещенной;
2) состоятельной;
3) эффективной.
Определение 6. Статистическая оценка
b
называется несмещенной, если
E B   0 . Если ;же E B   0 , то оценка  B называется смещенной.
Замечание. Свойство несмещенности оценки означает, что отсутствуют
систематические ошибки.
Определение 7. Статистическая или выборочная оценка  B называется
состоятельной, если при n   она по вероятности стремится к оцениваемой
характеристике
 0 , т.е.
lim P B  0     1,
n 
Замечание. Свойство состоятельности обеспечивает сближение оценки с
измеряемым параметром при увеличении числа измерений.
Определение 8. Статистическая оценка
 B называется эффективной в
некотором классе оценок, если о в этом классе на при заданном объеме выборки имеет наименьшую возможную дисперсию, т.е. D B   min .
На практике трудно найти оценку, чтобы она удовлетворяла всем указанным свойствам, однако выполнение всех этих требований желательно.
1.5. Случайная повторная выборка для определения оценки доли признака
1) Точечная оценка доли признака.
Пусть  0  p . Точечной оценкой этой характеристики будет  B 
18
m
 p .
n
Очевидно, что эта оценка несмещенная.
По теореме Бернулли
m
по вероятности стремится к
n
p - следовательно,
оценка состоятельна.
m
pq
 0 при n   , следовательно, это эффективная
Так как D   
n
n
оценка.
2) Интервальная оценка доли признака.
Для неизвестного параметра определяется соответствующий доверительный интервал при заданной вероятности.
Случайная величина
m
при n   распределена по закону, близкому к
n
нормальному, следовательно,





m


P0   p     2
,

m
 n

  
  n 
m

n
Поскольку  
(1.12)
pq
,то
n
 n 
m

.
P0   p     2Ф

n
pq




Если р неизвестно, то в силу того, что
(1.13)
m
является точечной оценкой для
n
р, удовлетворяющей всем требованиям, на практике можно заменить p 
m
  
n
19
m m
1  
n
n
n
m
.
n
(1.14)
и






 n
m

P0   p     2Ф
.
m
m
 n





 n 1  n  


(1.15)
Замечание . Можно получить интервальную оценку доли признака р: ис-
 n
ходя из следующего. Обозначим
pq
 t , тогда по заданной доверительной
вероятности P0 находим по таблицам t (приложение 2), откуда  
t pq
и
n
t pq
m
p
.
n
n
Возведем обе части неравенства в квадрат:
t 2 p1  p 
m

.
  p 
n
n

2
В результате преобразований получим квадратное неравенство оносительно р:




m2
1  t p  2m  t p 
 0.
n
2
2
2
Если левая часть имеет корни р1 и р2, то в силу того, что коэффициент
1  t 2  0 , p1  p  p2 , что и является интервальной оценкой р.
Пример 1.9. В случайной повторной выборке объемом 400 единиц, произведенной для определения доли стандартных деталей в партии, частота стандартных деталей оказалась равной 0,950. Определить, с какой доверительной
вероятностью процент стандартных деталей в партии может быть принят равным 95 %, если допустимая погрешность при его определении равна ± 2 %.
20
Решение. По условию п = 400,
m
 0,950 ,   0,02  0,95  0,019. Опреn
делить Р0. По формуле (1.15) находим:




 0,019  400 
 n
m




  2Ф1,74   0,9181
P0   p     2Ф

2
Ф

n
0
,
95

0
,
05
m
m







 n 1  n  


Пример 1.10. Для определения процента изделий первого сорта в партии
производится случайная повторная выборка объемом 200 единиц. В выборке
число изделий первого сорта оказалось равным 160. Определить доверительные
границы для процента изделий первого сорта в партии, которые можно принять
с доверительной вероятностью равной 0,95.
Решение. По условию P0  0,95, n  200, m  160,
Найти  и доверительные границы
Вычисляем

m 160

 0,8.
n 200
m
m
 ; ;  ;
n
n
m m
1  
n n
0,8  0,2

 0,028.
n
200
Определим t по известному значению Р0 (по таблице):
2Фt   P0  0,95, t  1,96.
 

Вычисляем P0  2Ф   2Фt , следовательно t 

 
,   t    1,96  0,028  0,055.
Отсюда
доверительные
границы
:
m
   0,8-0,055=0,745;
n
и
m
  =0,8+0,055=0,855.или 74,5 % и 85,5 % .
n
Рассмотрим задачу об определнии объема выборки, гарантирующего заданную ошибку. Пусть значение выборочной частоты неизвестно, а доля при-
21
знака р известна. Найдем объем выборки
точность выборки

n max , который обеспечивает
с доверительной вероятностью P0
Т.к. P0  2Ф(t ) , по таблицам находим
t
 n
t2 m m 
, откуда n  2  1  
 n n
m m
1  
n n
Пусть теперь неизвестна доля признака. В этом случае найдем гарантированный минимально необходимый объем выборки
ет точность выборки
Обозначим
t2
2

с доверительной вероятностью P0 .
 A;
m
 x . Функция n( x)  Ax1  x   Ax  Ax 2 имеет
n
максимум в точке х = 0,5, следовательно,
nmax
Пример 1.11.
n max который обеспечива,
m
 0,5 и отсюда
n
t2
 2.
4
(1.16)
Определить необходимый объем выбоки, который дает
ошибку выборки, не превышающую 0,05 с доверительной вероятностью 0,991,
если известно, что доля признака равна 0,8.
Решение. По условию P0  0,991,   0,05,
1) По P0 = 0,991 определяем t 
m
 0,8 . Найти n.
n

 2,61 .

2) По формуле (1.15) определяем
t 2 m  m  2,612  0,8  0,2
n  2  1   
 436
0,05 2
 n n
.
Пример 1.12. Определить необходимый объем выборки, который дает
ошибку выборки при определении доли изделий первого сорта, не превышаю-
22
щую 0,05 с доверительной вероятностью 0,991, если значение этой доли
неизвестно.
Решение. По условию   0,05; P0  0,991. По таблицам t  2,61 .
По формуле (1.16) находим
n max
t2
2,612


 681
4 2
4  0,05 2
.
Как видим, объем выборки значительно вырос при неизвестной выборочной частоте.
1.6. Случайная повторная выборка для определения оценки
генеральной средней
Точечная оценка генеральной средней.
k
k
k
i 1
i 1
i 1
*
Пусть  0  x0   xi pi ,  в  xв   xi pi   xi
mi
.
n
Выборка рассматривается как п повторных независимых испытаний. Результат каждого испытания есть случайная величина xi, закон распределения
которой совпадает с генеральным распределением, т.е.
E[ xi ]  x0
и
D[ xi ]  D0 . После n испытаний, получены n попарно независимых одинаково
распределенных случайных величин,.
xB 
x1  x2  ...  xn
- случайная величина.
n
n
Всего выборок можно произвести N . Определив вероятность каждой
выборки и составив закон распределения для x B , найдем
 


 x  x2  ...  xn  1
E xB  E  1
  n x0  x0  ...  x0  x0 ,
n


 
отсюда E xB  x0 и x B - несмещенная оценка x0 .
x B - состоятельная оценка x0 (по теореме Чебышева.
23
Рассмотрим дисперсию
 x  x  ...  xn   D( xi ) nD0 D0
D xB  D  1 2
 2 
  n2
n
n
n


 
(1.17)
 
D x B при n   будет иметь минимально возможное значение, следовательно x B - эффективная оценка x0 .
Итак, точечная оценка генеральной средней удовлетворяет всем необходимым требованиям.
Интервальная оценка генеральной средней.


 
P0 xb  x0    2Ф
  xB
 




(1.18)
Формула (1.18) получена на основании частного случая теоремы Ляпунова,
т.е. теоремы Лапласа для одинаково распределенных случайных величин при
 
больших объемах выборки. Но D x B 
 
 xB 
D0
согласно (1.17), следовательно,
n
0
n
.
(1.19)
Тогда


 n 
.
P0 x B  x0    2Ф


 0 
(1.20)
Замечание Если значение  0 неизвестно, то егоследует заменить "хорошей" точечной оценкой. Считая, что.  0 x   B x получим аналог формулы
(1.20):


 n 
.
P0 xB  x0    2Ф




x
 B 
(1.21)
Пример 1..13. Определяется средний рабочий стаж x 0 большой группы
рабочих. Произведена случайная повторная выборка
900 личных листков.
Средний рабочий стаж в выборке оказался равным 15,5 годам, а среднее квад24
ратическое отклонение 4,8 года. С какой вероятностью можно утверждать, что отклонение выборочной средней от генеральной не превысит 0,5 года.
Решение. По условию x B  15,5 ;  B  4,8;   0, 5 ; n  900 . Найти P0 .
t
Вычисляем
 n 0,5 900

 3,13 .
B
4,8
По
таблице
находим
2Ф(3,13)  0,9983 , сле-довательно, по формуле (1.20) доверительная вероятность P0  0,9983 .
Пример 1.14. По данным предыдущего примера найти доверительные границы при оценке генеральной средней, которые можно гарантировать с вероятностью 0,9500.
Решение. По условию xB  15,5 ;  B  4,8; P0  0,9500,
n  900. Найти 
и xB   , xB   .
Так как по формуле (1.20 ) P0  2Ф(t ), где

дим t = 1,96.
t   B x
n

1,96  4,8
t
 n
,
 B x  по таблицам нахо-
 0,31.
900
Доверительные границы будут:
15,5  0,31  x 0  15,5  0,31 или 15,19  x 0  15,81.
Пример 1.15. В условиях предыдущего примера определить необходимый
объем выборки, при котором ошибка не превысит 0,5 с доверительной вероятностью 0,9990.
Решение. По условию Po = 0,9990; x B  15,5 ;  B  4,8;   0,5. Найти п.
25
t  3,29. Из равен-
По таблицам 2Ф(t )  P0  0,9990 определяем
2
2
 n
3,29 2  4,82
t

в
t
,
 998.
n




x
0,52
B
2
ства
находим
Пример 1.16. Случайная величина Х имеет показательное распределение
(например, время бесперебойной работы устройства) с плотностью
f ( x)    e x , x  0.
В таблице дан эмпирический закон распределения времени работы этого
устройства
Время работы
Число устройств
0 - 20
20 - 40
40 - 60
60 - 80
100
40
15
4
Методом моментов найти точечную оценку параметра 
Решение.
X
10
mi
n
100/1
xв 
30
50
15/
40/159
59
159
70
4/159
159
1
3230 ˆ 1

 (10  100  30  40  50  15  70  4) 
; 
.
3230
xв
159
159
Пример 1.17. Случайная величина Х распределена по закону Пуассона
k  e 
P( X  k ) 
.
k!
Результаты 120 независимых наблюдений X отражены в таблице
Значение Х
Частота
0
0
1
2
3
7
2
1
1
0
4
6
Методом моментов найти точечную оценку параметра .
Решение. Математическое ожидание случайной величины Х равно . Составим эмпирический закон распределения относительных частот
26
Значение Х
0
1
Относительная частота
7/12
1/6
2
3
7/6
0
2/15
1
96
ˆ  хв 
(0  70  1  20  14  2  16  3) 
 0,8.
120
120
Пример 1.18. По выборке x1 = 4; x2 = 3; x3 = 2; x4 = 4; x5 = 2. Определить
точечную
оценку
p̂
параметра
геометрического
p
распределения
P( X  k )  (1  p) k 1  p , где X – случайная величина, которая означает число
испытаний до первого появления события, а p – вероятность появления события в одном испытании.
Решение. Среднее выборочное значение случайной величины X
Х 
1
15
( 2  2  1  3  4  2) 
3
5
5
Отсюда точечная оценка параметра pˆ 
1 1
 .
x 3
1.7. Оценка генеральной дисперсии
Пусть
n


 0  D0     xi  x 0 pi ;
2
0
2
i 1
n


 B  DB     xi  x B 
2
B
2
i 1
Поскольку заменяются две величины ( pi 
mi
и
n
mi
.
n
x0  x B ), то это вызывает
смещение оценки D0 :
E DB  
n 1
D0 .
n
Покажем это .
Dв  E ( X 2 )  E 2 ( X ).
27
(1.22)
Известно что
D( X  С )  D( X )  Dв
D( X  С)  Dв  E( Х  С) 2  ( X в  C) 2
() .
Пусть Х1, Х2,…, Хi ,...,Xn - независимые случайные величины, каждая из
которых имеет один и тот же закон распределения с числовыми характеристии D(Xi)=D0. Пусть С  Х о
ками: E( X i )  хO
подставим в (*), тогда:
Dв  E ( X  X 0 ) 2  ( X в  X 0 ) 2 .
Найдем E[Dв]:
EDB 
 n
2 
  ( xi  xo ) 
  E xв  х 0
 E  i 1
n








2
 n
2 
  E ( xi  x o ) 
  i 1
  D xв 
n




 
 n

  D( xi )  D
 nD  D
  0   0   0   n  1 D0 .
  i 1
n
n
n


 n  n


Итак E DB  
n 1
D0 . Что и требовалось доказать.
n
При больших п смещение невелико, им можно пренебречь, но при малых
выборках оно существенно.
 n

DB  D0 есть несмещенная оценка дисперсии или
Таким образм, E 
 n  1 
Dв* 
n
Dв
n 1
. (1.23)
Тогда исправленное среднее квадратическое отклонение имеет вид:
 B 
Для

интервальной
оценки



2
1 k
xi  x B  mi .

n  1 i 1
используется
 n 
P0 x B  x 0    2Ф   , где  B находится по формуле (1.24).
 B 
28
(1.24)
выражение
Замечание. Однако для больших выборок можно считать, что
 B   B . В случае малых выборок (п < 30) пользуются исправленной дисперсией по формуле (1.24).
По закону больших чисел DB является состоятельной оценкой для D0 генеральной дисперсии. А так как множитель
DB 
n
1
n 1
при n   , то
n
DB также является состоятельной оценкой для D0 . Оценка DB , строn 1
го говоря, не является эффективной оценкой для D0 , однако при наличии нормального распределения ее можно считать приближенно эффективной.
Замечание. Если известно точное значение математического ожидания
« а » для n измерений, то E(Xi) =
а
где хi – отдельные измерения. Исправлен-
ная (несмещённая) дисперсия находится по формуле
1 n
2
D     xi  a  .
n i 1
*
B
(1.25)
Действительно.
1
n
n

i 1

E ( Dв* )  E    xi  a 2  
 1  n

1   n
2
2
   D  ( xi  a)   E ( xi  a)    Dxi   E ( xi  a  
n   i 1


 n  i 1
 1
1  n 2
   0  (a  a) 2    n   02   02 , т.е. E(D*в) = D0 .
n  i 1
 n
Пример 1.19. В ящике содержатся стержни трех размеров (N = 3): 12 см,
14 см и 16 см с соответствующими долями 0,1; 0,3; 0,6. Производится повторная выборка двух стержней (n = 2). Найти все возможные выборочные распределения и построить законы распределения для
ном
примере
 
E xB  x0 ; E DB  
xB и DB . Проверить на дан-
справедливость
 
D
n 1
D0 ; D xB  0 .
n
n
Решение. Определим количество возможных выборок:
29
равенств
~
ANn  N n  32  9 .
Закон распределения генеральной совокупности представлен в следующей
в таблице
X
12
14
16
P
0,1
0,3
0,6
Вычислим генеральные характеристики :
x0  1,2  4,2  9,6  15; D0  0,9  0,3  0,6  1,8.
Все выборочные законы представлены в следующей таблице.
№ выборки
1
2
3
4
5
6
7
8
9
x
12
12
12
14
14
14
16
16
16
12
14
16
12
14
16
12
14
16
1
1
1
1 1 1 1
mi
2
1
xB
12
13
14
13
14
15
DB
0
1
4
1
0
1
0,03
0,06
0,03
Pвыборки
0,0
1
Проверим, что
p
i
1
1
2
1
1
2
14
15
16
4
1
0
0,09 0,18 0,06
0,1
8
0,36
 1.
По данным последней таблицы получим строим законы распределения
для x B и Dв и находим соответствующие характеристики.
хв
12
13
14
15
16

P
0,01
0,06
0,21
0,36
0,36
1
 
 
E xB  0,12  0,78  2,94  5,4  5,76  15 , D x B  0,9
30
DB
P
0
1
4

0,46
0,42
0,12
1
E[Dв]=0,42+0,48=0.9/
Итак,
 
E xB  x0  15; EDв   D0
1
2
Откуда следует: EDв  

1
 0,18  0,9 ,
2
 
D
n 1
 D0 и D xB  0 при n = 2.
n
n
Пример 1.20. Даны результаты 6 независимых измерений одной и той же
величины прибором, не имеющим систематических ошибок: 36; 37; 32; 43; 39;
41. Найдите несмещенную оценку дисперсии ошибок измерений, если истинная длина неизвестна.
Решение. Представим исходные данные в виде таблицы:
xi
32
36
37
39
41
43
р
1/6
1/6
1/6
1/6
1/6
1/6
Вычислим последовательно
xв 
1
1
114
(32  36  37  39  41  43)   228 
 38 ;
6
6
3
Dв  32  382  36  382  37  382  41  382  43  382  
1
6


Отсюда Dв 
75
1
36  4  1  9  25   12,5;
6
6
n
6
 Dв  12,5  15.
5
n 1
Пример 1.21.
В условиях предыдущей задачи найдите несмещённую
оценку дисперсии ошибок измерений, если истинная величина известна и равна 37,8.
Решение В этом случае в формулу подставляется не выборочное среднее,
а истинная величина:
31
1
2
2
2
2
Dв  (32  37,8  36  37,8  37  37,8  39  37,8
6
2
 41  37,8  (43  37,8) 2 ) 
1
76,24
 33,64  3,24  0,64  1,44  10,24  27,04 
 12,71.
6
6
1.8. Простая случайная бесповторная выборка
При оценке генеральных характеристик мы исходили из того, что выборка
была произведена по схеме повторного случайного отбора. В случае бесповторной случайной выборки применяют те же формулы, что и для повторной
выборки, но вычисление средних квадратических отклонений производится с
поправочным коэффициентом.
 бесповтор.   B  1 
n
.
N
(1.26)
Оценка генеральной доли для бесповторной выборки есть p 
Теорема. Выборочная доля
p 
m
n
M
.
N
бесповторной выборки есть несме-
щенная и состоятельная оценка генеральной доли p 
M
N
, причем её диспер-
сия
 в2  pq   N  n   pq  1  n  .
n  N 1 
n 
N
(1.27)
Доказательство. мМтематическое ожидание суммы равно сумме математических ожиданий слагаемых, поэтому и для бесповторной выборки
M
m
m
М    p , т.е.
- несмещённая оценка для p  .
n
N
n
Рассмотрим теперь дисперсию бесповторной выборки:
32
m 1
 в2   2    2   в2 (m) .
n n
Случайная величина m в случае бесповторной выборки имеет гипергеометрическое распределение и
D ( m)  n 
M  M  n
 1     1  
N 1  N   N 
Подставим его в (*), получим:
 в2 
1
n2
 M  M   n 
n  N  1  1  N   1  N  

 


1 M  M  N  n pq N  n

,
   1   

n N  N  N 1
n N 1
т .к.
M
 p; 1  M  q.
N
N
При n  N , т.е. если объём выборки много меньше N, можно считать, что
выборка практически не отличается от повторной и дисперсии их приближённо
2
равны, т.е.  в 
pq
.
n
2
Если n  N ,  в  0, то выборочная доля будет совпадать с генеральной, и
её дисперсия будет равна нулю.
Рассмотрим теперь оценку генеральной средней для бесповторной выборки.
Теорема:
X в бесповторной выборки есть несмещенная и состоятельная
оценка для генеральной средней X 0 , причем
2
2
 2 ( xв )   о   N  n    0  1  n 
n  N 1 
33
n 
N
(1.28)
Доказательство.Пусть X1, X2,…,Xk – зависимые случайные величины. все они распределены так же, как и в повторной выборке, с теми же частотами, что и в генеральной совокупности.
Xi
a1
a2
…
ak
m1
N
m1
N
m2
N
…
mк
N
При этом E(xi) =
x0 ; D0   02 – генеральная дисперсия.
Обозначим



С  М xi  x0  x j  x0  Соv( xi , x j ).
Если
i  j , то С – генеральная дисперсия ( С   2 ),
Если
i  j , то С – ковариация (C = Cov(xi,xj)).
xв 
x1  x2  ...  xn
n

 
(1.29)

2
1  n  1
D xв  2 D  xi   2 М ( x1  x0 )  ( x2  x0 )  ...  ( xn  x0 ) .
n  i 1  n
Выделим из n 2 слагаемых те n слагаемых, где i  j , тогда
 
D xв 


1
1
1 2
2
2
2
n


cov(
x
,
x
)

(
n


C
(
n

n
))

.( 0  C (n  1)).
0
i
j
0
n
n2
n2
Пусть теперь объём выборки n = N, тогда x1,x2,…, xn – не случайные вели-


чины, и дисперсия такой «выборки» D = 0, т.е.  o  C  (n  1  0.
2
 o2
Отсюда С  Соv( xi , x j )  
. Подставим это в последнее. равенство
N 1
2
n
1  2  02 (n  1)   02  n  1   0 N  n  0 
   1 


D xв  . о 
 1   .

n
N 1  n  N 1  n N 1
n  N
 
2
34
Теорема о несмещённости и состоятельности оценки генеральной
средней и об оценке дисперсии бесповторной выборки полностью доказана.
Пример 1.22. Для определения доли стандартных изделий в партии, содержащей 2500 деталей, произвели случайную бесповторную выборку объёмом
400 деталей.Доля стандартных деталей в ней оказалась равной 0,95. Известно
также, что при повторной выборке того же объёма среднеквадратичное отклонение составляло  B  0,011. Найти доверительную вероятность, если допустимая погрешность при определении этой доли равна ±2%
Решение. По условию n  400 ;N= 2500;
m
 0,95;   0,02  0,95  0,019;  B  0,011 . Найти P0 .
n
1)
 B  0,011
 бесп.   B  1 
n
400
 0,011 1 
 0,010
N
2500

0,019

 1,9

0,010
2)
t
3)
2Ф1,9  0,9426, P0  0,9426
Пример 1.23. Выборочная совокупность объёмом 900 единиц является
бесповторной и выделена из генеральной совокупности объемом 4500 единиц,
при этом x B  15,5  B  4,8 . Определить доверительные границы при оценке
генеральной средней, которые можно гарантировать с вероятностью 0,95.
Решение. По условию n  900, N  4500, P0  0,950 . Найти
xB   , xB   .
n
900
 4,8  1 
 4,27
N
4500
1)
 бесп.   b  1 
2)
Так как P0  Ф(t )  0,950 , то по таблицам t  1,96
3)

t 1,96  4,27

 0,23 .
n
900
35

или
Доверительные границы: 15,5
- 0,23 и 15,5 + 0,23, т.е.
15,27  x 0  15,73.
Заметим, что ошибка приближенного равенства x B  x0 для бесповторной
выборки может быть вычислена по формуле:
x
 о2  N  n 
 02  n 


 1  

n  N 1 
n  N
в
(1.30)
1.9. Эмпирическая ковариация
xi  X ( )
Пусть
и
y j  Y ( )
заданы
на
совокупности
  1 , 2 ,..., n  .
Cov(X,Y) – ковариация признаков X, Y в генеральной совокупности объема N. Тогда ковариация выборочных средних определяется следующими соотношениями:
Соv( Х ,У ) 
Соv( Х ,У ) 
Соv X , Y 
n
- в случае повторной выборки,
(1.31)
Соv X , Y  N  n

- в случае бесповторной выборки.
n
N 1
(1.32)
Совместное частотное распределение признаков имеет вид
x1
x2
……
xk
y1
m11
m12
……
m1k
y1
m21
m22
……
m2k
:
:
:
:
:
:
:
:
:
yl
ml1
m l2
X
Y
:
……
:
:
……
m lk
где mij – частота пары (xi ,yj).
Эмпирическая ковариация на основе такой таблицы определяется по формуле
36



1 k l
Соv( X , Y )    xi  x в  y  yв  mij .
n i1 j 1
(1.33)
Эмпирический коэффициент корреляции
 ( X ,Y ) 
признаков определяется:
cov( X , Y )
.
 в ( x)   в ( y )
(1.34)
Пример 1.24. Совместное частотное распределение признаков
задано таблицей :
x1 = 2
x2 =3
y1 =2
2
0
y2 =3
3
1
X
Y
Найти эмпирический коэффициент корреляции
k
Решение.
l
 m
i 1 j 1
ij
 n  6 Находим отдельные частотные распределе-
ния признаков
xв 
1
13
1
16
(10  3) 
, y в  (4  12)  .
6
6
6
6
Cov( x, y ) 
1  13   8 
 13  8 
 13  8   1
  2     2    2   2   3    3   3   3   1  .
6 
6   6
6  6 
6  6   18


2
1
5
 13 
  в ( x)  5  5 ;
Dв ( x)  (4  5  9  1    
6
36
6
36
6
2
2
1
22 64 2
8
Dв ( y )  (8  36)    

   в ( y) 
.
6
3
9
9
3
 3
 ( x, y ) 
1
covx, y 
18

 в ( x)   в ( y )
5
2
6
37

3

1
 0,316.
10
Пример 1.25. Три интегральные кости разных цветов подбрасываются до тех пор, пока не выпадет 18 различных с учетом цвета комбинаций очков.
Пусть Si – сумма очков на всех 3-х костях в i-ой комбинации, s 
среднее
арифметическое всех этих сумм, i = 1, 2,…,18. Найдите математиче-
ское ожидание и дисперсию среднего значения
s.
Решение. xi – число очков на каждой из костей соответственно x1,x2 и x3
– независимы, одинаково распределены и заданы таблицей:
xi
1
2
3
4
5
6
р
1/6
1/6
1/6
1/6
1/6
1/6
Комбинации различные, следовательно выборка – бесповторная,
объем её n=18, N=63= 216.
S  x1  x2  x3 ; S 
1
( s1  s2  ...  s18 ) ;
18
1 1 6 
 6   3,5 ;
E ( x1 )  E ( x2 )  E ( x3 )   
6  2

D( x1 )  D( x2 )  D( x3 )   1  4  9  16  25  36  3,52  35 ;
1
6
12
E (S )  E ( x1  x2  x3 )  3,5  3  10,5
E (S ) 
1
E ( s1  s2  ...  s18 )  E ( S )  10,5
18
D(S )  D( x1 )  D( x2 )  D( x3 ) 
D( S ) 
35
35
3 
12
4
D( s ) N  n 35 216  18 77




n N  1 4 18 216  1 172 .
Пример 1.26. Признак Х(к) задан на множестве   1,2,...,12 таблицей:
38
K
1 2 3
4 5 6 7 8 9 10 11
1
2
Х(к) 1 3 2
1 3 3 1 2 3
3
1
2
Из  извлекается случайная повторная выборка объема 7. Найдите математическое ожидание и дисперсию среднего значения
X признака Х в выбор-
ке.
Решение. Генеральная совокупность имеет закон распределения:
Х(к)
1
2
3
р
4/12
3/12
5/12
Ее объем N = 12, объем повторной выборки n = 7 Последоваьельно вычисляем:
X0 
1
25
 (4  6  15) 
12
12
2
1
 25  61 625 107
D0  (4  4  3  9  5)     

.
12
 12  12 144 144
D( X в ) 
D0
107

n 144  7
Пример 1.27.
В некотором городе болельщики футбольной команды А
составляют 24%, команды В 30%. Известно, что объём бесповторной выборки
составляет 14% от числа жителей города. Пусть p̂ A – выборочная доля болельщиков команды А, nB – число отобранных болельщиков команды В.
Найдите Cov ( p̂ A , nB ) (приближенно).
болеют за команду А
1,
0, не болеют за команду А.
Решение.Пусть X  
болеют за команду B
1,
Y

Пусть

0, не болеют за команду B.
39
Х и Y – несовместные случайные величины. Их законы распределения, а также совместный закон рапсределения представлены в таблицах;
Х
0
1 Y
0
1
XY
0
Р
0
0 Р
0,
0,
Р
1
7
3
,76
,24
E(Х) = 0.24; E(Y)= 0,3; E(ХY) = 0;
D(Х)= 0,24 - 0,0576 = 0,1824; D(Y) = 0,3 - 0,009 = 0,21;
n = 0,14N;
cov(Х,Y )= E(ХY) - E(Х) E(Y) = 00,24 0,3 = - 0,072.



cov( pA ; nB )  cov( хв ; n yв )  n  cov хв , yв 
 n
cov X , Y  N  n

.
n
N 1
Отсюда в нашем примере
n 

0,14 N 


cov( p A ; nB )  0,072  1 
  0,072  1 
  0,06192.
N
N 


Пример 1.28. Значения признака Х в генеральной совокупности заданы
таблицей частот
Интервал
10 - 14 14 - 18
18 - 22
Частота
5
11
9
Из этой генеральной совокупности производится бесповторная выборка
объёма 5. Найдите среднеквадратическую ошибку в приближённом равенстве
X0  Xв.
Решение. Представим исходные данные в виде такой таблицы
X I
12
16
20
P
5/25
9/25
11/25
40
X0 
D0 
1
424
 (60  144  220) 
 16,96;
25
25
1
 (144  5  256  9  400 11)  16,96 2  296,96  287,6416  9,3184.
25
Далее по формуле (1.29)
D( xв ) 
2 N n
n
Отсюда  xВ 

N 1

2 
n
4
 1    86,8326 
.
n 
N
25
86,8326
2
 9,3184   3,727 .
25
5
1.10. Межгрупповая дисперсия
Пусть совокупность  объёма n разбита на к групп, ni – число элементов i-й группы. Пусть Х – некоторый признак, он встречается в каждой их
групп, при этом хi –групповое среднее в i-ой группе.. Тогда среднее во всей
совокупности можно высислит по формуле:
х0 
n1  x1  n2  x2  ...  nk  xк
n1  n2  ...  nk
(1.35)
Это озачает, что среднее значение признака во всей совокупности есть
взвешенное среднее групповых средних.
2
Аналогично можно вычислить  i – i-ую групповую дисперсию. Взве-
шенное среднее групповых дисперсий  2 называют среднейя групповой дисперсией:
n1   12  ...  nk   k2
 
,
n1  n2  ...  nk
2
(1.36)
Кроме того, вычисляют межгруппоую дисперсию:


2


2

n  x  x  n2  x2  x 0  ...  nk  xк  x0
  1 1 0
n1  n2  ...  nk
2
41

2
.
(1.37)
Общая дисперсия равна сумме средней групповой и межгрупповой
дисперсии:
2
 2  D( X )   2   ,
где первое слагаемое
(1.38)
характеризует разброс групповых средних х1 ,
х 2 ,… хk , а второе слагаемое характеризует среднюю изменчивость в каждой
группе.
Пример 1.29.
Статистические данные о результатах экзамена в 5-ти группах приведены в
таблице:
Средний
№№
Число студентов ni
Групп
балл
Среднее квадратичное
хi
отклонение
ФК2-13
24
72
5
ФК2-14
22
70
4
ФК2-15
22
68
6
ФК2-16
21
69
6
ФК2-17
23
71
4
 i2
Экзамен проводился в разных аудиториях, условия экзамена во всех аудиториях были одинаковы.. В одной из них оказалось 30 человек. Найти математическое ожидание и дисперсию среднего балла по результатам, полученным в
данной аудитории.
Решение. N = 24 + 22 + 22 + 21 + 23 = 112; n = 30.
1) Вычислим средний бал:
х0 

n1  x1  n2  x2  ...  n5  x5

n1  n2  ...  n5
24  72  22  (70  68)  21  69  23  71
 70,05.
112
2) Межгрупповая дисперсия:
42



2


2
n  x  x  n2  x2  x 0  ...  n5  x5  x0
2  1 1 0
n1  n2  ...  n5


2


24  72  70,05  22  70  70,05  (68,5  70,05) 2


112
2
2


21  69  70,05  23  69  70,05  (71  70,05) 2

 2,033.
112
2
2
3) Средняя групповая дисперсия:
 
2
n1   12  n2   22  ...  n5   52 24  52  22  (4 2  6 2 )



n1  n2  ...  n5
112
21  6 2  23  4 2

 3,29.
112
4) Общая дисперсия:
   2,033  3,29  5,323
M x   X  70,5
 2  D( x )   2  
В
D( xB ) 
2
0
D( X ) N  n 5,32 112  30


 0,133.

30 112  1
n
N 1
Упражнения
1.1.
Привести числовой пример и описание простой случайной выборки
(повторной и бесповторной).
1.2.
Привести числовой пример и описание механической выборки.
1.3.
Привести числовой пример и описание типической выборки.
1.4.
Привести числовой пример и описание серийной выборки.
1.5.
Привести пример двухступенчатой выборки.
1.6.
Имеются 4 стержня следующих размеров: 20 см (2 стержня), 21 см
и 22 см. производится повторная выборка двух стержней. Составить все воз-
   
можные выборочные распределения для X B и DB . Найти M xв , M Dв и
проверить их связь с соответствующими генеральными характеристиками.
1.7. В выборке объемом 500 единиц, произведенной для определения процента всхожести зерна, установлена частота доброкачественных зерен 0,96.
Определить, с какой степенью надежности может быть принят процент всхоже43
сти, равный 96 %, если допустимая погрешность при его определении
равна  2 %.
1.8. Для определения процента изделий 1-го сорта в партии (доли признака) производится случайная повторная выборка объемом в 100 единиц. В выборке установлено, что число изделий первого сорта 75 единиц. Определить
доверительные границы для процента изделий первого сорта во всей партии,
которые могут быть гарантированы с доверительной вероятностью 0,99.
1.9. Определить необходимый объем выборки, который гарантировал бы
ошибку выборки, не превышающую 0,1 с вероятностью 0,999. Ориентировочно
известно, что
m
 0,9 . Выборка случайная повторная.
n
1.10. В условиях предыдущей задачи определить необходимый объем выборки, если значение
m
неизвестно.
n
1.11. Для определения доли брака продукции отобрано 1000 единиц, из которых бракованных оказалось 50. Выборка случайная повторная. Найти с вероятностью 0,954 пределы возможного отклонения выборочно установленной частоты брака от доли брака во всей совокупности.
1.12. Сколько семян надо отобрать для определения процента всхожести,
чтобы с вероятностью 0,977 можно было утверждать, что отклонение частоты
доброкачественных семян от их доли, равной 0,99, не превышало по абсолютной величине 0,02?
1.13. Численность повторной выборки – 800 единиц. Доля признака 0,4.
Найти с вероятностью 0,8, в каких пределах находится отклонение частоты от
доли признака.
1.14. Проверено 3000 электрических лампочек. Доля брака в этой партии
составляет 0,15. Какова вероятность того, что отклонение выборочно установленной частоты брака от доли брака во всей продукции не превышает по абсолютной величине 0,01 (выборка повторная).
1.15. Для определения доли изделий первого сорта в партии из 1000 штук
была произведена выборка объемом в 100 единиц. В отобранной пробе частота
изделий первого сорта оказалось равной 0,75. Оценить с вероятностью 0,90 доверительные границы для определяемой доли. Расчет произвести для повторной и бесповторной выборки.
1.16. Определить необходимый объем выборки, который ту же предельную
погрешность, что и в предыдущей задаче, обеспечит с вероятностью 0,99.
1.17. Построить график зависимостей необходимого объема выборки п от
определяемой доли признака р, предельной погрешности  и доверительной
вероятности Р0. При построении задаться значениями остальных параметров
произвольно.
1.18. Из партии готовой продукции объемом в 10000 единиц для определения доли брака производится бесповторная выборка. Определить необходимый
объем этой выборки, который с вероятностью 0,99 гарантировал бы ошибку, не
превышающую 0,1. Определить с вероятностью 0,96, в каких границах заключено отклонение выборочной средней от генеральной средней.
44
1.19. Для определения средней урожайности массива пшеницы
площадью в 400 га был произведен случайный отбор 50 опытных участков,
каждый площадью 0,25 га. Выборочная средняя урожайность оказалась равной
19 цга, а среднее квадратическое отклонение 1,5 цга. Найти с вероятностью
0,99 возможные пределы для определяемой средней урожайности.
1.20. Какой объем выборки необходимо взять, чтобы с вероятностью 0,98
можно было бы гарантировать отклонение выборочной средней от генеральной
средней не более чем на 1 %? Предварительная выборка дала x B  40 и  B  2.
1.21. Обследуется средняя продолжительность телефонного разговора.
Сколько телефонных разговоров должно быть зафиксировано, чтобы с вероятностью 0,997 можно было бы утверждать, что отклонение выборочной средней
от генеральной средней не превосходит 10 секунд, если среднее квадратическое
отклонение равно 2,5 минуты?
1.22. Производится выборочное обследование возраста читателей массовых библиотек. Имеется 30000 читательских карточек. Сколько карточек необходимо взять для обследования, чтобы с вероятностью 0,99 можно было бы
утверждать, что выборочная средняя отклонится от генеральной средней не более чем на 1 год? Среднее квадратическое отклонение принять равным 5 годам.
1.23. Испытание крепости отобранных 150 нитей дали следующие результаты:
330 –
Крепости нити (в г) 210 – 250 250 – 290 290 – 330
370
Число нитей
30
70
40
10
Определить с вероятностью 0,99 среднюю крепость нитей всей партии.
1.24. При проверке бухгалтерской отчетности универмага установлено, что
80 счетов, случайно отобранных из 6000, имеют среднее дебетовое сальдо
x B  85 руб. при среднем квадратическом отклонении  B  26 руб. Найти с вероятностью 0,9 возможные пределы для среднего сальдо всех 6000 счетов.
1.25. В отрасли, включающей 1500 заводов, была составлена случайная
выборка из 60 заводов. Результаты выборочного обследования показали, что на
заводе работает в среднем 328 человек при среднем квадратическом отклонении 25 человек. С какой вероятностью можно утверждать, что отклонение выборочно установленного среднего числа работающих x B на одном заводе от
среднего числа работающих на одном заводе во всей отрасли не превосходит 5
человек.
1.26. Пусть X1, X2,…, X9 – выборка из равномерного распределения на отрезке [6; 16]. F*(x) – соответствующая выборочная функция распределения.
4
 
Найдите вероятность P F (14)  .
9

1.27. Пусть X1, X2, X3, X4, X5 – выборка из равномерного распределения на
отрезке [10; 18], F*(x) – соответствующая


выборочная функция распределения. Найдите PF (12)  F (14) .
45
1.27. Случайная величина X (время работы элемента) имеет показа
 x
тельное распределение с плотностью f ( x)    e ( x  0) .
По эмпирическому распределению среднего времени работы элемента в
час методом моментов найдите точечную оценку неизвестного параметра 
xi
2,5
7,5
12,5
17,5
mi
131
43
12
6
1.29. Случайная величина X распределена по закону Пуассона
P X  k  
k е  
k!
.
Дана выборка случайной величины X в следующей таблице:
xi
0
1
2
3
mi
204
157
79
25
(mi – число опытов, в которых событие наблюдалось xi раз). Найти точечную оценку неизвестного параметра .
1.30. По выборке x1 = 5; x2 = 4; x3= 2; x4= 4; x5= 3; x6= 2 найти точечную
оценку
параметра
р
геометрического
распределек 1
ния: P( x  к )  p  (1  p) , где Х – случайная величина, означающая число
испытаний до первого появления события А, а р – вероятность появления события А в одном испытании.
1.31. Даны результаты 8 независимых измерений одной и той же величины
прибором, не имеющим систематических ошибок: 369, 376, 318, 422, 388, 401,
372, 383 м. Найдите несмещённую оценку дисперсии ошибок измерений, если
истинная длина не известна.
1.32. Даны результаты 8 независимых измерений одной и той же величины
прибором, не имеющим систематических ошибок: 365, 379, 315,425, 386,403,
374, 381 м. Найдите несмещённую оценку дисперсии ошибок измерений, если
истинная длина известна и равна 373 м.
1.33. Совместное частотное распределение признаков задано таблицей:
Y
x =1
x=2
X
y=2
4
2
y=3
0
3
Найдите эмпирический коэффициент корреляции
1.34. Значение признаков X и Y заданы на множестве   1,...,200 таблицей частот:
X x = 200
46
x=
x=
400
100
Y
y=2
38
24
22
y=3
30
38
48
Из  без воз вращения извлекаются 30 элементов. X в и Yв – средние


значения в выборочной совокупности. Найдите Cov X в , Y в .
1.35. Три игральные кости, красная, зелёная и синяя подбрасываются до
тех пор, пока не выпадет 20 различных с учётом цвета комбинаций очков.
Пусть Si число очков на красной и зелёной костях в i-й комбинации,
Ŝ – сред-
нее арифметическое значение всех этих чисел, i = 1, 2,…, 20. Найдите математическое ожидание и дисперсию среднего значения
1.36. Признак X(к) задан на множестве
S.
  {1,2,...,15} следующей табли-
цей:
1
1
0
1
X(k) 2 1 3 1 1 3 2 1 1 3
2
k
Из

1 2 3 4 5 6 7 8 9
12 13 14 15
1
3
2
2
извлекается случайная повторная выборка объёма 10. Найдите
математическое ожидание дисперсию среднего значения
Х признака X в вы-
борке.
1.37. В некотором городе сделали прививку от гриппа 38% всех жителей,
не сделали – 12%, но не заболели. Известно, что объём бесповторной выборки
составляет 15% от числа всех жителей города. Пусть р̂А –выборочная доля, сделавших прививку, nв – число отобранных жителей, не сделавших прививку и не


заболевших. Найдите приближённо Cov X в , Y в (примем, что человек не заболел после того, как сделал прививку).
1.40. Значения признака в генеральной совокупности заданы таблицей частот:
47
Интер-
11
– 15
– 19
– 23
вал
15
19
23
27
Частота
6
8
11
5
–
Из этой совокупности производится бесповторная выборка объёма 6.
Найдите среднеквадратическую ошибку в приближённом равенстве x  xв .
1.41. Статистические данные о результатах ЕГЭ в трёх школах приведены
в таблице:
№
Число
Ср
п
школьников едний
/п
Среднее квадратическое отклонение
бал
1
70
81
10
2
75
74
9
3
60
52
7
ЕГЭ сдавали на нейтральной территории в разных аудиториях. Условия
экзамена во всех аудиториях одинаковы. В одной из них оказалось 35 человек.
Найти математическое ожидание и дисперсию среднего бала по результатам,
полученным в данной аудитории.
Задания для контрольной работы № 1.
1.
В
урне
содержится
пять
видов
шариков
с
диаметрами
b  11, a  12, b  13, a  14 и b  15 мм с соответствующими долями 0,15;
0,17; 0,21; 0,22; 0,25. Производится повторная выборка двух шариков. Найти
все возможные выборочные распределения, построить законы распределения
 
xB и  B 2 . Проверить справедливость равенств M xB   x0 , M  B 
2
 
D xB 
n 1 2
0 ,
n
1 2
0 .
n
2. Население города составляет 100000 (b+1) человек. Для определения
доли детей дошкольного возраста произведена бесповторная выборка объемом
48
5000 (а+1) человек. Среди них оказалось 1200 (а+1) детей дошкольного
возраста. Определить, с какой доверительной вероятностью можно утверждать,
что доля детей дошкольного возраста отличается от найденной относительной
частоты не более чем на
b2
.
2000
3. Выборочным путем проверено 1000 (b+1) пластмассовых болванок из
партии в 5000(b+1) штук. Среди них оказалось (а+3)% нестандартных. Определить границы, в которых заключено число нестандартных болванок во всей
партии,
если
результат
необходимо
гарантировать
с
вероятностью
0,95b  20 
.
a  b  21
4. Из 5000(а+1) рабочих предприятия выборочным путем отобрали
200(а+1) человек для обследования их заработной платы (выборка случайная
бесповторная). Средняя выборочная заработная плата оказалась равной
130  (a  b  1) руб., а дисперсия 940  (a  b  1) . Определить: 1) вероятность того,
что ошибка выборочной средней не превысит (a  b  1) рубля; 2) с вероятностью 0,999 граничные значения генеральной средней.
П р и м е ч а н и е. 10a +b – номер, соответствующий студенту в групповом списке.
49
§2. Статистическая проверка гипотез
2.1. Основные понятия
Пусть (x1, x2,…, xn) - случайная выборка объёма n из некоторой генеральной совокупности (конечной или бесконечной).
Каждое значение xi в этой выборке само является случайной величиной,
даже если генеральная совокупность состоит из конечного числа элементов.
Необходимо также иметь в виду, что случайная выборка из какой-либо генеральной совокупности должна соответствовать некоторой схеме испытаний,
при реализации которой выявляется искомая случайная величина X. При этом
полученные в вышеупомянутой серии испытаний значения случайной величины X должны быть независимыми и распределены по тому же закону, что и сама генеральная совокупность X (хотя бы и приближённо).
Мы будем рассматривать гипотезы о виде и параметрах распределения некоторой генеральной совокупности, а также о сравнении выборок из различных
генеральных совокупностей.
Определение. Статистической гипотезой называется любое предположение относительно вида или параметров генерального распределения.
Статистическая гипотеза называется параметрической, если она содержит
утверждение о значении конечного числа параметров распределения, которое
считается известным.
Примеры параметрических статистических гипотез:
- нормально распределенная случайная величина X имеет математическое ожидание a0 и дисперсию  2 ;
- две нормально распределенные случайные величины имеют одинаковую дисперсию;
Непараметрическая гипотеза - это утверждение о виде распределения.
Например:
50
- выборка (x1, x2,…, xn) соответствует нормально распределённой
случайной величине X.
Пусть H0 и H1 - две взаимно исключающие гипотезы. Одну из них называют
основной или нулевой гипотезой. Тогда конкурирующая или альтернативная
гипотеза - это логическое отрицание H0. В качестве базисного предположения
принимается утверждение о справедливости одной их этих гипотез.
Отметим, что для одной основной гипотезы может быть выдвинуты несколько альтернативных
Так, например, пусть случайная величина X имеет нормальное распределение со средним a и дисперсией  2 . Рассмотрим основную гипотезу:
Н0 : a=0,  2 =1.
В качестве альтернативных могут быть выдвинуты такие гипотезы:
1). H1 : a=0,  2 =2;
2). H1 : a≠0,  2 =1.
Рассмотрим их подробнее.
1). Альтернативная гипотеза H1 по структуре такая же, как и основная.
Базисное предположение в этом случае состоит в том, что случайная величина
имеет нормальный закон распределения N(0,  2 ), причем значение дисперсии
либо 1, либо 2.
2). Альтернативная гипотеза H1 более сложная, т.к. a может принимать различные значения. Базисное предположение состоит в том, что генеральное
распределение имеет вид N(a,1), причем значение a неизвестно. Гипотеза такого вида называется двусторонней.
Можно было бы выдвинуть альтернативные гипотезы
H1: a<0 (левосторонняя гипотеза); или
H1: a > 0 (правосторонняя гипотеза).
Определение. Статистический критерий - это правило, по которому решают, принять или отклонить нулевую гипотезу H0 (соответственно, отклонить
или принять альтернативную гипотезу H1). Обычно критерий задается с помощью критической области К . По рассматриваемой выборке вычисляется неко51
торая величина, зависящая от выборочных значений (статистика критерия). Если полученное значение принадлежит критический области К, нулевая гипотеза отвергается, в противном случае принимается. При этом возможны
такие ситуации:
1. Гипотеза H0 верна и она принимается.
2. Гипотеза H0 отклоняется, хотя на самом деле она верна.
3. Альтернативная гипотеза H1 верна и она принимается.
4. Альтернативная гипотеза H1 отклоняется, хотя на самом деле она верна.
Во втором и четвертом случае говорят, что произошла статистическая
ошибка, и её называют ошибкой первого и второго рода соответственно.
Верная гипотеза
H0
Результат
H
критерия
H1 неверно отвергнуH0 верно принята
0
применения
H
1
H1
та
(Ошибка второго рода)
H0 неверно отвергнута
H1 верно принята
(Ошибка первого рода)
О смысле ошибок первого и второго рода
Как видно из определения, ошибки первого и второго рода являются взаимно-симметричными, то есть если поменять местами гипотезы H0 и H1, то ошибки
первого рода превратятся в ошибки второго рода и наоборот. Тем не менее, в
большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) — например,
что обследуемый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, альтернативная гипотеза H1 обозначает противоположную ситуацию,
52
которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции.
С учётом этого ошибку первого рода часто называют ложной тревогой —
например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня.
Соответственно, ошибку второго рода иногда называют пропуском события
— человек болен, но анализ крови этого не показал, или у пассажира имеется
холодное оружие, но рамка металлодетектора его не обнаружила (например, изза того, что чувствительность рамки отрегулирована на обнаружение только
очень массивных металлических предметов).
Определение. Вероятность ошибки первого рода при проверке статистических гипотез называют уровнем значимости и обычно обозначают α (отсюда
название α-errors). Вероятность ошибки второго рода обозначается β (отсюда βerrors). Величина (1 − β)— мощность критерия.
Таким образом, чем выше мощность, тем меньше вероятность совершить
ошибку второго рода.
В статистических тестах обычно приходится идти на компромисс между
приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия
решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым
значением и является уровень значимости. Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки
первого рода (ложная тревога), а понижение чувствительности - к увеличению
риска ошибки второго рода (пропуск запрещённого предмета).
Итак, выбирается критерий, т.е. статистика t(x1 ,… .xn) и критическая область. затем задают уровень значимости критерия α. При этом область значений
критерия разбивают на части: область принятия гипотезы H0 и область отклонения (критическая область К). Вероятность отклонения гипотезы H0 в точности
53
совпадает с уровнем значимости: P( t  K) =  . Для двусторонней гипоте-
Область
принятия
Область
отклонения
1  


К1
Область
отклонения
К2
зы вся ситуация отражена на рисунке 2.1.
К
Рисунок 2.1
Критическую область в этом случае можно задать в виде двух неравенств
K= {t < К1}  {t > K2},
критические значения К1 и К2 находим по заданному уровню значимости
α из уравнений
P(t < К1) = α /2 и P(t > K2) = α /2.
Дальнейшее изложение требует знания некоторых стандартных статистических распределений. Напомним их определения.
Пусть Z1, Z2,…,Zk распеределены по стандартному нормальному закону
N(0,1).
Случайная величина Y= Z12 +Z22 +…+Zk2 распределена по закону, который
называется распределением 2 с k степенями своботы и обозначается 2(k).
Распределение случайной величины T (k ) 
X
, где X и Y независимы и
Y (k )
XN(0,1), и Y2(k), называется распределением Стьюдента с с k степенями своботы и обозначается t(k).
Распределение отношения
X (k )
где X и Y независимы и X2(k), и
Y (l )
Y2(l), называется распределением Фишера с k и l степенями своботы и обозначается F(k,l).
54
Для каждого из этих определений методами теории вероятностей
можно найти функцию плотности f(x), а также функцию распределения F(x).
Однако практически этими распределениями пользуются с помощью таблиц, в
которых приведены критические значения критериев для различной доверительной вероятности и определенном числе стпеней свободы.
2.2. Сравнение выборочной средней с математическим ожиданием
нормальной генеральной совокупности при известной дисперсии
Пусть (x1, x2,…, xn) – выборка объёма n извлечена из некоторой генеральной совокупности, распределённой по нормальному закону с известным мате2
матическим ожиданием a и дисперсией  . Необходимо сравнить выборочную
среднюю с генеральной средней.
Нулевая гипотеза H0: E(X) = a.
Построим критерий проверки этой гипотезы. Рассмотрим величину
x
x1  x2  ...  xn
.
n
Её математическое ожидание E ( x ) = a, дисперсия D( x ) =
следовательно
 ( x )=
n  Di
n2
Di  2
  ,
n
n

.
n
Введем статистику
Z
x a

 n.
(2.1)
Утверждение: Если гипотеза H0 верна, то случайная величина Z имеет
стандартное нормальное распределение.
Пример 2.1. Рост абитуриентов среди поступающих юношей-подростков в
Финансовую Академию при Правительстве РФ распределён по нормальному
закону с математическим ожиданием a = 181 см и среднеквадратическим отклонением  = 3 см. Для выдачи медицинских справок об основных физиоло-
55
гических показателях были случайно отобраны 8 абитуриентов, полученные данные о их росте приведены в следующей таблице:
№
1
2
3
4
5
6
7
8
9
X (Рост, см) 185,5 180,3 182,7 177,7 178,8 181,9 174,2 180,7 180,7
Проверим гипотезу о равенстве средней по выборке и математического
ожидания по этому показателю у обследованных абитуриентов. Положим уровень значимости = 0,1;
Решение. Введем переменную U = X – 180. Составим вспомогательную
таблицу:
№ 1
2
3
4
5
6
7
8
9

U 5,5 0,3 2,7 -2,3 -1,2 1,9 -5,8 0,7 0,7 2,5
Вычислим среднее значение по выборке . Получим U = 2,5 , следовательно X = 182,5 см. Применяя формулу (2.1), вычислим
Zнабл =
182,5  181
 9 = 1,5
3
Из уравнения ( z2 )  0,5 

2
=0,5 – 0,05
= 0,45 находим по таблице
функции Лапласа (приложение 2) правое критическое значение z2 = 1,65. Поскольку zнабл  (1,65;1,65) , то нулевая гипотеза H0 принимается.
2.3. Сравнение генеральных средних по выборкам
одинакового объема при равных известных дисперсиях.
Пусть (x1, x2,…, xn) и (y1, y2,…, yn) – выборки одного и того же объёма n из
нормальных распределений N (a x , 2 ) и N (a y , 2 ) соответственно, причем значение  известно.
56
Далее будем считать, что случайные величины X и Y независимы. В
этих предположениях проверим нулевую гипотезу H0: a x = a y . Построим
критерий проверки Z этой гипотезы. Рассмотрим величину Z:
Z 
x y

 2
n.
(2.2)
Если гипотеза верна, вновь полученная случайная величина Z имеет стандартное нормальное распределение N(0,1).
Пример 2.2. Количество продаж молока по неделям (в тыс. литров), реализуемого в супермаркетах "Просто продукты" (ПП) и «Крестовский» (К), заданы
в следующих таблицах:
1
П
15,
П
К
2
3
4
5
6
7
8
9
10,3 12,7 7,7 8,8 11,9 4,2 4,2 10,7
5
1
2
3
4
5
6
7
8
9
10,
11,
13,
12,
13.
13.
12,
13.
8,
8
1
6
5
7
7
4
7
5
Проверим гипотезу H0 о равенстве математических ожиданий при альтернативной гипотезе, что они не равны. Предполагается, что для этих супермаркетов стандартные отклонения продаж молока известны и равны

= 2. Зада-
дим уровень значимости  = 0,1.
Решение. Применив смещение обеих случайных величин на х0 = 10, т.е.
введя переменные U=X-10, V=Y-10, составим служебные таблицы для новых
переменных:

№ 1 2 3 4
5
6 7
8
9
U 5 0 2 -
-
1 -
-
0 -
,5 ,3 ,7 2,3 1,2 ,9 5,8 5,8 ,7 4
57
№1
2
3
4
5
6
7
8
9

V 0,
1
3
2
3
3
2
3
-
20,
8
,1 ,6 ,5 .7 .7 ,4 .7 1,5 0
Последовательно получим:
u
4
9

x
86
 9,556 ,
9
v = 20  2,222  y  110  12,222.
9
9
Вычислим статистику Z, применив формулу (2.2):
Z
x y

 2
n
 24
86 / 9  110 / 9
 9,
 9
92 2
2 2
Z набл  2 2  2,83.
Из уравнения Ф(z2) = 0,5 -  / 2 = 0,5 - 0,05 = 0,45 по таблице значений
функции Лапласа (таблица приложения 2) находим левое критическое значение
z1 = -1,65. Поскольку Z набл  (1,65;1,65) , то гипотеза H0 отвергается. Таким образом отличие средних продаж молока в этих супермаркетах значимо.
2.4. Проверка гипотезы о равенстве математических ожиданий
при известных дисперсиях
Пусть (x1, x2,…, xn) - выборка объема n значений случайной величины X,
подчиненной нормальному закону распределения с параметрами a x и
 x2 ,
причем значение параметра a x неизвестно, а значение дисперсии известно.
Аналогично пусть (y1, y2,…, ym) - выборка объема m значений случайной величины Y, также имеющей нормальный закон распределения с неизвестным параметром a y и известную дисперсию  2 .
y
58
Будем считать, что случайные величины X и Y независимы. В этих
предположениях проверим нулевую гипотезу H0: a x = a y Построим критерий
проверки этой гипотезы. Рассмотрим последовательно величины:
x
x1  x2  ...  xn
y1  y 2  ...  y m
и y
.
n
m
Величина x имеет нормальное распределение с параметрами E ( x)  a x и
D ( x)   x2 / n , аналогично величина y - нормальное распределение с параметра-
ми E( y)  a y и D( y)   y2 / m , поэтому величина ( x  y ) распределена по нормальному закону с параметрами E( x  y)  a x  a y =0. Для независимых случайных величин Х и Y получим D( x  y ) 
 x2
n

 y2
m
. Определим статистику
xy
Z
 x2
n

(2.3)
 y2
m
Утверждение: Если гипотеза H0 верна, то случайная величина Z имеет
стандартное нормальное распределение.
В качестве альтернативной гипотезы H1 выберем, например, такую:
ax  a y .Для заданного уровня значимости α критические значения находим
из условий
P(Z < z1) = 0,5 α и P(Z > z2) = 0,5 α .
Отсюда видно, что z1 = –z2, а правое критическое значение z2 получим из
уравнения
( z2 )  0,5  0,5   .
В частности, если m =n,
x= y= 
, то получим формулу (2.2). Кроме
того, если сравнивается только один вариационный ряд с известным нормальным законом N (a, ) , то формула (2.3) принимает вид (2.1).
Замечание. Данный критерий применяют, например, когда производится
обследование характеристик товаров, выпускаемых на аналогичных предприя59
тиях. Предстоит выяснить, носит ли различие среднего выпуска статистический характер (различие незначимо) или обусловлено организацией производства (различие значимо).
Пример 2.3. Количество продаж дезодоранта «Афродита» по месяцам (в
тыс. флаконов), производимого на фабриках "Московские зори" (МЗ) и «Вестерн» (В), заданы в следующих таблицах:
МЗ
1
2
3
4
5
6
7
8
115,5
110,3
112,7
107,7
108,8
111,9
104,2
110,7
В
1
2
3
4
5
6
7
110,8
111,1
113,6
112,5
112,4
113.7
108,5
Проверим гипотезу H0 о равенстве математических ожиданий при альтернативной гипотезе, что они не равны. Предполагается, что у этих фабрик стандартные отклонения известны и равны соответственно  1 =3 и
 2 =2. Положим
уровень значимости  =0,1.
Решение. Для удобства вычислений введем новые случайные величин
U=X-110, V=Y-110.. Составим служебные таблицы для новых переменных:
№
1
2
3
4
5
6
7
8

U
5,5
0,3
2,7
-2,3
-1,2
1,9
5,8
0,7
13,4
№
1
2
3
4
5
6
7

V
0,8
1,1
3,6
2,5
2,4
3.7
-1,5
12,6
Вычислим средние значения, получим
u = 1,675

Z набл 
x = 111,675; v =1,8  y = 111,8.
1,675  1,8
0,125

 0,0906 .
9 4
1,6964

8 7
Из уравнения
Ф(z2) = 0,5 -  / 2 = 0,5 - 0,05 = 0,45
60
находим правое критическое значение z2 = 1,65.
Поскольку Zнабл  (1,65; 1,65), то гипотеза H0 принимается.
2.5. Проверка гипотезы о равенстве математических ожиданий
при равных неизвестных дисперсиях
Пусть теперь для тех же выборок обе генеральные дисперсии неизвестны,
но одинаковы, т.е.  x2   y2   2 .
Рассмотрим их выборочные средние и исправленные дисперсии:
n
 xi  x 
x
2
x1  x2    xn
, s 2X  i 1
n
n 1
 y j  y 
m
y
y1  y 2    y m
, sY2 
m

Известно, что x ~ N  a X ,
,
2
j 1
m 1
.
 

 - нормально распределенные
 , y ~ N  aY ,
m
n

 

случайные величины. Величины s 2X , sY2 подчинены
2
распределению соответ-
ственно с ( n 1) и (m  1) степенями свободы. Поскольку случайные величины
X и Y независимы, то величина
U=
имеет
2
m  1s 2X
2

n  1sY2
2
распределение с (m+n2) степенями свободы, а величина x  y


 2  2 
1 1


 N  a X  aY , 
  .
распределена нормально: x  y ~ N a X  aY ,

m
n 
m
n



Поэтому нормализованная случайная величина
V=
x  y   a X
 aY 
1 1


m n
(2.5)
имеет стандартное нормальное распределение N(0, 1), а отношение
61
V

U m  n  2

x  y   a X  aY 
 m  1s 2X n  1sY2 


1 1

m n 

2
1
mn2

2
имеет распределение Стьюдента с (m+n2) степенями свободы. Таким
образом, если гипотеза H0: aх = aу верна, то величина
xy
T
(2.6)
2
2
 1 1  m  1s X  n  1sY



mn2
m n
имеет распределение Стьюдента с (m+n2) степенями свободы. Эта величина используется в качестве критерия для проверки гипотезы H0.
В качестве альтернативной к данной гипотезе рассмотрим гипотезу H1:
ax  a y .Зададим уровень значимости  и построим двустороннюю критическую область. Левое критическое значение определим из уравнения
Fn+m-2(x1) = 0,5  ,
где Fn+m-2(x) - функция распределения Стьюдента с (n+m-2) степенями свободы, а правое критическое значение по свойству чётности соответствующей
функции плотности: x2=-x1. Далее проверка гипотезы аналогична изложенному
в предыдущем разделе.
Пример 2.4. Для того чтобы проверить технологию изготовления нового
кваса "Будь здоров", периодически отбирают случайным образом 10 бутылок и
находят концентрацию сахара. В следующей таблице приведены данные по
стандартной партии (Х) и по очередной проверяемой (Y).
№
1
2
3
4
5
6
7
8
9
10
X
11,93
9,43
10,43
8,93
9,93
9,43
7,43
8,93
8,43
9,93
Y
10,24
9,74
10,74
8,24
11,24
9,74
8,74
11,24
9,74
9,24
Выдвигаем нулевую гипотезу H0: aх = aу при конкурирующей гипотезе H1: aх
≠ aу. Положим уровень значимости α= 0,1. Проверим H0
Решение. Введём новые переменные u = x – 9,43; v = y- 9,24. Составим
служебные таблицы для новых переменных:
62
№
1
2
3
4
5
6
7
8
9
10

U
2,5
0
1
-0,5
0,5
0
-2
-0,5
-1
0,5
0,5
U2
6,5
0
1
0,25
0,25
0
4
0,25
1
0,25
13,5
№
1
2
3
4
5
6
7
8
9
10

V
1
0,5
1,5
-1
2
0
-0,5
0
0,5
0
4
V2
1
0,25
2,25
1
4
0
0,25
0
0,25
0
9,5
Вычисление средних значений и стандартных отклонений дают следующие результаты u  0,05  x  9,48 ; v  0,4  v  9,64 , s x  1,22 , s y  0,89 . Учитывая, что в данном примере n = m = 10, мы можем вычислить критерий Tнабл.:
Tнабл. 
xy
 1 1  m  1  n  1
  
mn2
m n
s 2X
sY2
= 0,335.
По данному значению α и по числу степеней свободы (n+m2) = 18 находим по таблице критическое значение Ткр2 == 1,73. Следовательно, область
принятия имеет вид (1,73; 1,73).
Поскольку найденное значение Tнабл. попадает в область принятия, то гипотезу H0 принимается. В этой задаче мы в первом приближении предполагали,
что дисперсии обеих выборок статистически не различимы. Ниже будет показано, как оценить существенно ли отличаются дисперсии двух выборок из нормально распределённой совокупности.
2.6. Сравнение дисперсий двух нормальных распределений
Пусть случайные величины X и Y распределены по нормальному закону.
По выборкам значений X объема n и Y объема m требуется проверить нулевую
гипотезу H0 о равенстве дисперсий этих случайных величин:  2(X) =  2(Y).
Как обычно предположим вначале, что математические ожидания X и Y
известны и рассмотрим случайную величину
F
s 2 X 
63
s 2 Y 
, sx > sy.
(2.7)
Указанная случайная величина распределена по закону ФишераСнедекора со степенями свободы (n1) и (m1).
Пример 2.5. По двум независимым выборкам значений нормально распределенных случайных величин X и Y, объемы которых равны 9 и 6, найдены выборочные дисперсии
s X2
= 23,27 и sY2 = 8,91. При уровне значимости  = 0,1
проверить двустороннюю нулевую гипотезу H0: D(X) = D(Y) .
Решение. Поскольку sX > sY ,то находим значение критерия ФишераСнедекора: Fнабл 

2
23,27
 2,612 . Число степеней свободы 8 и 5, а значение
8,91
 0,05 , по таблице критических значений распределения Фишера-Снедекора
находим Fкр = 4,82. Поскольку Fнабл < Fкр, нулевая гипотеза принимается.
2.7. Критерии согласия
Критерии согласия предназначены для проверки того, что нулевая гипотеза H0 о виде распределения соответствует выборочным данным.
Рассмотрим таблицу выборочного закона распределения некоторого вариационного ряда. Наша задача состоит в том, чтобы, во-первых, подобрать соответствующий закон теоретического распределения. Предположим, что нам удалось найти некоторую теоретическую функцию плотности f(x), приближённо
соответствующую данному вариационному ряду. Тогда, во-вторых, надо проверить насколько точно наши статистические данные соответствуют выбранному теоретическому распределению. В этом случае альтернативная гипотеза
не выдвигается. Схема проверки нулевой гипотезы практически не изменяется.
Представим функцию f(x) виде гистограммы (см. рис.2.2), разбив размах
выборки и предполагаемой генеральной совокупности на r разрядов.
64
f
(x)
x
O
Рис. 2.2
Представим теоретические и полученные после предварительной обработки выборки частоты попадания случайной величины в соответствуюший разряд
в виде следуюшей таблицы:
Интервалы
x1 ;
x2 ;
x2
x3
Теоретические частоты
n1
n2
Эмпирические частоты
m1
m2
…
xr; xr+1
nr
…
mr
Предполагается, что объем выборки равен n, т.е.
m1 + m2 +…+ mr = n.
(2.8)
По теоретическому закону распределения, заданному с помощью функции
f(x), находим вероятности попадания случайной величины X в каждый из данных разрядов: p1, p2, …, pk. Затем вычисляем теоретические частоты ni, умножив вероятности на объем выборки: ni = npi.
применяют критерий
В качестве критерия согласия
 2 ("хи-квадрат") Пирсона:
k
mi  ni 2
i 1
ni
 
2
.
( 2.9)
2
Распределение  зависит только от одного параметра k  числа степеней
свободы. Число степеней свободы k равно числу разрядов r минус число независимых условий, наложенных на частоты mi.
65
Условие (2.8) накладывается всегда. Часто используют
еще два
условия: равенство среднего значения и математического ожидания и равенство
выборочной и теоретической дисперсий. Поэтому обычно выполняется равенство
k = r  3.
(2.10)
Пример 2.6. При уровне значимости  = 0,05 проверить гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические и теоретические частоты
mi
4
27
73
135
128
78
50
5
ni
5
27
70
125
137
82
48
6
Решение. Вычислим значение критерия Пирсона
m  ni 
2
 набл
=  i
= 2,457.
2
8
i 1
ni
Число степеней свободы в данном случае k = 8  3 = 5. По таблице критических точек распределения
2
ней свободы k = 5 находим
2
 крит
по уровню значимости  = 0,05 и числу степе= 11,1. Итак,
2
2
 набл
<  крит , поэтому можно
принять нулевую гипотезу о нормальном распределении генеральной совокупности.
Замечание. Критерий Пирсона, как показывает практика, успешно применяется для выборок объема n>50 и если все частоты ni = npi>5.
2.8. Распределение долей признаков
Критерий 
2
используют еще в одном простом, но очень распространен-
ном случае.
Пусть выполняются следующие условия:
Генеральную совокупность можно разбить на непересекающиеся классы
A1, A2, …, доли которых в генеральной совокупности составляют p1, p2, … .
66
Имеется выборка объема n, пусть выполняются условия:
np1  5, np2  5, … .
(2.11)
Обозначим далее mi  число представителей выборки, попадающих в категорию i, ni  ожидаемое число в каждом классе, вычисленное согласно нулевой
гипотезе. Тогда отклонение выборочных значений от ожидаемых вычисляется
по формуле
 
2
mi  ni 2
i
ni
,
(2.12)
где суммирование производится по всем классам.
При ранее сформулированных условиях эта статистика подчиняется распределению
2
с k = (r1) степенями свободы, где r  число категорий.
Пример 2.7. Данные о различных заболеваниях, определенные на основе
сводных данных за год по всем поликлиникам Москвы, представлены в следующей таблице:
Виды
Грипп
забол.
Доля
Сердечно-
Кишечные
Онкологиче-
сосудистые
34%
18%
12%
Травматологи- Иммунные
ские
ческие
10%
15%
11%
В некоторой районной поликлинике Москвы аналогичные данные о частоте заболеваний за тот же период представлены ниже.
Виды Грипп Сердечно- Кишечные Онкологические Травматологические Иммунные
забол.
сосудистые
mi
1116
502
341
313
415
413
ni
1054
558
372
310
465
341
Следует поверить, соответствует ли распределение заболеваний в данной
поликлинике общей структуре заболеваний?
Решение. Вычислим общее количество заболеваний за год:
n = 1116 + 502 + 341 + 313 + 415 + 413 = 3100.
67
Найдем предполагаемые значения теоретических частот по каждой
категории и внесём их 3-ю строку таблицы. Пусть уровень значимости
0,01. Для проверки нулевой гипотезы вычислим критерий
2
1116  1054
 набл
=
2
1116
372

415  4652 413  3412


465
Поскольку
2.

502  5582 341  3722 313  3102



558
341
=
313

 32,25 .
2
2
2
 крит
=15,1 и  набл >  крит , то наша гипотеза не принимается.
Более подробный анализ слагаемых, из которых состоит сумма наблюдаемых
значений критерия, показывает, что основной вклад даёт последнее слагаемое.
Районным властям следует обратить внимание на неблагополучную экологическую обстановку, приводящую к росту иммунных заболеваний.
2.9. Сравнение выборочной исправленной дисперсии
с заданной дисперсией нормальной генеральной совокупности
Рассмотрим ещё один класс задач, связанный с параметрической проверкой статистических гипотез. в которых применяется критерий
2.
Рассматривается выборка, предположительно извлечённая из нормально
распределённой генеральной совокупности с заданной дисперсией  02 . Однако
случайная величина, которой в данном случае является дисперсия, не подчиняется нормальному закону распределения. В этом случае применяется критерий
2.
2
На практике нулевая гипотеза Н0: E(S2) =  0 проверяется, если нужно про-
верить точность приборов, методики контроля ритмичности работы и т.д. В качестве критерия проверки нулевой гипотезы примем случайную величину
K
68
(n  1)  S 2
 02
.
Здесь S2 - выборочная исправленная дисперсия. Можно показать,
что случайная величина К имеет теоретическое распределение
2
с (n - 1)-й
степенью свободы.
Итак, по данным эмпирического ряда вычисляется величина
2
(n  1)  S
 набл

 02
затем по таблице 
2
2
,
(2.13)
определяется критическое значение  крит . Если
2
2
 набл
>  крит , то нулевую гипотезу отвергают, т.е. принимают односторон-
2
2
нюю альтернативную гипотезу Н1: S2 >  0 . В противном случае можно считать
различие исправленной выборочной дисперсии S2 и гипотетической дисперсии
 02 незначимым.
Пример 2.8. Ритмичность работы кассира сбербанка по приёму коммунальных платежей определяется дисперсией времени обслуживания клиентов,
которая не должна превышать величины D = 1 мин2. Результаты 30 наблюдений
за работой нового кассира приведены в таблице:
Время обслуживания клиента 5, 6, 7, 8, 9, 10, 11,
ti
5
5
5
5
5
5
5
Число наблюдений n
2
1
1
3
2
1
1
0
1
Проверим нулевую гипотезу о допустимой ритмичности работы новичка
при уровне значимости 0,05.
Решение. Введем новую переменную и составим вспомогательную таблицу:
ni
2 10 11 3 2 1 1  Среднее
xi = ti-7,5 -2 -1 0 1 2 3 4 0
xi 2
4 1 0 1 4 9 16 54
0
1,8
2 30
Dв(t) = 1,8 , st =  1,8 = 1,86.
29
69
Вычислим статистику по формуле (2.13) и применим критерий
2
 набл
=
(n  1)  st2
 02
=
2.
29  1,86
=53,94.
1
2
2
 крит
(0,05; 29) = 42,6,  набл
>
2
 крит
.
Нулевая гипотеза о равенстве дисперсий должна быть отвергнута, следовательно, новый кассир пока ещё не вошёл в требуемый ритм работы.
Рассмотренные примеры применения основных правил проверки статистических гипотез не исчерпывают всех сфер применения указанной теории, являющейся частью более общей теории планирования эксперимента. Дополним
вышеперечисленные правила таблицей, позволяющей легче ориентироваться в
многообразных задачах проверки параметрических и непараметрических гипотез (см. Таблица 2.1).
Рассмотрим пример применения этой таблицы.
Пример 2.9. Вероятность приобрести выигрышный билет в некоторой лотерее р = 0,2. Предприятие приобрело 100 лотерейных билетов, из которых в
результате очередного розыгрыша лотереи оказалось 14 выигрышных билетов.
При уровне значимости 0,05 требуется проверить правильность случайной выборки.
Решение. Проверим нулевую гипотезу Н0 о равенстве фактической вероятности выигрыша сотрудника предприятия, приобретшего на предприятии
один лотерейный билет, гипотетической вероятности. Согласно таблице критериев проверки статистических гипотез выбираем 4-ую строку таблицы. Критерий проверки имеет вид:
m
p
n
Z
 n.
pq
Вычислим наблюдаемое значение критерия
70
№
п/п
задача
статистика
Z набл 
0,14  0,2
0,2  0,8
Теоретическое.
распределение
 100 = -1,5.
По условию задачи критическая область – двусторонняя. Найдём правую
критическую точку из равенства ( z крит )  0,5 

2
= 0,5 – 0,025 == 0,475, отсю-
да zкрит = 1,96. Таким образом z набл < zкрит. Следовательно, нет оснований отвергнуть нулевую гипотезу. Наблюдаемая относительная частота 0,14 незначимо отличается от гипотети ческой вероятности 0,2.
71
1. Сравнение выборочной средней с математическим ожиданием нормальной ГС
2. Сравнение двух выборочных
средних из нормальных ГС с
равными n и 
3. Сравнение выборочных средних (две выборки) из нормальных ГС с разными, но заданными  x и  y
4
Сравнение доли признака
xa
Z

Z
Z
 n
x y
 n
 2
- ,, -
x y
- ,, -
 x2
m

 y2
n
m
p
Z n
 n
pq
m
в
n
выборке с вероятностью p
5. Сравнение выборочных средних (две выборки) с большими
и независимыми выборками
любого распределения
Z
x y
Dв ( x) Dв ( y )

m
n
6. Сравнение выборочной ис(n  1) s 2
2
 
правленной дисперсии с за2
2
данной  норм. ГС
l (m  n ) 2
7. Сравнение выборочного рас2
  i i
пределения долей признаков с
ni
i 1
теоретическим распределением
8. Сравнение выборочной гистоr (m  n ) 2
2
i
  i
граммы с плотностью норni
i 1
мального закона
9. Сравнение средних (две малые
( x  y ) mn(m  n  2)
независимые выборки из нор- T  (m  n)[( m  1) s 2  (n  1) s 2 ]
x
y
мальных ГС) с неизвестными,
но равными дисперсиями
10 Сравнение двух дисперсий
s x2
F  2 (sx > sy)
.
нормальных ГС
sy
72
N(0;1)
H0 принимается, если Z набл  (Z кр , Z кр )
- ,, -
Приближенный
N(0;1)
H0 принимается, если Z набл  (Z кр , Z кр )
«хи-квадрат»
k  n 1
«хи-квадрат»
k  l 1
«хи-квадрат»
k  r 3
Распределение
Стьюдента
k  mn2
Распределение
ФишераСнедекора
k1  n x  1
k2  n y  1
Упражнения
2.1 По двум независимым выборкам, объёмы которых m =30 и n = 40, из
нормальных генеральных совокупностей (ГС) получены выборочные средние:
x =117 и y = 127. Генеральные дисперсии известны:
 x2 =75,  y2 = 60. Прове-
рить нулевую гипотезу H0 : E(X)= E(Y) при уровне значимости 0,01 и альтернативной гипотезе H1: E(X))  E(Y).
2.2 Из нормальной ГС извлечена случайная выборка объёма n = 20, по
этой выборке найдена исправленная выборочная дисперсия
s2 = 16,3. При
уровне значимости 0,01 проверить нулевую гипотезу H0, приняв в качестве
2
конкурирующей гипотезы H1:  > 14.
2.3 По двум независимым выборкам объёмов m = 9 и n = 15, извлеченных
из нормальных ГС соответственно X и Y, найдены исправленные выборочные
2
2
дисперсии s x = 2,61 и s y = 0,77. При уровне значимости 0,1 проверить нулевую
гипотезу H0 о равенстве генеральных дисперсий при конкурирующей гипотезе
H1: D( X )  D(Y ) .
2.4 Из двух нормальных генеральных совокупностей с неизвестными
(предположительно равными) дисперсиями извлечены выборки, объёмы которых m = 11 и n = 17, выборочные средние x = 131,2 и y = 127,2; исправленные
2
2
дисперсии s x = 0,87 и s y = 0,65. Требуется при уровне значимости 0,05 прове-
рить нулевую H0 о равенстве математических ожиданий.
2.5 Из двух партий тортов, изготовленных на одном хлебозаводе, в булочную завезли 10 тортов первой партии и 12 тортов второй партии. Был произведен замер веса каждого из тортов и получены следующие результаты:
73
Вес тортов 1-й партии хi кг 1,3 1,3 1,3 1,3
Число тортов первой пар-
4
5
7
9
2
3
4
1
тии
Вес тортов 2-й партии yi кг 1,32 1,3 1,36
4
Число тортов второй пар-
2
2
2
тии
Требуется при уровне значимости 0,02 проверить гипотезу H0 о равенстве
математических ожиданий. Предполагается, что случайные величины X и Y
распределены нормально.
2.6. В двух цехах в течение нескольких дней проводился выборочный
контроль производительности труда. Результаты отражены в таблицах.
Цех № 1
1
Производительность труда
22,6
23
4
5
22,
2 23, 23,6
3,0 8
Цех № 2
1
Производительность труда
23,4
2
2
3
4
22, 23,0 23,
7
3
При уровне значимости 0,1 проверить нулевую гипотезу о равенстве
средней производительности труда в этих цехах в предположении равенства их
дисперсий.
2.7 Ритмичность работы городского автобуса определяется дисперсией
времени ожидания пассажиров, которая не должна превышать величины D = 9
мин2. Результаты 30 наблюдений за работой нового маршрута приведены в таблице:
74
Время ожидания клиента, ti
Число наблюдений, n
3 5 7
9
1
1
1
0
2 3
1
1
1
1
3
5
2
1
1
Проверить нулевую гипотезу о ритмичности работы нового автобусного
маршрута по сравнению со средней нормой при уровне значимости 0,05.
2.8. Рекламное агентство рассылает своим клиентам каталоги. Вероятность того, что клиент приобретёт одно из рекламируемых изделий р = 0,07.
Агентство разослало серию из 1000 каталогов улучшенной формы. В результате
клиентами было приобретено 97 изделий по новому каталогу. При уровне значимости 0,05 требуется проверить, эффективность новой серии по сравнению с
прежней.
2.9. Данные о продаже основных марок телевизоров за месяц по всем магазинам Москвы, представлены в следующей таблице:
Марки телевизо-
А
В
С
D
E
F
3
1
1
1
1
5
7
8
2
3
5
ров
Доля, %
В некоторой торговой фирме Москвы аналогичные данные об объёме
продаж за тот же период представлены ниже.
Марки телевизоров A
B
C
D
E
F
Объёмы
56
41
41
48
19
2
5
0
5
2
mi
продаж, 113
6
Требуется проверить нулевую гипотезу о соответствии законов распределения вероятностей, заданных этими таблицами.
2.10. При уровне значимости  = 0,05 проверить гипотезу о нормальном
распределении генеральной совокупности, если известны эмпирические и теоретические частоты выборки объёма 1000 наблюдений по вкладам сбербанка.
75
m
57
99
150
195
191
147
93
68
66,
91,
149,
191,
191,
149,
91,
66,
8
9
8
5
5
8
9
8
i
ni
76
2.10. Задания для контрольной работы № 2
1. При формировании портфеля ценных бумаг предварительно были отобраны два вида активов А и В, обладающих оптимальным соотношением доходности и риска. Реализованные доходности этих активов ra и rb на протяжении последних 12 месяцев заданы таблицей:
№
1
2
3
4
5
6
7
8
9
10
11
12
ra
0,05b
0,3
0,4
0,2
-0,1
0,3
0,4
0,2
0,3
0,5
0,4
0,1
rb
0,04b
0,5
0,4
0,3
0,1
-0,1
0,5
0,2
0,1
0,3
0,1
0
Найти средние выборочные доходности ra и
2
rb
, исправленные диспер-
2
сии s a и sb .
2
2
2. Определить, значимы ли различия рисков s a и sb активов А и В за указанный период времени по данным задачи 1 при уровне значимости

= 0,05.
3. Определить, значимы ли различия средней доходности ra и rb активов
А и В за указанный период времени по данным задачи 1 при уровне значимости
 = 0,05.
§ 3. Обработка результатов наблюдений
3.1. Методические указания к лабораторной работе
Постановка задачи
Пусть задана последовательность x1 , x2 , ..., xn значений случайной величины (признака) Х, полученных в результате проведения в одних и тех же условиях п взаимно независимых опытов.
77
Значения x1 , x2 , ..., xn случайной величины Х называются выборкой
объема п из генеральной совокупности объема N.
Задача обработки результатов наблюдений случайной величины состоит в
следующем:
Построение вариационного ряда или ряда распределения и гистограммы
для него.
Определение выборочных оценок числовых характеристик
случайной
величины.
Определение точности выборкиъ
Определение теоретической функции распределения. Выравнивание статистического ряда.
Проверка согласованности теоретического и статистического
распреде-
2
лений, используя критерий  .
Работа должна быть выполнена на бланке (приложения 4, 5), используя
калькулятор и заполнив указанные ниже таблицы.
Результаты достаточно получить с точностью до двух десятичных знаков
после запятой. Работу выполнять в следующей последовательности:
1. Построить вариационный (статистический) ряд с длиной
интервала
x и числом интервалов k, указанными в задании.
Отыскав
 x k  x0 
k
. Если
среди значений признака xi x0  min xi , xk  max xi , находим
 x k  x0 
k
соответствует заданному
x , то  x  xi  xi1
и начи-
наем разбиение на интервалы, а если нет, то уменьшив xk или увеличив x0 ,
добиваемся того, чтобы
x0 , xk 
xk  x0
 x , при этом "вылетевшие" из промежутка
k
значения будем учитывать в соответствующем крайнем интервале.
Определим количество значений mi m1  m2  ...  mk  n , приходящихся на каждый i-ый интервал, занося в таблицу Iа "точки" для значений внутри интервала
78
и "зарубки" для значений, находящихся в точности на границе интервала, как показано на примере.
После выполненных подсчетов и проверки m1  m2  ...  mK  n заполнить таблицу 3.I (основную).
Таблица 3.I
№
интер- 1
2
…
i
…
К
x0 , x1
x1 , x 2
...
xi 1 ,
…
x K 1 ,
x1*
x 2*
…
x i*
...
x K*
m1
m2
…
mi
…
mK
в p1*
p 2*
…
p i*
...
p K*
вала
Границы
xi
xK
интервала
Середина
интервала
Число
наблюдений
в
интервале
mi
Частота
интервале
*
В таблице 3.1 xi1 , xi  - границы i-го интервала, xi 
*
го интервала, pi 
xi 1  xi
-середина i2
mi
- частота в i-ом интервале.
n
2. Построить для полученного вариационного ряда гистограмму (см. рис.
3.1).
3. Определить выборочное среднее, дисперсию, коэффициент асимметрии и коэффициент эксцесса, используя упрощенные формулы для "ручного"
счета.
79
0
Рисунок 3.1
xi  c
*
Обозначим: zi 
, где xi - среднее значение признака в i-ом инx
тервале; с - среднее значение признака в интервале с наибольшей частотой,
принятое в качестве "нуля"; x - ширина
k
А   z i p i
i 1
k
В   z i2 p i
i 1
k
Д   z i3 p i
i 1
k
Е   z i4 p i
i 1











 занести результаты в таблицу 3.2
x = … . Таблица 3.2
с = …;
Интер- x i p i z i 
вал
интервала.
P0
x
z i4 А В

xi  c
x
Д
Е
 Ф(t ) z i3  p i z i4  p i
1
x1 p1 z1
z12
z13
z14
2
x 2 p 2 z 2
z 22
z 23
z 24
..
…… …
…
…
…
i
x i p i z i
z i2
z i3
z i4
..
…… …
…
…
…
80
x k p k z k
k
K
z k4
K
 pi*  1 x   pi* xi*
*
i 1
i 1
k

i 1
Выборочная средняя:
k
k
k
k
x   x  p   x  zi  c  p  x zi  p  c pi  x  A  C.

i 1

i

i

i
i 1

i
i 1
i 1
Аналогично выводятся остальные расчетные формулы.
k



Выборочная дисперсия: D ( x)   xi  x
i 1
p
 2

i
 x 2 B  A 2 .


Среднее квадратическое отклонение:  x   D x .
Выборочные центральные моменты 3-го и 4-го порядков:
 3  x 3  Д  3 АВ  2 А3 
 4  x 4 ( Е  4 АД  6 А2 В  3 А4 ).
 3
.
Коэффициент асимметрии: S 
2 3

1   4
Коэффициент эксцесса:     4  3 .
8

4. Определить точность выборки.
При достаточно большом числе испытаний п можно считать закон распределения нормальным и для оценки точности полученного значения выбо
рочной средней x применить формулу:
  n 

,
P0  x  x 0     2Ф 




(
x
)


где

x0
- среднее значение признака в генеральной совокупности;
- точность (ошибка) выборки;
81
P0 - доверительная вероятность, т.е. вероятность того, что при

x от x 0 не превзойдет  ;
данном п отклонение
Ф(t ) - функция Лапласа (см. Приложение 2).
При заданном значении функции Лапласа 2Ф(t )  P0 по таблицам (приложение 2) найдем аргумент t, а затем из равенства t 
 n
определим точность
  (x)
выборки  при доверительной вероятности P0 . Попробуйте по полученным результатам сделать вывод о качестве выборки.
5. Определить теоретическую функцию распределения, ее параметры.
Произвести выравнивание статистического ряда.
Пусть выравнивание проводится с помощью нормального закона распределения. Согласно методу моментов параметры выбираются с таким расчетом,
чтобы моменты теоретического распределения были равны соответствующим
статистическим моментам.
Если f ( x) 

1
 2
e
 x  m 2
2 2
, то параметры m и  выбираем равными соот
xi  x
ветственно m  x и    x. pi  f x   x     t   x , где t   . Значения
 x
 x
*
1
*
 (t ) находим в приложении 3. Строим на рис. 3.1 (где уже построена гисто*
грамма) график по точкам xi* , pi  , где x i - среднее значение признака в интер-
вале.
6. Проверка согласованности теоретического и статистичского распределений.
Согласованность теоретического и статистического распределений про2
веряется с помощью критерия  (Приложение 3).
K
mi  npi 2
i 1
npi
 
2
,
где
82
*
pi  Фt i   Фt i 1 
Фt i

x x
ti  i *
 x 
- см. в приложении 2.
Для статистического ряда (табл. 3.1) определим меру расхождения  2 по
этой формуле (табл. 3.3).
2
Вычислив  , найдем число "степеней свободы" распределения r  k  s ,
*
где k- число интервалов, а S - число связей, накладываемых на частоты p i . При
гипотезе о нормальном распределении число связей равно 3:
Таблица 3.3
И
н-
pi 
Фt i   Фt i 1 
mi  np i
mi  npi 2 mi  npi 2
npi
тервал
1
2
.
.
.
.
.
.
К
Ито2
го  :
83
K
p
i 1
*
i
 1 (это условие должно выполняться всегда)
K
x   pi* xi*
*
i 1
K

D * x    xi*  x
i 1
p.
* 2
*
i
Число степеней свободы r  k  3 .
Для получения значений
rи
 2 по таблицам (приложение 3) найдем ве-
роятность Pr . Если эта вероятность мала, то гипотеза, состоявшая в том, что
данная случайная величина имеет закон распределения f (x ) , отвергается, как
мало правдоподобная. Если же эта вероятность значительна, то гипотеза не отвергается или принимается. (Уровень значимости принять 5%). Сделайте необходимые выводы.
Замечание. При использовании приложения 3 иногда приходится пользоваться формулой линейной интерполяции.
f ( x)  y 0 
y1  y0
 x  x0  ;
h
y0  f ( x0 ); y1  f ( x0  h)
h  x1  x0
Пример: Пусть r  6, X 2  9,2, Pr  ? При X 2  9  x0 ,Pr  0,1736  f ( x0 )  y 0
При X 2  10  x1 , Pr  0,1247  f ( x1 )  y1
f (9,2)  0,1736 
0,1247  0,1736
 9,2  9   0,16 Pr  0,16 .
10  9
Сведите все полученные данные в расчетный бланк, который начертите
по образцу, данному в приложениях 4 и 5 (лицевая сторона - приложение 4, обратная сторона - приложение 5).
84
3.2. Задания для лабораторной работы
№ 1. Произведено обследование величины вклада (в руб.) на 1 января текущего года в сбербанке по 100 лицевым вкладам. Результаты обследования
приведены в следующей таблице (Х - величина вклада, X = 100 руб., k = 7, Р0 =
0,9950).
530
665
797
760
775
760
580
828
1180
800
570
785
785
810
950
930
695
817
840
1040
660
840
550
850
970
955
530
800
1230
1000
701
805
900
820
860
960
600
819
1200
767
700
820
760
885
1000
740
881
943
700
969
670
818
660
850
682
1000
1190
883
953
1160
825
900
650
873
1000
608
821
595
1100
700
780
860
910
773
574
1220
699
890
788
1210
700
830
905
870
1050
708
1200
880
900
997
600
840
640
880
980
1190
600
885
860
900
№ 2 В следующей таблице приведены транспортные затраты (в руб. за
тонну) на доставку продукции предприятия к потребителям (Х - транспортные
затраты, X = 0,2 руб. за тонну, k = 7, Р0 = 0,9970).
2,01
2,88
3,05
2,66
2,36
2,24
2,71
2,08
2,78
2,02
2,22
3,41
3,43
2,61
2,69
2,32
2,79
2,92
3,15
2,49
2,72
3,29
2,72
2,12
3,13
2,99
2,62
3,28
2,71
2,75
3,20
2,63
2,14
2,67
2,65
2,38
3,54
2,67
2,55
3,09
2,68
2,57
3,08
2,96
2,56
2,22
2,78
2,71
3,02
2,75
2,76
2,71
2,58
2,51
2.62
2,18
2,51
2,78
3,11
2,59
2,92
3,06
3,24
2,84
2,36
2,82
2,67
3,14
2,15
2,12
2,06
1,98
2,36
2,38
1,99
2,71
3,09
2,41
2,25
2,76
2,56
3,39
2,54
2,79
2,88
3,35
2,36
2,68
2,61
2,85
85
№ 3. Известны удельные затраты на производство товарной продукции (руб.шт.) по ста предприятиям отрасли. Результаты обследования приведены в следующей таблице (Х - удельные затраты, X = 0,2 руб.шт., k = 9, Р0
= 0,9960).
3,61
3,72
3,85
4,19
4,55
4,98
4,06
4,87
4,57
4,28
4,06
4,27
4,08
4,36
4,55
4,29
4,32
4,95
4,57
4,26
4,28
4,27
4,44
4,26
4,31
4,38
3,85
4,87
4,36
4,15
4,01
5,02
4,08
4,25
4,49
4,34
4,28
4,77
4,82
4,06
4,28
4,45
3,83
4,46
4,24
4,29
5,08
4,29
4,47
5,18
4,28
5,09
4,08
4,42
4,49
3,86
4,14
4,72
4,81
4,39
4,02
3,38
4,19
4,31
4,60
4,68
4,05
3,79
4,54
4,87
4,26
5,05
4,01
4,36
4,65
5,08
4,67
4,24
4,72
3,88
4,27
4,45
3,67
4,38
4,72
3,78
4,05
4,29
4,44
4,25
4,15
4,29
3,82
4,36
4,62
4,29
4,28
4,51
4,30
3,90
№ 4. Проведено выборочное обследование бюджетов 100 семей микрорайона за месяц. Результаты обследования приведены в следующей таблице (Х
- месячный бюджет, X = 50 руб., k = 7, Р0 = 0,9910).
230
270
275
357
400
260
287
370
361
371
385
310
448
445
470
423
490
409
400
410
378
480
240
436
321
245
330
250
250
340
350
340
392
290
375
350
600
350
350
289
445
400
400
367
460
392
360
365
450
368
355
450
450
450
350
468
470
495
500
450
225
300
343
285
381
300
295
385
342
297
370
380
350
415
400
390
387
376
500
357
375
391
412
440
410
600
700
400
500
550
337
345
430
258
610
328
560
540
348
390
86
№5. В таблице проведены результаты обследования среднемесячной заработной платы 100 рабочих одного предприятия (X - среднемесячная заработная плата, X =20 руб., k = 8, P0 =0,9960).
200
310
270
298
300
327
238
300
325
280
271
315
260
281
290
295
235
275
335
340
295
345
210
284
289
250
248
315
320
280
225
350
274
291
292
337
273
300
300
260
268
270
300
280
360
249
237
300
310
320
245
270
275
235
300
350
256
261
310
345
275
295
300
230
365
271
255
265
300
350
248
360
260
289
290
298
238
262
330
279
250
300
260
240
330
300
220
273
268
258
270
285
260
280
290
345
220
355
300
260
№6. В следующей таблице приведены данные об урожайности ржи (в ц
/га) по ста участкам одного колхоза (Х - урожайность в ц /га, X =3 ц /га, k =6,
P0 =0,9970).
9,2
12,0
15,3
20,8
15,2
15,6
13,7
15,2
15,5
12,8
12,8
20,4
18,0
9,0
20,0
20,0
18,0
20,5
18,0
15,6
15,0
21,8
22,5
28,7
24,0
24,0
22,5
21,7
23,8
16,0
17,2
16,2
15,7
17,3
11,1
16,1
14,1
20,3
18,2
19,7
21,0
11,2
20,8
19,7
15,2
15,5
18,5
18,4
19,4
21,0
20,3
17,8
20,2
21,0
26,5
10,0
20,4
11,2
12,0
21,0
13,5
14,0
14,6
19,1
15,0
13,2
17,3
18,6
14,8
13,0
21,0
20,0
19,8
20,0
18,0
15,6
17,9
21,0
16,7
24,5
20,5
19,5
18,8
24,5
18,5
19,0
25,5
25,0
17,2
17,4
20,8
12,0
18,3
17,0
18,4
22,0
26,5
26,0
24,8
17,9
87
№7. В следующей таблице приведены данные об урожайности пшеницы
(в ц/ га) по участкам совхоза (Х - урожайность в ц /га, X =2 ц /га, k =7,
P0 =0,9910).
32,0
34,5
37,0
36,5
39,8
39,2
34,8
39,3
43,0
36,0
33,2
39,7
37,5
36,0
38,8
39,1
35,0
40,0
42,5
39,9
38,1
39,3
32,5
36,7
40,0
39,3
38,0
38,2
39,0
42,8
36,5
40,0
40,1
38,2
41,0
45,0
39,0
42,8
36,0
40,0
34,2
39,5
38,9
37,5
40,0
41,2
38,0
38,7
39,0
44,0
38,0
38,8
40,5
40,0
40,5
32,8
36,8
46,0
43,0
43,5
33,5
38,2
41,2
38,0
41,8
42,0
39,6
42,0
44,0
35,7
36,8
39,5
41,0
40,0
40,9
33,0
46,0
40,0
42,0
37,2
36,0
39,3
40,0
38,0
40,5
42,0
34,8
41,6
44,5
45,0
37,5
40,0
37,0
39,2
45,8
34,0
37,8
41,7
44,8
39,3
№8. Результаты обследования стажа работы 100 сотрудников одного
предприятия приведены в следующей таблице (Х - стаж работы, X =2 года, k
=7, P0 =0,9910).
2,5
5,5
6,0
6,5
7,2
9,3
10,8
7,7
9,4
9,8
10,0
11,0
11,0
10,9
10,4
10,6
10,6
10,5
12,6
10,4
12,2
7,2
3,0
7,4
4,8
9,5
14,8
7,9
12,8
13,2
9,6
10,9
11,1
9,3
9,0
11,3
11,5
13,0
4,5
13,5
12,4
11,5
11,4
12,8
11,2
13,0
13,8
12,9
13,7
14,1
10,2
9,6
12,2
11,8
4,5
14,5
5,1
16,0
5,1
14,7
5,4
8,5
5,3
7,7
6,2
6,7
7,1
7,1
8,2
8,5
10,0
11,8
10,1
11,3
10,1
10,2
10,5
10,3
10,5
13,1
10,4
10,7
11,2
9,8
11,0
10,1
11,5
12,5
10,6
14,7
7,0
12,1
7,1
12,1
8,5
17,2
11,8
8,6
8,8
15,7
88
№9
В следующей таблице приведены данные о среднемесячных товарных запасах ста торговых предприятий района на 1 января текущего года (в тыс. руб.)
(Х - среднемесячный запас в тыс. руб., X =2 тыс. руб., k =8, P0 =0,9910).
36,2
41,1
42,5
40,1
42,1
42,9
40,2
42,8
42,7
42,2
37,5
42,9
42,9
49,8
44,2
50,8
36,8
51,6
44,2
43,5
39,1
40,8
44,6
40,9
38,8
40,6
44,6
39,2
36,3
38,4
42,2
44,2
41,8
42,8
42,6
43,5
42,4
43,6
43,5
44,2
45,9
45,6
43,1
44,5
43,1
45,1
45,2
46,3
46,2
47,1
50,2
42,8
44,2
44,4
51,1
39,2
47,2
51,2
38,1
43,0
40,9
43,1
39,8
42,6
44,6
42,4
41,3
47,4
41,2
44,6
48,8
49,6
47,6
47,8
52,2
48,2
38,5
43,2
43,4
44,8
45,9
46,2
42,8
48,6
43,5
48,1
46,6
47,5
45,8
42,7
43,0
42,4
41,9
40,3
42,8
44,3
48,2
39,1
43,9
47,6
№10. В следующей таблице приведены результаты роста ста студентов I
курса одного из институтов г. Москвы (Х - рост студента в см., X =5 см., k =8,
P0 =0,9920).
145
170
185
157
171
182
158
169
178
179
167
169
147
158
170
172
153
169
179
180
161
170
167
182
167
172
160
169
176
178
163
170
148
159
166
173
154
168
176
159
158
164
168
159
169
184
165
172
173
175
89
160
147
166
181
168
173
151
172
175
158
167
151
152
169
167
174
155
173
175
175
152
166
146
162
170
174
164
169
179
159
166
151
153
157
173
164
169
166
167
181
160
170
170
156
157
163
155
169
168
166
№11. В следующей таблице приведены средние баллы аттестатов ста абитуриентов, подавших документы в один из вузов г. Москвы (Х - средний балл,
X
=0,2, k =8, P0 =0,9960).
3,59
4,01
4,27
4,01
4,50
4,57
4,34
4,36
4,27
4,15
3,72
4,25
4,32
5,00
4,29
5,00
5,00
4,57
4,55
4,27
3,91
4,09
4,47
4,12
3,99
4,15
4,00
3,75
3,65
3,75
4,25
4,35
4,18
4,28
4,42
4,49
4,44
4,35
4,15
4,28
4,62
4,55
4,26
4,53
4,32
4,56
3,42
4,70
4,67
4,62
5,00
4,25
5,45
5,42
4,30
3,98
4,73
3,45
3,76
4,12
4,15
4,30
4,02
4,28
5,00
4,27
5,00
4,02
4,09
4,65
4,85
5,00
4,90
4,80
4,56
4,85
4,75
4,31
4,28
4,39
4,61
4,65
4,32
4,95
5,00
4,80
4,32
4,50
4,45
4,28
4,29
4,28
4,28
4,21
4,32
4,46
3,42
4,29
4,22
3,92
№ 12. В данной таблице приведена численность специалистов с высшим
и средним образованием по ста совхозам одной из республик (Х - человек, X =
20 чел., k = 7, Р0 = 0,9960).
20
125
50
118
120
69
75
77
120
100
55
99
47
76
116
110
62
80
121
37
88
92
45
105
109
98
108
115
128
131
72
85
88
62
125
99
58
85
77
60
65
97
29
99
131
98
105
89
138
160
90
85
91
95
75
120
138
99
160
155
38
74
98
30
99
122
125
81
115
139
155
88
100
145
68
120
135
70
97
47
98
69
120
25
79
117
98
80
95
147
96
72
119
40
78
125
60
155
90
52
124
№ 13. Жилищные фонды 100 поселков городского типа одного из районов характеризуются следующими данными (тыс. м2) (Х - жилищный фонд в
тыс. м2, X = 2 тыс. м2, k = 7, Р0 = 0,9960).
42,0
43,2
48,1
46,5
44,2
47,7
43,5
46,8
45,9
47,5
44,5
49,7
49,3
49,8
49,5
48,8
48,2
49,5
49,3
50,0
47,0
47,5
42,5
50,0
48,9
50,5
51,2
51,1
49,8
47,0
46,5
46,0
46,7
47,9
47,5
49,8
48,0
50,0
47,6
49,2
49,8
48,8
49,8
50,8
49,9
50,5
51,8
50,9
50,5
55,8
49,2
49,1
49,3
49,9
51,2
42,8
51,9
42,8
52,0
44,0
44,8
45,2
48,0
44,8
47,6
46,8
49,6
55,7
44,8
47,8
49,3
50,1
48,2
49,2
48,7
56,2
51,8
49,8
51,6
51,7
53,1
52,5
48,7
52,8
49,1
53,1
53,9
52,2
54,5
54,8
46,2
49,9
52,8
46,1
53,8
53,5
45,7
47,2
55,0
49,8
№ 14. Имеются данные о возрасте ста сотрудников одной из лабораторий
предприятия по состоянию на 1 января текущего года (Х - возраст  число лет ,
X
= 2 года, k = 8, Р0 = 0,9960).
20
31
27
30
30
33
23
30
32
28
27
32
26
28
29
30
24
28
34
34
30
35
21
29
28
25
25
32
32
28
23
35
27
29
29
34
27
30
30
26
27
27
30
28
36
25
24
30
31
32
91
25
27
28
24
30
35
26
26
31
35
27
28
26
28
29
34
22
35
30
26
28
30
30
23
37
27
26
27
30
35
25
36
26
29
29
30
23
26
33
28
25
30
26
24
33
30
22
27
27
26
№ 15. В следующей таблице приведены данные о выполнении плана за
месяц (тыс. руб.) по ста строительно-монтажным управлениям одного из районов (Х - план  в тыс. руб., X = 30 тыс. руб., k = 6, Р0 = 0,9970).
128
150
172
210
203
135
210
205
208
92
121
204
218
162
112
178
142
201
195
121
163
162
286
157
206
202
146
198
188
163
90
208
237
173
197
211
191
200
245
176
152
203
240
111
152
285
150
180
185
184
92
156
200
240
161
155
100
132
156
190
270
137
180
225
141
185
204
173
179
255
265
152
205
217
203
184
112
186
210
250
260
155
180
238
182
194
120
148
167
172
248
128
156
160
197
210
210
130
245
174
179
Приложения
Приложение 1. Таблица значений функции  ( x) 
0
1
2
3
4
5
6
7
1
2
e

x2
2
8
.
9
0,0 0,3989 3989 3989 3988 3986 3984 3982 3980 3977 3973
0,1 0,3970 3965 3961 3956 3951 3945 3939 3932 3925 3918
0,2 0,3910 3902 3894 3885 3876 3867 3857 3847 3836 3825
0,3 0,3814 3802 3790 3778 3765 3752 3739 3726 3712 3697
0,4 0,3683 3668 3653 3637 3621 3605 3589 3572 3555 3538
0,5 0,3521 3503 3485 3467 3448 3429 3410 3391 3372 3352
0,6 0,3332 3312 3292 3271 3251 3230 3209 3187 3166 3144
0,7 0,3123 3101 3079 3056 3034 3011 2989 2966 2943 2920
0,8 0,2897 2874 2850 2827 2803 2780 2756 2732 2709 2685
0,9 0,2661 2637 2613 2589 2565 2541 2516 2492 2458 2444
1,0 0,2420 2396 2371 2347 2323 2299 2275 2251 2227 2203
1,1 0,2179 2155 2131 2107 2083 2059 2036 2012 1989 1965
1,2 0,1942 1919 1895 1872 1849 1826 1804 1781 1758 1736
1,3 0,1714 1691 1669 1647 1626 1604 1582 1561 1539 1518
1,4 0,1497 1476 1456 1435 1415 1394 1374 1354 1334 1315
1,5 0,1295 1276 1257 1238 1219 1200 1182 1163 1145 1127
1,6 0,1109 1092 1074 1057 1040 1023 1006 0989 0973 0957
1,7 0,0940 0925 0909 0893 0878 0863 0848 0833 0818 0804
1,8 0,0790 0775 0761 0748 0734 0721 0707 0694 0681 0669
1,9 0,0656 0644 0632 0620 0608 0596 0584 0573 0562 0551
93
2,0 0,0540 0529 0519 0508 0498 0488 0478 0468 0459 0449
2,1 0,0440 0431 0422 0413 0404 0396 0387 0379 0371 0363
2,2 0,0355 0347 0339 0332 0325 0317 0310 0303 0297 0290
2,3 0,0283 0277 0270 0264 0258 0252 0246 0241 0235 0229
2,4 0,0224 0219 0213 0208 0203 0198 0194 0189 0184 0180
2,5 0,0175 0171 0167 0163 0158 0154 0151 0147 0143 0139
2,6 0,0136 0132 0129 0126 0122 0119 0116 0113 0110 0107
2,7 0,0104 0101 0099 0096 0093 0091 0088 0086 0084 0081
2,8 0,0079 0077 0075 0073 0071 0069 0067 0065 0063 0061
2,9 0,0060 0058 0056 0055 0053 0051 0050 0048 0047 0046
3,0 0,0044 0043 0042 0040 0039 0038 0037 0036 0035 0034
3,1 0,0033 0032 0031 0030 0029 0028 0027 0026 0025 0025
3,2 0,0024 0023 0022 0022 0021 0020 0020 0019 0018 0018
3,3 0,0017 0017 0016 0016 0015 0015 0014 0014 0013 0013
3,4 0,0012 0012 0012 0011 0011 0010 0010 0010 0009 0009
3,5 0,0009 0008 0008 0008 0008 0007 0007 0007 0007 0006
3,6 0,0006 0006 0006 0005 0005 0005 0005 0005 0005 0004
3,7 0,0004 0004 0004 0004 0004 0004 0003 0003 0003 0003
3,8 0,0003 0003 0003 0003 0003 0002 0002 0002 0002 0002
3,9 0,0002 0002 0002 0002 0002 0002 0002 0002 0001 0001
94
x2
Таблица значений функции 2Ф(t ) 
Приложение 2.
0
2 t 2
 e dx.
2 0
1
2
3
4
5
6
7
8
9
0,0 0,0000
0080
0160
0239
0319
0309
0478
0558
0638
0717
0,1 0,0797
0876
0955
1034
1113
1192
1271
1350
1429
1507
0,2 0,1585
1662
1741
1819
1807
1974
2051
2128
2205
2282
0,3 0,2358
2434
2510
2586
2661
2737
2818
2886
2961
3035
0,4 0,3108
3182
3255
3328
3101
3473
3545
3616
3688
3799
0,5 0,3829
3900
3969
4039
4109
4177
4245
4313
4381
4448
0,6 0,4515
4581
4647
4713
4778
4843
4908
4971
5035
5098
0,7 0,5161
5223
5235
5346
5107
5468
5528
5587
5646
5705
0,8 0,5763
5821
5378
5035
5991
6047
6102
6157
6211
6265
0,9 0,6319
6372
6424
6176
6528
6579
6629
6680
6729
6778
1,0 0,6827
6875
6923
6970
7017
7063
7109
7154
7199
7243
1,1 0,7287
7330
7373
7115
7457
7199
7540
7580
7620
7660
1,2 0,7699
7737
7775
7813
7850
7887
7923
7959
7995
8030
1,3 0,8064
8098
8132
8165
8198
8230
8262
8293
8324
8355
1,4 0,8383
8415
8411
8173
8501
8529
8557
8584
8611
8639
1,5 0,8664
8690
8715
8740
8764
8789
8813
8836
8859
8882
1,6 0,8904
8926
8948
8969
8990
9011
9031
9051
9070
9090
1,7 0,9109
9127
9146
9164
9181
9199
9216
9233
9249
9266
1,8 0,9281
9297
9312
9328
9312
9357
9371
9385
9399
9112
1,9 0,9426
9439
9451
9461
9476
9488
9500
9512
9523
9534
2,0 0,9545
9556
9566
9576
9587
9596
9606
9616
9625
9634
2,1 0,9643
9651
9600
9668
9677
9684
9692
9700
9707
9715
95
2,2 0,9722
9729
9736
9743
9749
9756
9752
9768
9774
9780
2,3 0,9786
9791
9797
9802
9807
9812
9817
9822
9827
9832
2,4 0,9836
9841
9845
9849
9853
9857
9861
9865
9869
9872
2,5 0,9876
9879
9883
9886
9889
9892
9895
9898
9901
9904
2,6 0,9907
9910
9912
9915
9917
9920
9922
9924
9926
9929
2,7 0,9931
9933
9935
9937
9939
9941
9942
9944
9943
9947
2,8 0,9949
9951
9952
9954
9955
9956
9958
9959
9960
9962
2,9 0,9963
9964
9965
9966
9967
9968
9969
9970
9971
9972
3,0 0,9973
9974
9975
9976
9976
9977
9978
9979
9979
9980
3,1 0,9981
9981
9982
9983
9983
9984
9984
9985
9985
9986
3,2 0,9986
9987
9987
9989
9988
9989
9989
9989
9990
9990
3,3 0,9990
9991
9991
9991
9992
9992
9992
9993
9993
9993
3,4 0,9990
9994
9994
9994
9994
9994
9995
9995
9995
9995
3,5 0,9995
9996
9996
9996
9996
9996
9996
9996
9997
9997
3,6 0,9997
9997
9997
9997
9997
9997
9998
9998
9998
9998
3,7 0,9998
9998
9998
9998
9998
9998
9998
9998
9998
9998
3,8 0,9999
9999
9999
9999
9999
9999
9999
9999
9999
9999
3,9 0,9999
9999
9999
9999
9999
9999
9999
9999
9999
9999
96

Приложение 3 .Таблица значений вероятности P X 2  X q2
r
1
2
3
4
5
6
7
8
9
1
0
1
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
4
2

1
2
3
4
5
6
7
8
0,3173
1574
0833
0455
0254
0143
0081
0047
0027
0016
0009
0005
0003
0002
0001
0001
0000
0,6065
3679
2231
1353
0821
0498
0302
0183
0111
0067
0047
0025
0015
0009
0006
0003
0002
0001
0001
0000
0000
0000
0000
0000
0000
0000
0000
0000
0000
0000
0,8013
5724
3916
2615
1718
1116
0719
0460
0293
0186
0117
0074
0046
0029
0018
0011
0007
0004
0003
0002
0001
0000
0000
0000
0000
0000
0000
0000
0000
0000
0,9098
7358
5578
4060
2873
1991
1359
0916
0611
0404
0266
0174
0113
0073
0047
0030
0019
0012
0008
0005
0003
0002
0001
0001
0001
0000
0000
0000
0000
0000
0,9626
8491
7000
5494
4159
3062
2206
1562
1091
0752
0514
0348
0234
0146
0104
0068
0045
0029
0019
0013
0008
0005
0003
0002
0001
0001
0001
0000
0000
0000
0,9856
9197
8088
6767
5438
4232
3208
2381
1736
1247
0884
0620
0430
0296
0203
0138
0093
0062
0042
0028
0018
0012
0008
0005
0003
0002
0001
0001
0001
0000
0,9948
9598
8850
7798
6600
5398
4289
3326
2527
1886
1386
1006
0721
0512
0360
0251
0174
0120
0082
0056
0038
0025
0017
0011
0008
0005
0003
0002
0001
0001
0,9982
9810
9344
8571
7576
6472
5366
4335
3423
2650
2017
1512
1119
0818
0591
0424
0301
0212
0149
0103
0071
0049
0034
0023
0016
0010
0007
0005
0003
0002
97
5
2
6
2
7
2
8
2
9
3
0
98
Приложение 4 (лицевая сторона бланка)
Финансовая академия при Правительстве РФ
Кафедра теории вероятностей и математической статистики
Расчетный бланк
к лабораторной работе
"Обработка результатов наблюдений"
Вариант№
Группа
Выполнил
Проверил
p i*
f (x )
0
x
Таблица 1
№ интервалов
1
2
Границы интервалов
xi 1 ; xi 
Среднее значение в
*
интервале x i
Число наблюдений
в интервале mi
Частота в интервале p i* 
m1
n
99
3
4
5
6
7
8
Приложение 5 (обратная сторона бланка)
x 
k=
Р0 =
с
=

  (X ) 
D  (X ) 
x 
M 3 
M 4 
X2 =

S=
r=
Pr =
Выводы:
Ответы к упражнениям
§1
1.7.  0  0,9707 ; 1.8.   0,11 ; 1.9. n  98 ; 1.10. n  272 ;
  0,014 ; 1.12. n  1160 ; 1.13.  0,022 ; 1.14.  0  0,8764 ; 1.15.
0,682; 0,818 ; 1.16.
1.22. n  1985 ;
§2
1.11.
0,679; 0,821 и
n  255 ; 1.18. n  166 ; 1.19.   0,19 ; 1.20. 19  0,55 ; 1.21. n  111 ;
1.23. n  166 ; 1.24. x 0  278  7 ; 1.25.   4,76 ; 1.26. P0  0,8926 .
2.1. Zн = 5 > 2,58 = Zкр  Н0 отв.; 2.2.
2
2
 крит
 набл
= 22,1 < 36,2 =
 Н0 прин. ; 2.3. Fн= 3,39 >2,7 = Fкр  Н0 отв.; 2.4. Fн= 1,34 < 2,49 =
Fкр 
x y
, Tн =12,06 > 2,06 = Tкр  Н0 отв.; 2.5. Fн= 1,07 < 4,63 =
Fкр   x   y , Tн =1,46 < 2,53 = Tкр  Н0 прин. ; 2.6. Fн= 1,48 < 9,12 =

 y
Fкр  x
, |Tн| =0,25 < 1,89 = Tкр  Н0 прин.; 2.7. набл = 8,63 < 42,6 =
2
2
 крит

Н0 прин. ; 2.8. Zн = 3,3 > 1,645 = Zкр  Н0 отв.; 2.9.
2
 крит

2
2
 крит

набл
 Н0 прин.
Н0 прин. ; 2.10.
= 2,139 < 11,1 =
100
2
 набл
= 8,166 < 15,1 =
§4
4.1.
0,89;
y  1,096  0,447 x ;
4.3.
 T  (0,63;0,16;3,07;0,59;1,69) ,
4.2.
T
4.4.   (0,63;0,16;3,07;0,59;1,69) ,
0,81;
y  1,1  1,3x ; 4.4.  T  (0,63;0,16;3,07;0,59;1,69) , y  1,1  1,3 x ; 4.5. 0,82;
y  2,94  1,22 x ;4.7.
4.6.
y  5  6 x  3x 2 ;4.8.
R
=
0,94,
y  3,41  2,43x1  1,96 x2 .
§5
1
 ln R
5.1. 0,688; 5.3. 
; 5.4. a) -0,952; б) –1,01; в) 166,852; 5.5. 0,83;
5.6. 6140; 5.7. 0,954; 5.8. 661.
Заключение
Исторически первой появились некоторые области статистики объектов
нечисловой природы (в частности, задачи оценивания доли брака и проверки
гипотез о ней) и одномерная статистика. Математический аппарат для них
проще, поэтому на их примере обычно демонстрируют основные идеи математической статистики.
Лишь те методы обработки данных, т.е. математической статистики, являются доказательными, которые опираются на вероятностные модели соответствующих реальных явлений и процессов. Речь идет о моделях поведения потребителей, возникновения рисков, функционирования технологического оборудования, получения результатов эксперимента, течения заболевания и т.п.
Вероятностную модель реального явления следует считать построенной, если
рассматриваемые величины и связи между ними выражены в терминах теории
вероятностей. Соответствие вероятностной модели реальности, т.е. ее адекватность, обосновывают, в частности, с помощью статистических методов проверки гипотез.
Невероятностные методы обработки данных являются поисковыми, их
можно использовать лишь при предварительном анализе данных, так как они не
101
дают возможности оценить точность и надежность выводов, полученных на основании ограниченного статистического материала.
Вероятностные и статистические методы применимы всюду, где удается
построить и обосновать вероятностную модель явления или процесса. Их применение обязательно, когда сделанные на основе выборочных данных выводы
переносятся на всю совокупность (например, с выборки на всю партию продукции).
В конкретных областях применений используются как вероятностностатистические методы широкого применения, так и специфические. Например,
в разделе производственного менеджмента, посвященного статистическим методам управления качеством продукции, используют прикладную математическую статистику (включая планирование экспериментов). С помощью ее методов проводится статистический анализ точности и стабильности технологических процессов и статистическая оценка качества. К специфическим методам
относятся методы статистического приемочного контроля качества продукции,
статистического регулирования технологических процессов, оценки и контроля
надежности и др.
Широко применяются такие прикладные вероятностно-статистические
дисциплины, как теория надежности и теория массового обслуживания. Содержание первой из них ясно из названия, вторая занимается изучением систем типа телефонной станции, на которую в случайные моменты времени поступают
вызовы - требования абонентов, набирающих номера на своих телефонных аппаратах. Длительность обслуживания этих требований, т.е. длительность разговоров, также моделируется случайными величинами. Большой вклад в развитие
этих дисциплин внесли член-корреспондент АН СССР А.Я. Хинчин (18941959), академик АН УССР Б.В.Гнеденко (1912-1995) и другие отечественные
ученые.
102
Скачать