Избранные главы математики

advertisement
Избранные главы
математики
Математическая статистика
Математическая статистика базируется на теории вероятностей и
является теоретической основой всей статистики. Ее задачей является
создание
способов
сбора
и
методов
обработки
статистической
информации.
Статистическое распределение выборки и его основные
числовые характеристики.
Выборочный метод – один из основных методов математической
статистики. Его сущность заключается в том, что изучение большой
совокупности объектов относительно некоторого количественного
признака Х производится по сравнительно небольшому числу случайно
отобранных объектов.
Генеральной
совокупностью
называется
множество
всех
изучаемых объектов, из которых производится выборка.
Основным объектом исследования в математической статистике
является выборка. Выборкой объема n называются числа x1 , х2 ,..., хn
получаемые на практике при n – кратном повторении эксперимента в
неизменных условиях. Выборки можно представлять различными
способами. Выборка должна быть организована случайным образом,
чтобы правильно представлять генеральную совокупность.
Объемом
совокупности
называется
количество
объектов
в
совокупности. Объем выборки n, как правило, значительно меньше
объема N генеральной совокупности: n<< N.
Вариационным рядом выборки x1 , х2 ,..., хn называется способ ее
записи, при котором элементы упорядочиваются по величине, т.е.
записываются в виде монотонно возрастающей последовательности.
Разность между максимальным и минимальным элементами выборки
х n   x 1  w называется размахом выборки.
Пусть
выборка
( x1 , х2 ,..., хn )
содержит
k
различных
чисел
z1 , z 2 ,..., z k ,причем
zi
встречается
ni
раз ( i  1,2,...,k ). Число
ni
называется частотой элемента выборки zi . Статистическим рядом
называется последовательность пар ( zi , ni ). Обычно статистический ряд
записывается в виде таблицы, первая строка которой содержит элементы
zi , а вторая – их частоты.
zi
z1
z2
…
zk
ni
n1
n2
…
nk
Очевидно, что сумма всех частот ni равна объему выборки n :
ПРИМЕР
Дана
1.
выборка
числа
правонарушений,
зафиксированных в районе за 15 дней: 5, 3, 7, 10, 5, 5, 2, 10, 7, 2, 7, 7, 4, 2,
4. Записать ее в виде вариационного и статистического рядов,
определить размах выборки.
Решение. Объем выборки n = 15. Упорядочив элементы выборки
по величине, получим вариационный ряд:
2, 2, 2, 3, 4, 4, 5, 5, 5, 7, 7, 7, 7, 10, 10.
Размах выборки:
w = 10 – 2 = 8.
Различными
в
заданной
выборке
являются
элементы
z1  2, z 2  3, z3  4, z 4  5, z5  7, z 6  10 ; их частоты соответственно равны
n1  3, n2  1, n3  2, n4  3, n5  4, n6  2 . Следовательно, статистический ряд
исходной выборки можно записать в виде следующей таблицы:
zi
2
3
4
5
7
10
ni
3
1
2
3
4
2
При большом объеме выборки ее элементы объединяют в группы
(разряды), представляя результаты опытов в виде группированного
статистического ряда. Для этого интервал, содержащий все элементы
выборки, разбиваются на k непересекающихся интервалов. Вычисления
значительно упрощаются, если эти интервалы имеют одинаковую длину
b
w
. После того как частичные интервалы выбраны, определяют
k
частоты – количество ni элементов выборки, попавших в i-й интервал
(элемент, совпадающий с верхней границей интервала, относится к
последующему интервалу). Получающийся статистический ряд в
верхней строке содержит середины zi интервалов группировки, а в
нижней – частоты ni ( i  1,2,...,k ). Наряду с частотами одновременно
подсчитываются
также
накопленные
i
 ni   n j
частоты,
j 1
относительные частоты wi 
i
nj
j 1
n
 wi  
Полученные
ni
и накопленные относительные частоты
n
результаты
сводятся
в
таблицу,
называемую
группированным статистическим рядом.
ПРИМЕР
2.
Дана
выборка
55
наблюдений
времени
между
поступающим сигналом от охранной сигнализации на оперативный пункт до
момента прибытия оперативной бригады (мин.). Представить ее в виде
группированного
статистического
ряда,
используя
7
интервалов
группировки. Выборка:
20,3 15,4 17,2 19,2 23,3 18,1 21,9 15,3 16,8 13,2
20,4 16,5 19,7 20,5 14,3 20,1 16,8 14,7 20,8 19,5
15,3 19,3 17,8 16,2 15,7 22,8 21,9 12,5 10,1 21,1
18,3 14,7 14,5 18,1 18,4 13,9 19,1 18,5 20,2 23,8
16,7 20,4 19,5 17,2 19,6 17,8 21,3 17,5 19,4 17,8
13,5 17,8 11,8 18,6 19,1
Решение. Размах выборки w  23,8  10,1  13,7 . Длина интервала
группировки b  13,7  7  2 . В качестве первого интервала удобно взять
интервал 10 – 12. Результаты группировки сведены в таблицу.
Номер
интервала
i
Границы
интервала
Середина
интервала
zi
Частота
ni
Накопленная
Накопленная
Относительная
частота
относительная
 ni
частота n j
n
1
10 – 12
11
2
12 – 14
13
3
14 – 16
4
частота

nj
n
2
0,0364
0,0364
4
6
0,0727
0,1091
15
8
14
0,1455
0,2546
16 – 18
17
12
26
0,2182
0,4728
5
18 – 20
19
16
42
0,2909
0,7637
6
20 – 22
21
10
52
0,1818
0,9455
7
22 – 24
23
3
55
0,0545
1,0000
2
Гистограммой частот группированной выборки называется кусочнопостоянная функция, постоянная на интервалах группировки и принимающая
на каждом из них значения
ni
, i  1,2,..., k соответственно. Площадь
b
ступенчатой фигуры под графиком гистограммы равна объему выборки n.
Аналогично
определяется
гистограмма
относительных
частот.
Площадь соответствующей ступенчатой фигуры для нее равна единице. При
увеличении объема выборки и уменьшении интервала группировки
гистограмма относительных частот является статистическим аналогом
плотности распределения f x  x  .
Полигоном частот называется ломаная с вершинами в точках ( zi ,
ni
),
b
i  1,2,...,k , а полигоном относительных частот – ломаная с вершинами в
точках ( zi ,
ni
), i  1,2,...,k . Таким образом, полигон относительных частот
nb
получается из полигона частот сжатием по оси Oy в n раз.
ПРИМЕР 3. Построить гистограмму и полигон частот по данным,
приведенным в предыдущем примере .
Решение. По результатам группировки на основании таблицы из
примера строим гистограмму частот. Соединяя отрезками ломаной середины
верхних оснований прямоугольников, из которых состоит полученная
гистограмма, получаем соответствующий полигон частот.
Пусть
x1 , х2 ,..., хn – выборка объема n, полученная в результате
наблюдения за некоторым показателем. По этой выборке может быть
построен (группированный или негруппированный) статистический ряд.
Рассмотрим методы нахождения оценок числовых характеристик этого
показателя. Числовые характеристики, найденные по выборочным данным,
называются
выборочными
числовыми
характеристиками.
Рассмотрим
методы получения выборочных оценок основных числовых характеристик.
1. Выборочное среднее x служит оценкой математического ожидания
и его можно интерпретировать как среднее значение среди всех элементов
выборки. Выборочное среднее рассчитывается по формулам:
x
 xi ni
 ni
- для выборочных данных и
x
 z jnj
 ni
- для статистического ряда.
2. Выборочная несмещенная дисперсия является оценкой дисперсии и
характеризует квадрат среднего разброса выборочных данных вокруг
среднего. Выборочная дисперсия рассчитывается по формулам:
x  x  ni
  i
 ni
- для выборочных данных и
 z j  x  n j
2 
 ni
- для статистического ряда.
2
2
2
3.
Выборочным
среднеквадратическим
отклонением
называется
квадратный корень из выборочной дисперсии    2 .
С помощью выборочных характеристик оцениваются генеральные
характеристики
x – генеральная средняя;
 2 – генеральная дисперсия;
 – генеральное среднее квадратическое отклонение.
Оценки имеют следующий вид:
x  x выб. ;  2 
n
n
2
2
2
2
  выб
  выб
.  S выб. ;   S выб. 
. , где
n 1
n 1
2
S выб
. - так называемая исправленная выборочная дисперсия.
Приведенные оценки носят случайный характер, так как зависят от
выборки. Они называются точечными и удовлетворяют следующим
требованиям:
 несмещенность (отсутствие систематических ошибок);
 состоятельность
(увеличение
объема
выборки
повышает
вероятность правильности оценки);
 эффективность (имеют самый незначительный разброс по
сравнению с другими возможными оценками).
4. Выборочной модой d X называется элемент выборки, встречающийся
с наибольшей частотой.
5. Выборочной медианой называется число
h X , которое делит
вариационный ряд на две части, содержащие равное число элементов.
Основные характеристики выборки
2
 выб. , где лишь
x выб. ; S выб
.;
приближенно характеризуют генеральную совокупность и могут оказаться
далекими от соответствующих характеристик генеральной совокупности:
x  а , S 2 ;  . Поэтому для последних используют интервальные оценки,
когда неизвестная характеристика заключена в некотором интервале с
заданной надежностью (вероятностью)  . Такой интервал называется
доверительным. Значения надежности берутся, как правило, высокими: 0,9;
0,95; 0,99 или 0,999, что соответствует 90; 95; 99 или 99,9%.
Если количественный признак X в генеральной совокупности
распределен по нормальному закону, причем среднее квадратическое
отклонение 
этого распределения известно, то с вероятностью

доверительный интервал, заданный выражением:
t
t 

; xвыб. 
 xвыб. 
,
n
n

покрывает неизвестное математическое ожидание а. Здесь параметр t
находится из соотношения 2t    с помощью таблицы значений для
интегральной функции Лапласа.
Часто статистическое распределение выборки носит интервальный
характер. В этом случае указывают числовые частичные интервалы, куда
попадают значения признака X, и ni – количество значений, попавших в
интервал с номером i. В качестве значений xi выбирают середины частичных
интервалов.
Значения ni называются абсолютными частотами, их сумма равна
объему выборки n .
ПРИМЕР 4. Найти среднюю заработную плату одного из цехов
промышленного предприятия и стандартное отклонение
Заработная
плата, у.е.
Число
работников
50-75
75-100
12
23
100-125 125-150 150-175 175-200 200-225
35
37
19
15
Решение. Пусть xi - середина интервалов, ui - условные варианты
ui 
xi  c
, h - длина интервала, c - ложный нуль.
h
Тогда, для интервала 50-75: x1 
50  75
 62,5 , c  137,5 , h  25
2
u1 
62,5  137 ,5
 3 .
25
9
Аналогично находим оставшиеся значения.
Составим таблицу значений.
Таблица 1.
Интервалы
ni
xi
ui
u i ni
u i2 ni
50-75
12
62,5
-3
-36
108
75-100
23
87,5
-2
-46
92
100-125
35
112,5
-1
-35
35
125-150
37
137,5
0
0
0
150-175
19
162,5
1
19
19
175-200
15
187,5
2
30
60
200-225
9
212,5
3
27
81

150
-41
395
Вычислим условные характеристики
 ui ni   41  0,273
v~1 
150
 ni
ui2 ni 395

~
v2 

 2,633
n
150
 i
~2  v~2  v~12  2,633   0,273 2  2,558
x  v~1  h  c  0,273  25  137,5  130,675
 2  ~2  h 2  2,558  25 2  1598,75
  1598,75  39,984 .
Ответ: средняя заработная плата 130,675 у.е., стандартное отклонение
39,984 у.е.
ПРИМЕР
5.
Найти
доверительные
интервалы
для
оценки
математического ожидания нормального распределения с надежностью 0,95,
зная выборочную среднюю x  130,675 , среднее квадратическое отклонение
  39,984 объем выборки n = 150.
Решение. Используем формулу
x
t
t
. Необходимо
<a<x
n
n
вычислить t . t  находим по таблице значений функции Лапласа.
2t   0,95  t   0,475 .
По таблице значений функции
t  , находим
t  1,96 . Тогда
t 1,96  39,984 78,368


 6,397 .
12,25
n
150
Доверительный интервал равен:
130,675 - 6,397 < a < 130,675  6,397
124,278 < a < 137,072 .
Ответ:
доверительный
интервал
с
надежностью
0,95
для
математического ожидания 124,278;137,072  .
Элементы теории корреляции
Пусть каждый из выбранных объектов характеризуется двумя
количественными признаками Х и Y. Между значениями этих признаков
может существовать некоторая зависимость.
Функциональная зависимость – это такая зависимость, когда каждому
значению x признака Х соответствует единственное значение y признака Y.
Эта зависимость является вполне определенной, однозначной и называется
строгой (детерминированной). Она задается в виде функции y  f  x 
Статистическая зависимость – это такая зависимость, когда каждому
значению x признака Х соответствует статистическое распределение
значений признака Y. Эта зависимость не является строгой и носит
вероятностный (стохастический) характер, поскольку на величину признака
Y влияют не только значения признака X, но и другие случайные факторы.
Если случайные величины X и Y не являются взаимно независимыми,
то в той или иной степени им свойственна стохастическая зависимость.
Корреляционная зависимость – это статистическая зависимость,
обладающая тем свойством, что изменение значений x признака Х приводит к
изменению среднего значения признака Y, обозначаемого y x . Связь между x
и условной средней y x задаѐтся с помощью функции f  x  и записывается в
виде уравнения y x  f x  , которое называется уравнением регрессии Y по Х.
Аналогично,
связь
между
значениями
y
признака
Y
и
соответствующими условными средними значениями x y записывается в виде
уравнения x y    y  , которое называется уравнением регрессии Х по Y.
Практически наличие корреляционной связи между признаками X и Y
прослеживается как изменение средних значений одного признака при
изменении значений другого, причем эта связь может проявляться с
различной степенью силы. Например, имеется корреляционная зависимость
между ростом людей X и их весом Y; между количеством внесенных
удобрений X и урожайностью Y; между успеваемостью студентов по
математике в школе и в вузе и т. п.
Основные задачи теории корреляции состоят в том, чтобы по данным
выборки:
1) оценить силу (тесноту) связи между признаками X и Y;
2) найти вид (форму) этой связи в виде уравнения регрессии.
Уравнение регрессии выбирают по возможности простым, и оно, как
правило, лишь приближенно описывает зависимость между значениями x
одного признака и соответствующими средними значениями другого
признака y x .
Наиболее простой и употребляемый вид зависимости – линейная
зависимость. Она определяется уравнением линейной регрессии y x  ax  b и
изображается на графике в виде прямой регрессии. Уравнение регрессии
называется выборочным, поскольку его параметры a и b находятся по
результатам выборки  xi ; yi , i  1,2,...,n , причем наилучшим образом в смысле
метода наименьших квадратов. Сущность метода заключается в том, чтобы
была наименьшей сумма квадратов отклонений наблюдаемых значений y i от
соответствующих значений y xi вычисленных по уравнению регрессии
n
 axi  b  yi 
y xi  axi  b , т.е.
2
 min .
i 1
Проблема
статистического
исследования
зависимостей
является
главной в решении многих типовых задач практики, таких как планирование,
прогнозирование, нормирование, оценка эффективности функционирования
или качества объекта, анализ систем и прочее.
ПРИМЕР 6.Найти выборочное уравнение прямой линии регрессии Y
на Х по заданной корреляционной таблице .
X
Y
100
120
130
160
15
20
2
4
1
25
30
35
40
5
2
3
2
3
7
2
5
10
1
3
Решение. Уравнение прямой линии регрессии Y на Х задается
уравнением y x  y  rB
y
x  x
x
Составим расчетную таблицу, перейдя к условным вариантам,
вычислим
rB 
выборочный
корреляции
rB
по
формуле
 nuvuv  n  uv
n u v
X
15
Y
u
v
-3
100
120
130
160
nx
-1
0
1
2
nu
unu
коэффициент
2
4
20 25 30 35 40
-2 -1 0
1
2
3
5
10 5
1
2
18 7
3
2
3
8
-5
0
16
 unu  12
7
2
5
6
18
12
7
Vnv
V 2 nv
-10
0
22
18
 vnv  30
10
0
22
36
nv
10
9
22
9
50
1
6
ny
 v 2 nv  68
 v 2 nv
 nv
v 

 v
2
68
 0,6 2  1
50

x  u  h1  c1  0,24  5  30  28,8
y  v  h2  c2  0,6  20  120  132
 x   u  h1  1,54  5  7,7
 y   v  h2  1  20  20
rB 
17  50 0,24   0,6
 0,314
50  1,54  1
u 2 nu
54
24
5
0
7
32
 u 2 nu  122
 vnuv
-2
4
6
5
9
8
 vnuv  30
u  vnuv
6
-8
-6
0
9
16
 u  vnuv  17
контроль
По данным таблицы находим
u
 unu
 nu

 12
 0,24
50
v
 unv
 nv

30
 0,6
50
u 
 u 2 nu
 nu

 u
2

122
2
  0,24   1,54
50
Подставив найденные величины в уравнение прямой регрессии Y на X,
получим искомое уравнение
y x  132  0,314
20
x  28,8
7,7
y x  0,82 x  108,5
ПРИМЕР 7. По данным корреляционной таблицы 1 найти условные
средние y x и x y . Оценить тесноту линейной связи между признаками Х и Y
и составить уравнения линейной регрессии Y по X и X по Y. Cделать чертеж,
нанеся на него условные средние и найденные прямые регрессии. Оценить
тесноту связи между признаками с помощью корреляционного отношения.
Таб
лиц
а1
X
Y
49
59
69
79
nx
15
8
8
20
4
4
25
7
10
3
20
30
35
40
ny
37
26
52
15
130
14
13
40
14
6
2
9
67
22
9
Решение. В таблице 1 приведены данные выборочных наблюдений за
130 объектами, обладающими признаками X и Y. Каждому объекту
соответствует пара значений (x, у), а частота nxy показывает количество
объектов с такой парой значений признаков.
Все возможные значения признака X перечислены в верхней
горизонтальной строке таблицы 1, а для признака Y – в первом вертикальном
столбце. В клетках на пересечении каждой строки и каждого столбца
проставлена частота nxy , с которой наблюдается каждая пара значений.
Например: пара значений (15;79) наблюдалась 8 раз, пара значений
(30;69) наблюдалась 40 раз и т.д.
Пустые клетки означают, что соответствующие им пары значений не
наблюдались.
В нижней итоговой строке данной таблицы напротив каждого значения
признака Х проставляется соответствующая ему частота nx , равная сумме
всех частот столбца и указывающая, сколько раз всего наблюдалось данное
значение х. Аналогично, в последнем итоговом столбце напротив каждого
значения у записывают соответствующую ему частоту ny, равную сумме
частот по строке и указывающую, сколько раз всего наблюдалось данное
значение у. Очевидно, что суммы всех частот для n x и для n y должны быть
равны между собой и равны объему выборки (количеству наблюдаемых пар):
Объем выборки n проставляется в последней клетке таблицы. В данной
задаче n = 130.
В таблице 1 каждому значению X соответствует статистическое
распределение признака Y.
Например, для x = 30:
Y
49
59
69
79
nxy
14
13
40
-
Отсюда находим среднее значение y при условии, что x = 30, или
условную среднюю:
Аналогично, каждому значению y соответствует статистическое
распределение Х. Например, для y = 49:
Х
15
20
25
30
35
40
nxy
-
-
-
14
14
9
Отсюда находим условную среднюю:
Не выписывая далее статистических распределений, а беря их
непосредственно из данной корреляционной таблицы 1, найдем все условные
средние по формулам
Оценка тесноты линейной связи между признаками
Х и
Y
производится с помощью коэффициента линейной корреляции r:
Коэффициент r может принимать значения от –1 до +1, то есть
Знак r указывает на направление связи: прямая или обратная.
Абсолютная величина r указывает на силу (тесноту) связи.
Оценка тесноты линейной связи (шкала Чаддока)
При r > 0 связь прямая, то есть с ростом х растет у.
При r < 0 связь обратная, то есть с ростом х убывает у.
Для нахождения r вычислим указанные общие средние: x, y, xy , а также
средние
квадратические
отклоненияx
иy
.Вычисления
удобно
поместить в таблицы 2 и 3, куда вписываем также найденные ранее
условные средние.
В рассматриваемой задаче эта сумма в обеих таблицах равна 234560.
Равенство может оказаться приближенным, что связано с приближенными
вычислениями условных средних y x и x y .
С помощью таблиц 2 и 3 находим общие средние, средниеквадратов,
среднюю произведения и средние квадратические отклонения:
ПРИМЕР 8. Дан интервальный вариационный ряд распределения
признака
X
при
уровне
значимости
  0,01 проверить гипотезу о
нормальности распределения X в генеральной совокупности по критерию
Пирсона.
X
nэ
3,0-3,6
2
3,6-4,2
8
4,2-4,8
35
4,8-5,4
43
5,4-6,0
22
6,0-6,6
15
6,6-7,2
5
5,7
22
6,3
15
6,9
5
Решение. Запишем дискретный ряд
3,3
2
xi
ni
3,9
8
4,5
35
5,1
43
1. Вычислим x ,  .
x

 xi ni
 ni

3,3  2  3,9  8  4,5  35  5,1  43  5,7  22  6,3  15  6,9  5

130
669
 5,15
130

xi  x  ni 3,3  5,15 2  2  3,9  5,15 2  8  4,5  5,15 2  35 

 


n
130
 i
2
2
2
2

5,1  5,15   43  5,7  5,15   22  6,3  5,15   15  6,9  5,15   5 76,045



2
2
130
 0,585
  0,585  0,76
130
2. Вычислим теоретические вероятности pi попадания случайной
величины в частичные интервалы
pi  P xi 1 < X < xi   t 2   t1  , где t 2 
xi  x

xi 1  x
, t1 

.
t  находим по таблице значений функции Лапласа.
Все вычисления необходимые для определения выборочной статистики
 
2
nЭ  nT 2
nT
проведем с помощью таблиц.
Составим расчетную таблицу 1.
Таблица 1.
Интервалы
3,0-3,6
3,6-4,2
4,2-4,8
4,8-5,4
5,4-6,0
6,0-6,6
6,6-7,2
Частоты
nЭ
2
8
35
43
22
15
5
xi
t1
t2
t1 
 t 2 
pi
nT  npi
3,3
3,9
4,5
5,1
5,7
6,3
6,9

-2,04
-1,25
-0,46
0,33
1,12
1,91
-2,4
-1,25
-0,46
0,33
1,12
1,91

0
0,0207
0,1057
0,3228
0,6293
0,8686
0,9719
0,0207
0,1057
0,3228
0,6293
0,8686
0,9719
1
0,0207
0,085
0,2171
0,3065
0,2393
0,1033
0,0281
3
11
28
40
31
13
4
Таблица 2.
nЭ
nT
2
10
8
35
43
22
15
20
5
3
14
11
28
40
31
13
17
4
  130

nЭ2
 n
nT
2
nЭ
nT
nЭ  nT 
-4
16
1,14
100
7,14
7
3
-9
49
9
81
1,75
0,23
2,61
1225
1849
484
43,75
46,23
15,61
3
9
0,53
400
23,53
2
Контроль:  набл
.  6,26
2
набл.
nЭ  nT 2
nЭ  nT
2
nT
  6,26
n
2
Э
  136,26
6,26=136,26-130
6,26=6,26.
2
2
 крит
. k ;  находим по таблице критических точек распределения 
(хи-квадрат), где
k  S  r  1- число степеней свободы,
S
- число
интервалов, r - число параметров нормального распределения.
Число степеней свободы k  5  2  1  2 ,   0,01 .
2
 крит
. 2;0,01  9,2 .
Вывод: Наблюдаемое значение  2 меньше табличного, то выдвинутая
гипотеза не противоречит данным наблюдений.
Приложение
Download