Загрузил Кафедра вищої математики

ТВ-4-Глава ІІ

реклама
Глава ІІ
2.1. Вибірка. Варіаційний та статистичний ряди
У попередній главі розглядалось статистичне означення
ймовірності з використанням статистичних рядів. Прикладами їх
були таблиці 2 і 3 у § 1.4.
Як
складаються
статистичні
ряди?
Які
числові
характеристики для аналізу статистичного ряду необхідно
знаходити? Як для наочності статистичний ряд описують графічно?
Коротко ці питання будемо тут розглядати.
Нехай при одних і тих же умовах здійснено n випробувань і
кожного разу фіксуються значення певної спостережуваної
величини. Отримані у результаті випробувань числа x1 , x2 ,..., xn
називаються вибіркою. Загальне число елементів або одиниць
називається обсягом вибірки.
Методи обробки даних вибірки відносять до математичної
статистики, яка опирається на апарат теорії ймовірностей.
Математична статистика для економічних спеціальностей
вивчається окремим курсом. Ми тут розглянемо ті моменти
математичної статистики, які допоможуть студентам краще
усвідомити таке поняття теорії ймовірностей, як розподіл
випадкових величин. Перейдемо до більш детального вивчення
поняття вибірки. Елементи вибірки можуть характеризуватися
однією або кількома ознаками.
Так швейні підприємства при випуску одягу враховують
попит покупців на той чи інший розмір і зріст. Для більш точного
прогнозування потрібно знайти закони розподілу таких ознак як
розмір і ріст серед маси населення. Розмір у свою чергу залежить
від співвідношення між ростом і вагою конкретної особи.
Нижче подаємо вибірку конкретних даних росту і ваги 54
студентів другого курсу однієї із спеціальностей. Розглянемо
основні моменти обробки статистичного матеріалу: побудова
статистичного та варіаційного рядів, обчислення основних
числових характеристик, графічне зображення розподілу росту,
ваги(гістограми) та ін.
В таблиці 1 записані дані вибірки згідно з порядком їх
надходжень
49
№
п.п
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
Ріст
Вага
175
175
173
182
187
177
171
183
182
175
178
176
192
176
176
175
173
180
65
60
60
82
85
92
80
83
63
63
70
74
76
65
65
68
64
70
№
п.п
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
Ріст
Вага
177
180
188
180
183
183
178
175
201
170
182
177
180
178
170
175
170
174
60
67
70
73
75
83
79
65
93
57
71
75
77
85
68
74
55
72
№
п.п
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
Таблиця 1
Ріст Вага
192
175
177
174
186
183
175
186
189
194
175
182
175
177
178
186
175
186
82
60
63
60
69
72
62
70
108
75
70
65
65
78
65
70
65
70
Із таблиці видно, що ознаки значення росту і ваги
змінюються, або, як кажуть, варіюються при переході від одного
номера до іншого. Якщо б не було цього варіювання, і ознака
приймала б одне й теж значення, то не було б потреби у проведенні
дослідження.
Значення ознаки в окремих членів сукупності (даних таблиці)
будемо називати варіантами.
Після збору початкового матеріалу варіанти упорядковують у
порядку зростання (або спадання). У таблиці 2 виписані варіанти
росту із таблиці 1 у порядку їх зростання. Окремі варіанти
повторюються по кілька разів.
x1 , x 2 ,..., x n
Таблиця, в якій елементи вибірки
упорядковуються
за
величиною
x ( 1 )  x ( 2 )  ...  x ( n ) їх
зростання (або спадання) називається варіаційним рядом.
Процес упорядкування елементів (вибірки) за зростанням
(за спаданням) називається ранжуванням ряду.
50
Ріст
170
170
170
171
173
173
174
174
175
175
175
Ріст
175
175
175
175
175
175
175
175
176
176
176
Ріст
177
177
177
177
177
178
178
178
178
180
180
Ріст
180
180
182
182
182
182
183
183
183
183
186
Таблица 2
Ріст
186
186
186
187
188
189
192
192
194
201
Отже таблиця 2 - це варіаційний ряд. Різниця між
максимальним( xmax ) і мінімальним( xmin ) – елементами вибірки
або варіаційного ряду називається розмахом вибірки, позначимо
R  x max  x min .
Значення росту із таблиці 2 зручніше вивчати, якщо їх
помістити у таблицю 3, яка будується так.
Всі дані вибірки(див. табл. 2) розбиваються на групи.
Кількість груп знаходиться наближено за формулою Стерджесса
n  1  3.3221  lg N ,
де N – обсяг вибірки(тут N=54, lg54=1,7324, n  1+5,7550  7,
n=7 груп).
Кожній групі відповідає інтервал(  i ,  i 1 ) з центром у точці
xi . Довжину інтервалу знаходять за формулою
h
x max  x min R

n
n
де R  x max  x min - розмах вибірки.
51
На практиці зручно, щоб h було цілим числом, тому розмах
[(170,201)] збільшимо, взявши x min  167 , а x max  202 , оскільки
цілком можливо, що серед обслідуваних в іншому потоці міг би
зустрітися ріст 167 і 202. таким чином маємо
202  167 35

5
7
7
Центри інтервалів виберемо у точках: 170, 175, 180, 185,
190,
195,
200.
Тоді
кінці
інтервалів
будуть
1;2   167,5;172,5, 2 ;3   172,5;177,5 і т.д.
h
Дані варіаційного ряду (табл. 2) розбиваються на 7 груп
(інтервалів) із указаними центрами і поміщаються у таблицю 3.
№
Варіанти
xi
1
2
3
4
5
6
7
170
175
180
185
190
195
200
Інтервали
(  i , i 1 )
Частоти
Відносні
частоти
ni
167,5-172,5
172,5-177,5
177,5-182,5
182,5-187,5
187,5-192,5
192,5-197,5
197,5-202,5
wi
4
23
12
9
4
1
1
0,074
0,426
0,222
0,167
0,074
0,0185
0,0185
Таблиця 3
Питомі
відносні
частоти
w'i
0,0148
0,085
0,044
0,033
0,0148
0,0037
0,037
У другому стовпці табл. 3 записані центри xi інтервалів
(  i , i 1 ) , які розміщені у стовпці 3. У четвертому стовці
поміщені частоти ni , тобто кількість значень росту із таблиці 2, які
7
попадають у і-тий інтервал. Очевидно, що
 ni  N . У п’ятому
i 1
стовпці поміщені відповідні відносні частоти
52
wi 
ni
.
N
У шостому стовпці поміщені питомі відносні частоти
w'i 
wi
,
h
де h – довжина інтервалу (  i , i 1 ),
h   i 1   i .
У нашому випадку h=5.
Отже, кожному інтервалу (  i , i 1 ) приписується значення
x i - (центр інтервалу), яке вважається, що воно повторюється n i
раз.
Означення. Статистичним рядом
називається
послідовність пар ( x i , ni ). Записується у вигляді таблиці, один
рядок якої містить елементи x i , а другий – їх частоти n i (таку
таблицю можно скласти із другого і четвертого стовпців таблиці 3).
У загальному вигляді це табл. 4
Варіанти
Таблиця 4
Частоти
Таблиця 5
Частоти
xi
ni
Значення
ознаки
x1
n1
від α1 до α2
n1
x2
n2
від α2 до α3
n2
:
:
:
:
xi
ni
:
:
:
:
:
:
xn
nn
від αm до αm+1
nm
53
ni
Зауваження. Іноді частоту називають вагою.
У залежності від того, які значення може приймати
досліджувана ознака, статистичні ряди діляться на дискретні та
інтервальні (неперервні).
Тоді, коли досліджувана ознака приймає тільки дискретні
(ізольовані) значення, то статистичний ряд такого типу
називається дискретним (табл.4).
Наприклад, група із 20 студентів склали іспит. За
отриманими оцінками розподіл студентів подано у табл.6
Таблиця 6.
Оцінки
„2”
„3”
„4”
„5”
Частоти ni
2
5
10
3
Відносні
частоти W i
0,1
0,25
0,5
0,15
У даному випадку оцінка приймає дискретні значення.
Прикладом неперервного розподілу може служити розподіл
росту (табл.5, де (α 1 ,α 2), (α 2 ,α 3), ..., (α m ,α m+1) – інтервали).
Різниці k1 = α 2 - α 1, k2 = α 3 - α 2, …, km = α m+1 - α m –
називаються інтервальними різницями. Часто вибирають k1 = k2 =
...= km = h. Для неперервних розподілів вводиться поняття
щільності розподілу, або щільності частоти
ni
n
 i.
 i 1   i
h
Наприклад, за даними таблиці 3 маємо:
4
23
 0,8;
 4,6 і т.д.
5
5
Результати обчислень щільності частоти записані у таблиці 7
54
Таблиця 7
Щільність частоти
0,8
4,6
2,4
1,8
0,8
0,2
0,2
Інтервал
167,5-172,5
172,5-177,5
177,5-182,5
182,5-187,5
187,5-192,5
192,5-197,5
197,5-202,5
Якщо ми почнемо додавати частоти або відносні частоти,
починаючи з першої варіанти, то отримаємо числа, кожне з яких
називається накопиченими частотами або накопиченими
відносними частотами (див. табл. 8).
Другий стовпець цієї таблиці отриманий із п’ятого стовпця
таблиці 3:
1. 0,074; 2. 0,074 + 0,426 = 0,5; 3. 0,5 + 0,222 = 0,722;
4. 0,722 + 0,167 = 0,889; 5. 0,889 + 0,074 = 0,963;
6. 0,963 + 0,0185 = 0,9815; 7. 0,9815 + 0,0185 = 1,0000.
Таким чином частоти накопичуються, внаслідок чого і
виникла назва. На рис. 1 зображено графік накопичених частот.
Таблиця 8
Ріст
Накопичені
відносні частоти
167,5-172,5
0,074
172,5-177,5
0,5
177,5-182,5
0,722
182,5-187,5
0,889
187,5-192,5
0,963
192,5-197,5
0,9815
197,5-202,5
1
55
Рис. 1
2.2 Графічне зображення статистичних рядів
Означення 1. Ламана лінія, ланки якої з’єднують точки
( x1 ,W1 ), ( x2 , W2 ), . . . , ( x m , Wm ) називається полігоном
відносних частот.
Полігон застосовують для дискретних статистичних рядів.
Нижче подаємо полігон відповідно до табл. 6 (див.§2.1 .
0,6
W
0,5
0,4
0,3
0,2
0,1
х
0
"2"
Можна
побудувати
"3"
"4"
Рис.2
також
полігон
"5"
частот
( x1 , n1 ),
( x2 , n2 ), ..., ( x m , nm ) , але в цьому випадку приходиться все одно
56
змінювати масштаб, бо ni - можуть бути великими, тому краще
брати відносні частоти Wi 
ni
.
N
На рис.3 подаємо полігон відносних частот росту за данними
таблиці 3, які розміщені в 2-му і 5-му стовпцях (див.§2.1, табл.3).
Таким чином, ми отримуємо наочне зображення розподілу росту у
даний вибірці.
Рис. 3.
Означення 2. Комулятивною лінією статистичного ряду
називається ламана лінія, яка побудована за точками
( x k ; n1  n2  ...  nk ).
Кумулятивна крива росту див. на рис. 4.
Рис. 4.
57
Означення 3. Огівою називається ламана лінія, ланки
якої з’єднують точки з координатами ( n1  n2  ...  nk ; xk ).
Огіва росту показана на рис. 5
Рис.5.
Для графічного зображення інтервального розподілу
застосовують гістограму.
Означення 4. Гістограмою частот називають ступінчату
фігуру, яка утворена із прямокутників, основами яких є окремі
інтервали (  i , i 1 ) довжиною h, а висоти дорівнюють
відношенням ni / h (щільність частоти).
Рис. 6
58
На рис.6 зображена гістограма за даними таблиці 3.
Гістограма показує розподіл значень варіант на відповідних
інтервалах. У даному дослідженні розподілу росту можна собі
уявити що на спортивній площадці відмічені у відповідному
масштабі вздовж лінії (осі) інтервали, які відповідають таблиці 3.
Тоді навпроти кожного з інтервалів, що перпендикулярно осі,
вишикувати в ряд тих студентів, ріст яких попав у даний інтервал.
Всі вишикувані ряди починаються на лінії, а закінчуються в
залежності від кількості людей у даному ряду. На площадці
вирисується ступінчата фігура, так звана „жива” гістограма, по
формі подібна до фігури на рисунку 6.
Зауважимо, що площа і-того частинного прямокутника на
рис.6 дорівнює h 
ni ni
- відносній частоті варіанти на і-тому

nh n
інтервалі, а, значить, площа гістограми питомих відносних частот
дорівнює сумі усіх відносних частот, тобто дорівнює одиниці.
Означення 5. Гістограмою питомих відносних частот
називають ступінчату фігуру, утворену із прямокутників,
основами яких є окремі інтервали довжини h, а висоти
дорівнюють відношенню
Wi
(щільність питомої відносної
h
частоти).
2.3. Форма статистичних розподілів
Означення. Розподіл називається симетричним, якщо
частоти всяких двох варіант, рівновіддалених від деякої середньої
варіанти, рівні між собою.
На практиці точного збігу частот всіх варіант,
рівновіддалених від середньої, у більшості немає. Тому
симетричним вважається розподіл, у якого вказані частоти
відрізняються одна від одної незначно.
Часто зустрічаються і несиметричні розподіли. Їх ділять на
три види:
а) помірно асиметричні;
б) крайньо асиметричні;
в) U – подібні.
59
Помірно асиметричні – це такі розподіли у яких частоти
варіант, що знаходяться по одну сторону від найбільшої частоти
більші (менші) частот, рівновіддалених відносно найбільшої
частоти.
Відповідно цьому розрізняють лівосторонню або від’ємну, і
правосторонню або додатну асиметрію. На рис.7 показана
правостороння асиметрія.
Рис.7
Крайньо асиметричні – це такі розподіли, у яких частоти
або весь час зростають (рис.8), або весь час спадають (рис.9).
Рис.8
Рис.9
Розподіл називають U – подібним, якщо полігон
(гістограма) мають вигляд, який зображено на рис. 10.
60
Рис.10.
2.4. Числові характеристики статистичного ряду
2.4.1. Середнє арифметичне
Означення 1. Середнім арифметичним варіаційного ряду
(позначається x ) називається сума значень всіх варіант,
розділена на їх кількість(обсяг вибірки), тобто
x
x1  x2  ...  xn 1 n
  xi
n
n i1
Якщо ж окремі значення варіант
xi
(1)
повторюється з
відповідними частотами ni , то сума (1) запишеться:
1
(( x1  x1  ...  x1 )  ( x 2  x 2  ...  x 2 )  ... 
n
 ( x i  x i  ...  x i )  ...  ( x m  ...  x m )
При x1  x1  ...  x1 = n1 x1 ,
x2  x2  ...  x2 = n2 x 2 ,
        ,
x i  x i  ...  x i = ni x i ,
        ,
x n  ...  x n = nm x m
x
61
Маємо
1
1 m
( x1  n1  x 2  n2  ...  x i ni  ...  x m nm )   x i ni ,
n
n i 1
причому n1  n2  ...  nm  n .
x
Означення 2. Середнім арифметичним статистичного ряду
називається сума добутків значень варіант xi на відповідні
частоти ni , розділена на обсяг вибірки n (суму всіх частот):
x
x1 n1  x 2 n2  ...  x m nm 1 m
  x i ni
n1  n2  ...  nm
n i 1
(2)
Приклад 1. Кожна з двох груп, по 20, студентів здали іспит з
такими результатами
Таблиця 1
„2”
„3”
„4”
„5”
Оцінки, xi
Кількість отриманих оцінок,
0
10
9
1
ni , в I групі
в II групі
4
6
5
5
Знайти середній бал для кожної групи.
Розв’язання. За формулою (2) знаходимо середній бал для
I-ої групи
x1 
2  0  3  10  4  9  5  1 71

 3 ,55 .
20
20
Середній бал для другої групи:
x2 
2  4  3  6  4  5  5  5 71

 3 ,55 .
20
20
Як бачимо сереній бал в обох групах однаковий. В той же час
друга група поступається першій хоча б тим, що має 4
невстигаючих студенти. В першій групі оцінки більше
сконцентровані біля середнього арифметичного значення x1 , в
другій же – вони більш розсіяні відносно середнього x 2 . Отже,
62
необхідні інші характеристики, які б враховували степінь
розсіювання варіант відносно середньоарифметичного значення.
Такими характеристиками є лінійне середнє арифметичне та
дисперсія, які будуть розглядатись у наступних параграфах.
Приклад2. Розподіл місячного заробітку в бригаді робітників
вийшов таким: по 450 грн. заробили 2-є робітників, по 540 грн. – 4,
590грн. – 3-є. Знайти розмір середнього заробітку в бригаді.
Розв’язання. Статистичний ряд має вигляд:
xi
450
540
590
ni
2
4
3
Середнє арифметичне дорівнює
x
450  2  540  4  590  3
 536 ,66 ( грн .).
243
Якщо ж статистичний ряд заданий інтервалами, то за xi
беруть середини інтервалів.
Приклад3. Знайти середній ріст за даними таблиці 3.
Розв’язання.
1
( 170  4  175  23  180  12  185  9  190  4 
54
 195  1  200  1 )  179 ,4.
x
Розглянемо деякі властивості середньої арифметичної
величини.
Теорема1. Якщо всі варіанти збільшити (зменшити) в одне
й те саме число разів, то середня арифметична теж збільшиться
(зменшиться) у стільки ж разів.
Доведення. Нехай x1 , x 2 ,..., x m - варіанти, а n1 , n2 ,..., nm відповідні їхні частоти, тоді за формулою (2) середня арифметична
x
1 m
1 m
 h  x i ni  h  x i ni  h  x .
n i 1
n i 1
63
Теорема2. Якщо всі варіанти збільшити або зменшити на
одне й те саме число, то середня арифметична збільшиться або
зменшиться на те ж саме число.
Доведення. Нехай x1 , x 2 ,..., x m - варіанти, а n1 , n2 ,..., nm відповідні їхні частоти. Розглянемо нові варіанти, наприклад,
 x1  c ,  x 2  c ,...,  x m  c  з тими ж частотами, тоді середня
арифметична їх
 x  c   1  ( x i  c )  ni
m
n i 1
1 m
 x  c   ni  x  c ,
n i 1

1 m
1 m
 x i  ni   c  n j 
n i 1
n i 1
m
оскільки  ni  n .
i 1
Теорема3. Сума добутків відхилень варіант від їх
середньої арифметичної x на відповідні їм частоти ni дорівнює
нулю.
Доведення. Із теореми 2, маємо
1 m
1 m
1 m
 ( x i  x )  ni   x i  ni   x  ni 
n i 1
n i 1
n i 1
m
1
 x  x   ni  x  x  0.
n i 1
2. 4. 2. Спрощений спосіб обчислення середньої арифметичної
Для скорочення обсягу обчислень при знаходженні
середнього арифметичного вводять, так звані, допоміжні варіанти.
При вдалому виборі допоміжних варіант обчислення можна звести
до невеликих цілих чисел.
Пояснимо на прикладах.
Приклад 1. Знайти середнє арифметичне чисел
x1  1241,7 ; x 2  1245 ,7 ; x 3  1246.7 .
64
Розв’язання.
І-ий спосіб. За означенням
x
1241 ,7  1245 ,7  1246 ,7 3734 ,1

 1244 ,7 ;
4
3
ІІ-ий спосіб. Оскільки x1  1240 ,7  1 ; x 2  1240 ,7  5 ;
x 3  1240 ,7  6 , то середнє арифментичне сталої C  1240 ,7 ,
повтореної тричі, є ця ж величина, тому залишається знайти
середнє
арифметичне
для
чисел
u1  1 ,
u2  5 ,
1


u 3  6  u  1  5  6   4  і додати до сталої C результат:
3


x  1240 ,7  4  1244 ,7 .
Приклад 2. Знайти середнє арифметичне статичного ряду
xi
283 ,4
288 ,4
293 ,4
ni
15
29
6
n1  n2  n3 
 15  29  6  50
Розв’язання. Тут варіанти рівновідділені з кроком h  5
288 ,4  283 ,4  293 ,4  288 ,4  5 .
Позначимо через C ту варіанту, якій відповідає найбільша
частота. Це x 2  288 ,4  C , бо її частота n2  29 . Введемо
допоміжну варіанту за формулою
ui 
xi  C
.
h
x 1  C 283 ,4  288 ,4  5


 1 ;
h
5
5
288 ,4  288 ,4
293 ,4  288 ,4
u2 
 0 ; u3 
 1.
5
5
Запишемо статистичний ряд для u1 , u2 , u3 з тими ж
n1  15 , n2  29 , n3  6 ,
частотами
які
відповідають
x1 , x 2 , x 3 :
Тоді: u1 
65
ui
1
ni
15
n1  n2  n3  50
1
0
29
6

Знаходимо середнє арифметичне ui i  1, 3

 1  15  0  29  1  6  9

 0 ,18.
50
50
x C
Оскільки із виразу u 
маємо
h
x  uh  C ,
x  0 ,18  5  288 ,4  0 ,9  288 ,4  287 ,5.
u
то
Можна перевірити, що
x
283 ,4  15  288 ,4  29  293 ,4  6
 287 ,5 .
50
Перейдемо до загального викладу спрощеного способу.
Для статистичного ряду
xm
xi
xi
x1
x2
...
...
ni
ni
nm
...
...
n1
n2
де x 1 , x 2 , ..., x m - рівновіддалені варіанти з кроком
 x 2  x1  x 3  x 2  ...  x m  x m1  h ,
n1  n2  ...  nm  n або
m
 ni  n ,
i 1
знайти середнє арифметичне значення варіант.
Введемо допоміжні варіанти u i за формулою
ui 
xi  C
h
i  1, m ,
(1)
де C -та із варіант x i , якій відповідає найбільша із частот n i .
Складемо статистичний ряд для допоміжних варіант
xi
ui
ni
x1
u1
n1
x1
u2
n2
...
xi
...
xm
...
ui
...
um
...
ni
...
nm
66
m
 ni  n
i 1
h
і знайдемо середнє арифметичне допоміжних варіант
1 m
u   ui ni .
n i 1
(2)
Тоді має місце.
Теорема. Середнє арифметичне значення основних
рівновіддалених з кроком h варіант дорівнює добутку середнього
арифметичного допоміжного ряду на крок h плюс значення тієї
варіанти, якій відповідає найбільша із частот ряду, тобто
(3)
x  uh  C .
Доведення. Із заміни (формула (1)) знаходимо
x i  ui h  C
і підставляємо у формулу середнього арифметичного.
x
1 m
1 m
1 m
x i ni   ui h  C ni   ui ni h  Cni  

h i 1
n i 1
n i 1
h
1 m
1 m
ui ni  C  ni  hu  C .

n i `
n i 1
Отже, формула (3) доведена.
Приклад 3. Знайти середнє арифметичне за даними таблиці
3 (див. § 2.1, табл. 3), використовуючи спрощений спосіб,
xi
170
175
180
185
190
195
200
ni
4
23
12
9
4
1
1
 ni  54 .
Розв’язання. Найбільшою частотою у таблиці є n2 =23, їй
відповідає варіанта x 2 =175, позначимо її через С , крок для
рівновіддалених варіант
h  5 175  170  180  175  ...  200  195  5  .
Вводимо допоміжні варіанти
ui 


x i  C x i  175
170  175

i  1, 7 : u1 
 1 ,
h
5
5
67
u2 
ui
ni
175  175
180  175
185  175
 0 , u3 
 1 , u4 
 2,
5
5
5
u5  3 , u6  4 , u7  5.
Запишемо новий статистичний ряд
-1
0
1
2
3
4
23
12
9
4
4
5
1
1
Знаходимо
u
1
 1  4  0  23  1  12  2  9  3  4  4  1  5  1 
54
1
 4  12  18  12  4  5   47  0 ,8703 .

54
54
Тоді за формулою (3)
x  u  h  C  0 ,8703  5  175  4 ,35  175  179 ,4 .
Отже, підтвердилось значення, знайдене раніше у прикладі
3 §2. 4. 1.
2.4.3. Середнє лінійне відхилення
У таблиці 1 (див. § 2.4.1, приклад 1) вже приводились
результати здачі іспита у двох групах по 20 студентів в кожній.
Оцінки xi
Кількість оцінок у
І групі
Кількість оцінок у
ІІ групі
Таблиця 1
“5”
“2”
“3”
“4”
0
10
9
1
4
6
5
5
За даними таблиці було установлено, що середні бали у цих
групах однакові ( x1  x 2  3 ,55 ), тому для більш детального
вивчення статистичних рядів необхідно враховувати розсіювання
варіант відносно середнього арифметичного.
Для характеристики розсіювання використовуються середнє
лінійне відхилення, а також дисперсія.
68
Означення. Середнім лінійним відхиленням називається
середнє арифметичне абсолютних величин відхилень варіант від їх
середньої арифметичної
m
d
 x i  x  ni
i 1
n
.
(1)
Приклад. За даними таблиці 1 знайти середні лінійні
відхилення.
Розв’язання.
Оскільки середні арифметичні вже відомі x1  x 2  3 ,55 , то
за формулою (1) знаходимо
1
 2  3 ,55  0  3  3 ,55  10  4  3 ,55  9  5  3 ,55  1 
d1 
20
1
0  0 ,55  10  0 ,45  9  1,45  1  1 5 ,50  4 ,05  1,45  11  0 ,55.

20
20
20
1
 2  3 ,55  4  3  3 ,55  6  4  3 ,55  5  5  3 ,55  5 
20
1
1,55  4  0 ,55  6  0 ,45  5  1,45  5  19  0 ,95.

20
20
Отже, d1  0,55 , d 2  0 ,95 ; d1  d 2 , і це означає, що
d2 
значення варіант (оцінок) у другій групі більш розсіяні ніж у
першій.
2.4.4. Дисперсія. Середнє квадратичне відхилення
Означення
1.
Дисперсією
або
розсіюванням
статистичного ряду називається середнє арифметичне
квадратів відхилень варіант від їх середньої, тобто
D 2 
1 m
 ( x i  x ) 2 ni ,
n i 1
(1)
Приклад 1. В умовах прикладу 1 (див.2.4.1) знайти
дисперсії для кожної із груп.
69
Роз’язання. Оскільки у прикладі 1 (див. 2.4.1) відомі
середні арифметичні для кожної із груп і x1  x 2  3 ,55 , то тепер
за формулою (1) обчислюємо дисперсії:
1
(( 2  3 ,55 )2  0  ( 3  3 ,55 )2  10  ( 4  3 ,55 )2  9 
20
 ( 5  3 ,55 )2  1 ) 
1
6 ,95

( 2 ,4025  0  0 ,3025  10  0 ,2025  9  2 ,1025  1 ) 

20
20
 0 ,3475  0 ,35.
1
D2 
( 2 ,4025  4  0 ,3025  6  0 ,2025  6  2 ,1025  5 ) 
20
22 ,95

 1 ,1475  1 ,15.
20
Отже, порівнюючи дисперсії D1  0,35 і D2  1,15 можна
стверджувати, що розсіювання варіант x i відносно середньої
D1 
x  3,55 у ІІ-ій групі більше, ніж у І-ій. Це видно із таблиць в
умові прикладу 1 (див. у 2.4.1).
Означення
2.
Арифметичне
значення
кореня
квадратного із дисперсії називається середнім квадратичним
відхиленням, тобто
  D
1 m
 ( x i  x ) 2 ni .
n i 1
(2)
Слід вімітити, що тоді, коли розмірність дисперсії D
дорівнює квадрату розмірності варіант x i , то
розмірність
середнього арифметичного  якраз збігається з розмірністю
варіант.
Приклад 2. За значенням дисперсій, знайдених у прикладі1,
обчислити середні квадратичні відхилення.
Роз’язання. Згідно формули (2) маємо
 1  D1  0,3475  0,59 ;  2  D2  1,1475  1,07 .
70
Порівнюючи ці значення з відповідними середніми лінійними
відхиленнями (див. 2.4.3 , приклад 4) d1  0,55 і d 2  0 ,95 , ми
бачимо, що  1 і d 1 ,  2 і d 2 майже однакові за своїм порядком. У
загальному випадку можна довести, що
d  ,
тобто середнє лінійне відхилення не перевищує середнього
квадратичного. У теорії ймовірностей і математичній статистиці
перевагу над середніми лінійними віддають дисперсії. Це, зокрема,
пов’язано з тим, що перетворювати суми, які містять квадрати
величин, простіше ніж суми, які містять модулі цих величин.
Перевага ця стане зрозумілою, коли ми з метою спрощення
обчислень дисперсії перейдемо від основних варіант до
допоміжних, а також при вивченні властивостей дисперсій.
2.4.5. Властивості дисперсії
Теорема 1. Якщо всі варіанти збільшити або зменшити у
h разів, то дисперсія збільшиться або зменшиться у h2 разів.
Доведення. Враховуючи відповідну властивість для
середньої арифметичної (див. в 2.4.1), маємо
1 m
1 m 2
2
(
hx

h
x
)
n

h ( x i  x ) 2  ni  h 2  D .


i
i
n i 1
n i 1
Теорема 2. Збільшення або зменшення варіант на одну й
ту ж сталу величину не змінює дисперсію,


2
1 m
1 m
(
x

c
)

(
x

c
)

n

( x i  x ) 2 ni .


i
i
n i 1
n i 1
Теорема 3. При збільшенні або зменшенні частот в одне
й те ж число разів дисперсія не зміниться
m
 ( x i  x )2  hni
i 1
m
 hni

1 m
( x i  x ) 2 ni .

n i 1
i 1
Позначимо середнє арифметичне квадратів варіант через
x2 ,
71
x2 
1 m 2
 x i ni .
n i 1
(1)
Теорема 4. Дисперсія дорівнює середній арифметичній
квадратів варіант без квадрата середньої арифметичної, тобто
D  x 2  ( x)2 .
(2)
Дійсно, перетворюючи вираз для дисперсії, отримаємо
1 m
1 m 2
2
2
 ( x i  x )  ni   ( x i  2 x i x  ( x ) )  ni 
n i 1
n i 1
m
m
1
1
1 m
  x i2 ni  2 x   x i ni  ( x ) 2   ni 
n i 1
n i 1
n i 1
D
 x 2  2 x  x  ( x )2  x 2  ( x )2 .
Отже, рівність (2) доведена.
Із рівності (2) знаходимо
  D  x 2  ( x)2
- формулу
відхилення.
для
обчислення
(3)
середнього
квадратичного
2.4.6. Спрощений спосіб обчислення дисперсії
У параграфі 2.4.2 було розглянуто, як за допомогою
допоміжних варіант u i ,
xi  C
,
h
1 m
(1)
 ui ni ,
n i 1
(h – відстань між варіантами або крок вибірки, С– значення тієї
де
ui 
u
варіанти, якій відповідає найбільша частота) знаходиться середнє
арифметичне
Du
(2)
x  uh  C .
Позначимо через Dx – дисперсію основних варіант, і через
– дисперсію допоміжних варіант, а середні квадратичні
відхилення відповідно позначимо  x 
D x і  u  Du .
Теорема. Дисперсія основних варіант дорівнює добутку
дисперсії допоміжних варіант на квадрат кроку цієї вибірки,
72
D x  Du  h 2 ,
(3)
а середнє квадратичне відхилення основних варіант дорівнює
добутку середнього квадратичного відхилення допоміжних
варіант на крок вибірки,
(4)
 x   u  h,
де D x 
Du 
1 m
( x i  x ) 2 ni  x 2  ( x ) 2 ,

n i 1
1 m
( u i  u ) 2 ni  u 2  ( u ) 2 ,

n i 1
u2 
(5)
1 m 2
 ui ni .
n i 1
Доведення. Оскільки із формул (1) і (2) x i  ui h  C , а
x  uh  C , то квадрат різниці
( x i  x )2  ( ui h  C  uh  C )2  ( ui  u )2  h2 .
Тому
Dx 
1 m
1 m
2
(
x

x
)
n

( u i  u ) 2 n i h 2  Du  h 2 .


i
i
n i 1
n i 1
Формула (3) доведена, а добувши арифметичний корінь
квадратний у рівності (3), отримаємо (4).
Приклад.
Користуючись
допоміжними
варіантами
обчислити дисперсію та середнє квадратичне відхилення за даними
статистичного ряду, даного у прикладі 3 (див. 2.4.2.).
Роз’язання. Перепишемо заново таблицю 2 із заданого
прикладу, добавивши ще два стовпці ui2 і ui2  ni . Отримаємо
розширену таблицю
№ з/п
ui
ni
ui  ni
ui2
ui2  ni
1.
2.
3.
4.
5.
-1
0
1
2
3
4
23
12
9
4
-4
0
12
18
12
1
0
1
4
9
4
0
12
36
36
73
6.
7.
Суми
4
5
1
1
54
4
5
47
16
25
16
25
129
За формулою (5) даного параграфа знайдемо дисперсію допоміжної
варіанти за даними таблиці. Спочатку обчислимо
u
47
129
 0 ,87037 ; u 2 
 2,38888 ,
54
54
Du  2 ,388888  0 ,87037  2 ,38888  0 ,75754  1,6313
2
Dx  Du  h2  1,6313  25  40 ,7837 .
 x  D x  40 ,7837  6 ,39 .
2.4.7. Медіана статистичного ряду
Означення. Медіаною M e  називається варіанта, яка
находиться посередині варіаційного ряду.
Тобто медіаною є та варіанта, яка ділить варіаційний ряд на
дві рівні за обсягом сукупності. До медіани і після неї однакова
кількість членів варіаційного ряду. При знаходженні медіани
дискретного ряду слід розрізняти два випадки:
1) обсяг сукупності непарний;
2) обсяг сукупності парний.
Нехай обсяг сукупності непарний і дорівнює 2m  1 тобто
x1 , x 2 , ..., x m 1 , x m , x m 1 , ..., x 2m 1 .
У цьому ряду кожна варіанта повторена стільки разів,
скільки вона зустрічається в обсязі, тому серед них можуть бути і
однакові. Медіаною цього розподілу є варіанта з номером m ,
оскільки вона знаходиться посередині ряду, до і після неї
знаходиться по m  1 варіант, тобто
M e  xm .
(1)
Якщо обсяг сукупності парний, дорівнює m , то немає
варіанти, яка б ділила варіаційний ряд на дві рівні частини,. тому за
медіану умовно приймають близькі до середини. Ними будуть
варіанти з номером m 2m : 2  m  і номером m  1 , тобто
74
Me 
1
 x m  x m 1  .
2
(2)
Приклад. Знайти медіану варіаційного ряду, заданого
таблицею 2 параграфа 2. 1.
Розв’язання. За даними таблиці 2 кількість варіант
2m  54 , тому m  27 , а m  1  28 . Під номером m  27
знаходяться значення x 27  177 , воно розміщене у ІІІ-му стовпці
табл. 2, і за ним зразу ж наступне x 28  178 , тому
Me 
1
 x 27  x 28   1 177  178  177 ,5 .
2
2
Відмітимо, що середня арифметична змінюється із зміною
всякої варіанти, і вона особливо чутлива до зміни крайніх варіант.
На значенні медіани зовсім не відбиваються зміни значень крайніх
варіант, якщо тільки при цих змінах варіанти продовжують
залишатись по тіж самі сторони відносно медіани.
Ця властивість медіани робить її більш вірною
характеристикою варіаційного ряду в тих випадках, коли кінці
розподілу за певних причин неточні або ненадійні.
2.4.8. Мода
Означення. Модою M 0  називається варіанта, яка
найбільш часто зустрічається.
Для дискретного розподілу знаходження моди не вимагає
якихось обчислень: нею є варіанта, якій відповідає найбільша
частота.
Зауважимо, що при спрощеному обчисленні середнього
арифметичного та дисперсії за допомогою умовних варіант, ми за
сталу C вибирали якраз моду.
Приклад. Дано розподіл оцінок студентів при перевірці
знань з даного розділу
Оцінки
„2”
„3”
„4”
„5”
Кількість студентів
13
4
4
5
Знайти моду, середній бал. Визначити чи достатньо
засвоєний матеріал.
75
Розв’язання. Найбільшою серед частот є n1  13 їй
відповідає x1  2  M 0 - мода,
M0  2 .
Знайдемо середний бал
1
79
( 2  13  3  3  4  4  5  5 ) 
 3 ,04 .
26
26
Хоча середний бал x  3,04 відповідає задовільній оцінці, однак
x
оскільки мода M 0  2  x  3 ,04 , то це означає що 13 студентів
(половина групи) матеріал не засвоїла, а про всю групу можна
сказати, що матеріал засвоєний недостатньо.
Біля моди групуються і інші варіанти з великими частотами,
тому вона виявляє те значення ознаки, біля якого групується більша
частина обсягу вибірки.
2.4.9. Коефіцієнт варіації
Щоб охарактеризувати, наскільки добре представляє середня
арифметична статистичний ряд, використовують коефіцієнт
варіації, який дорівнює вираженому у процентах відношенню
середнього
квадратичного
відхилення
і
середнього
арифметичного:
V 

x
 100%
(1)
Якщо статистичні ряди мають однакові середні арифметичні,
то середнє арифметичне з меншим коефіцієнтом варіації є більш
представлюваним.
Наприклад, у §2.4.3. (приклади 1 та 2) ми розглядали
результати здачі єкзамена у двох групах. Там знайшли середні
квадратичні відхилення
 1  0,59 і  2  1,07
при середніх арифметичних
x 1  x 2  3 ,55 .
Тепер їхні коефіцієнти варіації запищуться:
V1 
1
x1
 100% 
0 ,59
 100%  16 ,62% ,
3 ,55
76
V2 
2
x2
 100% 
1,07
 100%  30 ,14% ;
3 ,55
k1  k 2 .
Якщо полігон статистичного ряду не має значних скошень у
ліву чи праву сторону, і досліджувана ознака може приймати тільки
додатні значення, то V  30% . Якщо коефіцієнт варіації
V  100% , то, як правило, можна зробити висновок, що
спостереження неоднорідні.
2. 5. Моменти статистичного ряду
Означення. Початковим моментом V k* статистичного
ряду порядку k називається середня арифметична k -тих
степенів варіант, тобто
Vk* 
При k  0
порядку:
1 m k
k
 x i ni  x .
n i 1
отримаємо початковий момент нульового
V0* 
1 m 0
1 m
 x i ni   ni  1 .
n i 1
n i 1
Якщо k  1 , то
порядку:
V1* 
(1)
отримаємо початковий момент першого
1 m
 x i ni  x - це є середнє арифметичне.
n i 1
Означення. Центральним моментом M k* статистичного
ряду k -того порядку називаються середнє арифметичне k - тих
степенів відхилень варіант від їх середньої
M k*
k
1 m


  x i  x ni .
n i 1
(2)
Якщо k  0 , то отримаємо центральний момент нульового
порядку.
M 0* 
1 m
1
0
  x i  x  ni   1 .
n i 1
n
При k  1 маємо центральний момент першого порядку
77
M 1* 
1 m
  x i  x ni  0 ,
n i 1
бо за теоремою 3 про властивості середнього арифметичного
  x i  x ni  0 .
m
i 1
Центральний момент другого порядку запишеться у
вигляді:
M 2* 
1 m
 x i  x 2  ni   2

n i 1
це дисперсія статистичного ряду.
2. 6. Асиметрія і ексцес
Означення. Коефіцієнтом асиметрії A називається
відношення центрального моменту третього порядку до кубу
середнього квадратичного відхилення:
A
M 3*

3

1

3
m
 x i  x 3 ni .

n
(1)
i 1
Якщо у варіаційному ряді переважають варіанти більші ніж
x , то коефіцієнт асиметрії додатній, і має місце правостороння
асиметрія, див. рис. 1. 2.
а)
б)
Рис. 1
Означення. Ексцесом або коефіцієнтом крутості E
називається зменшене на 3 одиниці відношення центрального
78
моменту четвертого порядку до четвертого степеня середнього
квадратичного відхилення:
E
M 4*

4
3

4
m
 x i  x 4 ni  3 .

n
1
(2)
i 1
За стандартне значення ексцесу приймають E  0 . Криві, у
яких E  0 , у порівнянні із нормальною кривою менш круті і
називаються плоско вершинними (див. рис. 2.б).
Криві, у яких E  0 , більш круті, мають більш гостру
вершину і називаються гостровершинними (див. рис. 2.а)
а)
б)
Рис 2.
Задачі до глави II
1. Протягом 5 днів температура повітря складала 3  , 5  , 4  , 1  , 2  .
Знайти середню температуру повітря.
2. Відомі оцінки учнів в сумі балів за 3 іспити 10, 10, 11, 9, 15, 12, 9,
12, 13, 9, 8, 11, 14, 13, 12, 9. Побудувати полігон, гістограму,
кумуляту, огіву. Знайти x , M 0 , M e , D .
3. Дано розподіл оцінок студентів
Оцінки
Кількість
студентів
2
3
4
5
17
4
7
6
Визначити, чи достатньо засвоєний матеріал?
У задачах 4, 5 скласти емпіричну функцію розподілу і
побудувати її графік.
79
4.
5.
xi
4
7
8
12
ni
5
2
3
10
xi
2
5
7
8
ni
1
3
2
4
6. Для ряду, який задано на інтервалах, знайти
Інтервали 36- 38- 40- 42- 44- 4638 40 42 44 46 48
2
5
6
8
12 28
ni
7. Знайти M 0 , M e .
x i 2,6 3,0 3,4
ni
8
20
45
3,8
4,2
15
12
D,  , M0 , Me .
48- 50- 52- 54- 5650 52 54 56 58
21 14 7
3
1
8. Знайти x , . Побудувати гістограму відносних частот і функцію
F ( x ) - відносних накопичених частот.
Урожайн.
9-12
12-15 15-18 18-21 21-24 24-27
Жита (у/га)
Ділянки в
6
12
33
22
19
8
гектпрах
x  10.54 , M 0  10 , M e  10 ,
D  5.85 . 3. Ні, оскільки x  3 , але M 0  2 (найбільш часто
зустрічається оцінка “2”). 6. x  47.21 ; D  16.46 ;   4.06 ;
M 0  47.4 ; M e  47.46 . 7. A  0.18 ; E  0.75 . 8.
x  18 ,3 ;   5.03 .
Відповіді. 1.
3 . 2.
80
Скачать