Глава ІІ 2.1. Вибірка. Варіаційний та статистичний ряди У попередній главі розглядалось статистичне означення ймовірності з використанням статистичних рядів. Прикладами їх були таблиці 2 і 3 у § 1.4. Як складаються статистичні ряди? Які числові характеристики для аналізу статистичного ряду необхідно знаходити? Як для наочності статистичний ряд описують графічно? Коротко ці питання будемо тут розглядати. Нехай при одних і тих же умовах здійснено n випробувань і кожного разу фіксуються значення певної спостережуваної величини. Отримані у результаті випробувань числа x1 , x2 ,..., xn називаються вибіркою. Загальне число елементів або одиниць називається обсягом вибірки. Методи обробки даних вибірки відносять до математичної статистики, яка опирається на апарат теорії ймовірностей. Математична статистика для економічних спеціальностей вивчається окремим курсом. Ми тут розглянемо ті моменти математичної статистики, які допоможуть студентам краще усвідомити таке поняття теорії ймовірностей, як розподіл випадкових величин. Перейдемо до більш детального вивчення поняття вибірки. Елементи вибірки можуть характеризуватися однією або кількома ознаками. Так швейні підприємства при випуску одягу враховують попит покупців на той чи інший розмір і зріст. Для більш точного прогнозування потрібно знайти закони розподілу таких ознак як розмір і ріст серед маси населення. Розмір у свою чергу залежить від співвідношення між ростом і вагою конкретної особи. Нижче подаємо вибірку конкретних даних росту і ваги 54 студентів другого курсу однієї із спеціальностей. Розглянемо основні моменти обробки статистичного матеріалу: побудова статистичного та варіаційного рядів, обчислення основних числових характеристик, графічне зображення розподілу росту, ваги(гістограми) та ін. В таблиці 1 записані дані вибірки згідно з порядком їх надходжень 49 № п.п 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. Ріст Вага 175 175 173 182 187 177 171 183 182 175 178 176 192 176 176 175 173 180 65 60 60 82 85 92 80 83 63 63 70 74 76 65 65 68 64 70 № п.п 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. Ріст Вага 177 180 188 180 183 183 178 175 201 170 182 177 180 178 170 175 170 174 60 67 70 73 75 83 79 65 93 57 71 75 77 85 68 74 55 72 № п.п 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. Таблиця 1 Ріст Вага 192 175 177 174 186 183 175 186 189 194 175 182 175 177 178 186 175 186 82 60 63 60 69 72 62 70 108 75 70 65 65 78 65 70 65 70 Із таблиці видно, що ознаки значення росту і ваги змінюються, або, як кажуть, варіюються при переході від одного номера до іншого. Якщо б не було цього варіювання, і ознака приймала б одне й теж значення, то не було б потреби у проведенні дослідження. Значення ознаки в окремих членів сукупності (даних таблиці) будемо називати варіантами. Після збору початкового матеріалу варіанти упорядковують у порядку зростання (або спадання). У таблиці 2 виписані варіанти росту із таблиці 1 у порядку їх зростання. Окремі варіанти повторюються по кілька разів. x1 , x 2 ,..., x n Таблиця, в якій елементи вибірки упорядковуються за величиною x ( 1 ) x ( 2 ) ... x ( n ) їх зростання (або спадання) називається варіаційним рядом. Процес упорядкування елементів (вибірки) за зростанням (за спаданням) називається ранжуванням ряду. 50 Ріст 170 170 170 171 173 173 174 174 175 175 175 Ріст 175 175 175 175 175 175 175 175 176 176 176 Ріст 177 177 177 177 177 178 178 178 178 180 180 Ріст 180 180 182 182 182 182 183 183 183 183 186 Таблица 2 Ріст 186 186 186 187 188 189 192 192 194 201 Отже таблиця 2 - це варіаційний ряд. Різниця між максимальним( xmax ) і мінімальним( xmin ) – елементами вибірки або варіаційного ряду називається розмахом вибірки, позначимо R x max x min . Значення росту із таблиці 2 зручніше вивчати, якщо їх помістити у таблицю 3, яка будується так. Всі дані вибірки(див. табл. 2) розбиваються на групи. Кількість груп знаходиться наближено за формулою Стерджесса n 1 3.3221 lg N , де N – обсяг вибірки(тут N=54, lg54=1,7324, n 1+5,7550 7, n=7 груп). Кожній групі відповідає інтервал( i , i 1 ) з центром у точці xi . Довжину інтервалу знаходять за формулою h x max x min R n n де R x max x min - розмах вибірки. 51 На практиці зручно, щоб h було цілим числом, тому розмах [(170,201)] збільшимо, взявши x min 167 , а x max 202 , оскільки цілком можливо, що серед обслідуваних в іншому потоці міг би зустрітися ріст 167 і 202. таким чином маємо 202 167 35 5 7 7 Центри інтервалів виберемо у точках: 170, 175, 180, 185, 190, 195, 200. Тоді кінці інтервалів будуть 1;2 167,5;172,5, 2 ;3 172,5;177,5 і т.д. h Дані варіаційного ряду (табл. 2) розбиваються на 7 груп (інтервалів) із указаними центрами і поміщаються у таблицю 3. № Варіанти xi 1 2 3 4 5 6 7 170 175 180 185 190 195 200 Інтервали ( i , i 1 ) Частоти Відносні частоти ni 167,5-172,5 172,5-177,5 177,5-182,5 182,5-187,5 187,5-192,5 192,5-197,5 197,5-202,5 wi 4 23 12 9 4 1 1 0,074 0,426 0,222 0,167 0,074 0,0185 0,0185 Таблиця 3 Питомі відносні частоти w'i 0,0148 0,085 0,044 0,033 0,0148 0,0037 0,037 У другому стовпці табл. 3 записані центри xi інтервалів ( i , i 1 ) , які розміщені у стовпці 3. У четвертому стовці поміщені частоти ni , тобто кількість значень росту із таблиці 2, які 7 попадають у і-тий інтервал. Очевидно, що ni N . У п’ятому i 1 стовпці поміщені відповідні відносні частоти 52 wi ni . N У шостому стовпці поміщені питомі відносні частоти w'i wi , h де h – довжина інтервалу ( i , i 1 ), h i 1 i . У нашому випадку h=5. Отже, кожному інтервалу ( i , i 1 ) приписується значення x i - (центр інтервалу), яке вважається, що воно повторюється n i раз. Означення. Статистичним рядом називається послідовність пар ( x i , ni ). Записується у вигляді таблиці, один рядок якої містить елементи x i , а другий – їх частоти n i (таку таблицю можно скласти із другого і четвертого стовпців таблиці 3). У загальному вигляді це табл. 4 Варіанти Таблиця 4 Частоти Таблиця 5 Частоти xi ni Значення ознаки x1 n1 від α1 до α2 n1 x2 n2 від α2 до α3 n2 : : : : xi ni : : : : : : xn nn від αm до αm+1 nm 53 ni Зауваження. Іноді частоту називають вагою. У залежності від того, які значення може приймати досліджувана ознака, статистичні ряди діляться на дискретні та інтервальні (неперервні). Тоді, коли досліджувана ознака приймає тільки дискретні (ізольовані) значення, то статистичний ряд такого типу називається дискретним (табл.4). Наприклад, група із 20 студентів склали іспит. За отриманими оцінками розподіл студентів подано у табл.6 Таблиця 6. Оцінки „2” „3” „4” „5” Частоти ni 2 5 10 3 Відносні частоти W i 0,1 0,25 0,5 0,15 У даному випадку оцінка приймає дискретні значення. Прикладом неперервного розподілу може служити розподіл росту (табл.5, де (α 1 ,α 2), (α 2 ,α 3), ..., (α m ,α m+1) – інтервали). Різниці k1 = α 2 - α 1, k2 = α 3 - α 2, …, km = α m+1 - α m – називаються інтервальними різницями. Часто вибирають k1 = k2 = ...= km = h. Для неперервних розподілів вводиться поняття щільності розподілу, або щільності частоти ni n i. i 1 i h Наприклад, за даними таблиці 3 маємо: 4 23 0,8; 4,6 і т.д. 5 5 Результати обчислень щільності частоти записані у таблиці 7 54 Таблиця 7 Щільність частоти 0,8 4,6 2,4 1,8 0,8 0,2 0,2 Інтервал 167,5-172,5 172,5-177,5 177,5-182,5 182,5-187,5 187,5-192,5 192,5-197,5 197,5-202,5 Якщо ми почнемо додавати частоти або відносні частоти, починаючи з першої варіанти, то отримаємо числа, кожне з яких називається накопиченими частотами або накопиченими відносними частотами (див. табл. 8). Другий стовпець цієї таблиці отриманий із п’ятого стовпця таблиці 3: 1. 0,074; 2. 0,074 + 0,426 = 0,5; 3. 0,5 + 0,222 = 0,722; 4. 0,722 + 0,167 = 0,889; 5. 0,889 + 0,074 = 0,963; 6. 0,963 + 0,0185 = 0,9815; 7. 0,9815 + 0,0185 = 1,0000. Таким чином частоти накопичуються, внаслідок чого і виникла назва. На рис. 1 зображено графік накопичених частот. Таблиця 8 Ріст Накопичені відносні частоти 167,5-172,5 0,074 172,5-177,5 0,5 177,5-182,5 0,722 182,5-187,5 0,889 187,5-192,5 0,963 192,5-197,5 0,9815 197,5-202,5 1 55 Рис. 1 2.2 Графічне зображення статистичних рядів Означення 1. Ламана лінія, ланки якої з’єднують точки ( x1 ,W1 ), ( x2 , W2 ), . . . , ( x m , Wm ) називається полігоном відносних частот. Полігон застосовують для дискретних статистичних рядів. Нижче подаємо полігон відповідно до табл. 6 (див.§2.1 . 0,6 W 0,5 0,4 0,3 0,2 0,1 х 0 "2" Можна побудувати "3" "4" Рис.2 також полігон "5" частот ( x1 , n1 ), ( x2 , n2 ), ..., ( x m , nm ) , але в цьому випадку приходиться все одно 56 змінювати масштаб, бо ni - можуть бути великими, тому краще брати відносні частоти Wi ni . N На рис.3 подаємо полігон відносних частот росту за данними таблиці 3, які розміщені в 2-му і 5-му стовпцях (див.§2.1, табл.3). Таким чином, ми отримуємо наочне зображення розподілу росту у даний вибірці. Рис. 3. Означення 2. Комулятивною лінією статистичного ряду називається ламана лінія, яка побудована за точками ( x k ; n1 n2 ... nk ). Кумулятивна крива росту див. на рис. 4. Рис. 4. 57 Означення 3. Огівою називається ламана лінія, ланки якої з’єднують точки з координатами ( n1 n2 ... nk ; xk ). Огіва росту показана на рис. 5 Рис.5. Для графічного зображення інтервального розподілу застосовують гістограму. Означення 4. Гістограмою частот називають ступінчату фігуру, яка утворена із прямокутників, основами яких є окремі інтервали ( i , i 1 ) довжиною h, а висоти дорівнюють відношенням ni / h (щільність частоти). Рис. 6 58 На рис.6 зображена гістограма за даними таблиці 3. Гістограма показує розподіл значень варіант на відповідних інтервалах. У даному дослідженні розподілу росту можна собі уявити що на спортивній площадці відмічені у відповідному масштабі вздовж лінії (осі) інтервали, які відповідають таблиці 3. Тоді навпроти кожного з інтервалів, що перпендикулярно осі, вишикувати в ряд тих студентів, ріст яких попав у даний інтервал. Всі вишикувані ряди починаються на лінії, а закінчуються в залежності від кількості людей у даному ряду. На площадці вирисується ступінчата фігура, так звана „жива” гістограма, по формі подібна до фігури на рисунку 6. Зауважимо, що площа і-того частинного прямокутника на рис.6 дорівнює h ni ni - відносній частоті варіанти на і-тому nh n інтервалі, а, значить, площа гістограми питомих відносних частот дорівнює сумі усіх відносних частот, тобто дорівнює одиниці. Означення 5. Гістограмою питомих відносних частот називають ступінчату фігуру, утворену із прямокутників, основами яких є окремі інтервали довжини h, а висоти дорівнюють відношенню Wi (щільність питомої відносної h частоти). 2.3. Форма статистичних розподілів Означення. Розподіл називається симетричним, якщо частоти всяких двох варіант, рівновіддалених від деякої середньої варіанти, рівні між собою. На практиці точного збігу частот всіх варіант, рівновіддалених від середньої, у більшості немає. Тому симетричним вважається розподіл, у якого вказані частоти відрізняються одна від одної незначно. Часто зустрічаються і несиметричні розподіли. Їх ділять на три види: а) помірно асиметричні; б) крайньо асиметричні; в) U – подібні. 59 Помірно асиметричні – це такі розподіли у яких частоти варіант, що знаходяться по одну сторону від найбільшої частоти більші (менші) частот, рівновіддалених відносно найбільшої частоти. Відповідно цьому розрізняють лівосторонню або від’ємну, і правосторонню або додатну асиметрію. На рис.7 показана правостороння асиметрія. Рис.7 Крайньо асиметричні – це такі розподіли, у яких частоти або весь час зростають (рис.8), або весь час спадають (рис.9). Рис.8 Рис.9 Розподіл називають U – подібним, якщо полігон (гістограма) мають вигляд, який зображено на рис. 10. 60 Рис.10. 2.4. Числові характеристики статистичного ряду 2.4.1. Середнє арифметичне Означення 1. Середнім арифметичним варіаційного ряду (позначається x ) називається сума значень всіх варіант, розділена на їх кількість(обсяг вибірки), тобто x x1 x2 ... xn 1 n xi n n i1 Якщо ж окремі значення варіант xi (1) повторюється з відповідними частотами ni , то сума (1) запишеться: 1 (( x1 x1 ... x1 ) ( x 2 x 2 ... x 2 ) ... n ( x i x i ... x i ) ... ( x m ... x m ) При x1 x1 ... x1 = n1 x1 , x2 x2 ... x2 = n2 x 2 , , x i x i ... x i = ni x i , , x n ... x n = nm x m x 61 Маємо 1 1 m ( x1 n1 x 2 n2 ... x i ni ... x m nm ) x i ni , n n i 1 причому n1 n2 ... nm n . x Означення 2. Середнім арифметичним статистичного ряду називається сума добутків значень варіант xi на відповідні частоти ni , розділена на обсяг вибірки n (суму всіх частот): x x1 n1 x 2 n2 ... x m nm 1 m x i ni n1 n2 ... nm n i 1 (2) Приклад 1. Кожна з двох груп, по 20, студентів здали іспит з такими результатами Таблиця 1 „2” „3” „4” „5” Оцінки, xi Кількість отриманих оцінок, 0 10 9 1 ni , в I групі в II групі 4 6 5 5 Знайти середній бал для кожної групи. Розв’язання. За формулою (2) знаходимо середній бал для I-ої групи x1 2 0 3 10 4 9 5 1 71 3 ,55 . 20 20 Середній бал для другої групи: x2 2 4 3 6 4 5 5 5 71 3 ,55 . 20 20 Як бачимо сереній бал в обох групах однаковий. В той же час друга група поступається першій хоча б тим, що має 4 невстигаючих студенти. В першій групі оцінки більше сконцентровані біля середнього арифметичного значення x1 , в другій же – вони більш розсіяні відносно середнього x 2 . Отже, 62 необхідні інші характеристики, які б враховували степінь розсіювання варіант відносно середньоарифметичного значення. Такими характеристиками є лінійне середнє арифметичне та дисперсія, які будуть розглядатись у наступних параграфах. Приклад2. Розподіл місячного заробітку в бригаді робітників вийшов таким: по 450 грн. заробили 2-є робітників, по 540 грн. – 4, 590грн. – 3-є. Знайти розмір середнього заробітку в бригаді. Розв’язання. Статистичний ряд має вигляд: xi 450 540 590 ni 2 4 3 Середнє арифметичне дорівнює x 450 2 540 4 590 3 536 ,66 ( грн .). 243 Якщо ж статистичний ряд заданий інтервалами, то за xi беруть середини інтервалів. Приклад3. Знайти середній ріст за даними таблиці 3. Розв’язання. 1 ( 170 4 175 23 180 12 185 9 190 4 54 195 1 200 1 ) 179 ,4. x Розглянемо деякі властивості середньої арифметичної величини. Теорема1. Якщо всі варіанти збільшити (зменшити) в одне й те саме число разів, то середня арифметична теж збільшиться (зменшиться) у стільки ж разів. Доведення. Нехай x1 , x 2 ,..., x m - варіанти, а n1 , n2 ,..., nm відповідні їхні частоти, тоді за формулою (2) середня арифметична x 1 m 1 m h x i ni h x i ni h x . n i 1 n i 1 63 Теорема2. Якщо всі варіанти збільшити або зменшити на одне й те саме число, то середня арифметична збільшиться або зменшиться на те ж саме число. Доведення. Нехай x1 , x 2 ,..., x m - варіанти, а n1 , n2 ,..., nm відповідні їхні частоти. Розглянемо нові варіанти, наприклад, x1 c , x 2 c ,..., x m c з тими ж частотами, тоді середня арифметична їх x c 1 ( x i c ) ni m n i 1 1 m x c ni x c , n i 1 1 m 1 m x i ni c n j n i 1 n i 1 m оскільки ni n . i 1 Теорема3. Сума добутків відхилень варіант від їх середньої арифметичної x на відповідні їм частоти ni дорівнює нулю. Доведення. Із теореми 2, маємо 1 m 1 m 1 m ( x i x ) ni x i ni x ni n i 1 n i 1 n i 1 m 1 x x ni x x 0. n i 1 2. 4. 2. Спрощений спосіб обчислення середньої арифметичної Для скорочення обсягу обчислень при знаходженні середнього арифметичного вводять, так звані, допоміжні варіанти. При вдалому виборі допоміжних варіант обчислення можна звести до невеликих цілих чисел. Пояснимо на прикладах. Приклад 1. Знайти середнє арифметичне чисел x1 1241,7 ; x 2 1245 ,7 ; x 3 1246.7 . 64 Розв’язання. І-ий спосіб. За означенням x 1241 ,7 1245 ,7 1246 ,7 3734 ,1 1244 ,7 ; 4 3 ІІ-ий спосіб. Оскільки x1 1240 ,7 1 ; x 2 1240 ,7 5 ; x 3 1240 ,7 6 , то середнє арифментичне сталої C 1240 ,7 , повтореної тричі, є ця ж величина, тому залишається знайти середнє арифметичне для чисел u1 1 , u2 5 , 1 u 3 6 u 1 5 6 4 і додати до сталої C результат: 3 x 1240 ,7 4 1244 ,7 . Приклад 2. Знайти середнє арифметичне статичного ряду xi 283 ,4 288 ,4 293 ,4 ni 15 29 6 n1 n2 n3 15 29 6 50 Розв’язання. Тут варіанти рівновідділені з кроком h 5 288 ,4 283 ,4 293 ,4 288 ,4 5 . Позначимо через C ту варіанту, якій відповідає найбільша частота. Це x 2 288 ,4 C , бо її частота n2 29 . Введемо допоміжну варіанту за формулою ui xi C . h x 1 C 283 ,4 288 ,4 5 1 ; h 5 5 288 ,4 288 ,4 293 ,4 288 ,4 u2 0 ; u3 1. 5 5 Запишемо статистичний ряд для u1 , u2 , u3 з тими ж n1 15 , n2 29 , n3 6 , частотами які відповідають x1 , x 2 , x 3 : Тоді: u1 65 ui 1 ni 15 n1 n2 n3 50 1 0 29 6 Знаходимо середнє арифметичне ui i 1, 3 1 15 0 29 1 6 9 0 ,18. 50 50 x C Оскільки із виразу u маємо h x uh C , x 0 ,18 5 288 ,4 0 ,9 288 ,4 287 ,5. u то Можна перевірити, що x 283 ,4 15 288 ,4 29 293 ,4 6 287 ,5 . 50 Перейдемо до загального викладу спрощеного способу. Для статистичного ряду xm xi xi x1 x2 ... ... ni ni nm ... ... n1 n2 де x 1 , x 2 , ..., x m - рівновіддалені варіанти з кроком x 2 x1 x 3 x 2 ... x m x m1 h , n1 n2 ... nm n або m ni n , i 1 знайти середнє арифметичне значення варіант. Введемо допоміжні варіанти u i за формулою ui xi C h i 1, m , (1) де C -та із варіант x i , якій відповідає найбільша із частот n i . Складемо статистичний ряд для допоміжних варіант xi ui ni x1 u1 n1 x1 u2 n2 ... xi ... xm ... ui ... um ... ni ... nm 66 m ni n i 1 h і знайдемо середнє арифметичне допоміжних варіант 1 m u ui ni . n i 1 (2) Тоді має місце. Теорема. Середнє арифметичне значення основних рівновіддалених з кроком h варіант дорівнює добутку середнього арифметичного допоміжного ряду на крок h плюс значення тієї варіанти, якій відповідає найбільша із частот ряду, тобто (3) x uh C . Доведення. Із заміни (формула (1)) знаходимо x i ui h C і підставляємо у формулу середнього арифметичного. x 1 m 1 m 1 m x i ni ui h C ni ui ni h Cni h i 1 n i 1 n i 1 h 1 m 1 m ui ni C ni hu C . n i ` n i 1 Отже, формула (3) доведена. Приклад 3. Знайти середнє арифметичне за даними таблиці 3 (див. § 2.1, табл. 3), використовуючи спрощений спосіб, xi 170 175 180 185 190 195 200 ni 4 23 12 9 4 1 1 ni 54 . Розв’язання. Найбільшою частотою у таблиці є n2 =23, їй відповідає варіанта x 2 =175, позначимо її через С , крок для рівновіддалених варіант h 5 175 170 180 175 ... 200 195 5 . Вводимо допоміжні варіанти ui x i C x i 175 170 175 i 1, 7 : u1 1 , h 5 5 67 u2 ui ni 175 175 180 175 185 175 0 , u3 1 , u4 2, 5 5 5 u5 3 , u6 4 , u7 5. Запишемо новий статистичний ряд -1 0 1 2 3 4 23 12 9 4 4 5 1 1 Знаходимо u 1 1 4 0 23 1 12 2 9 3 4 4 1 5 1 54 1 4 12 18 12 4 5 47 0 ,8703 . 54 54 Тоді за формулою (3) x u h C 0 ,8703 5 175 4 ,35 175 179 ,4 . Отже, підтвердилось значення, знайдене раніше у прикладі 3 §2. 4. 1. 2.4.3. Середнє лінійне відхилення У таблиці 1 (див. § 2.4.1, приклад 1) вже приводились результати здачі іспита у двох групах по 20 студентів в кожній. Оцінки xi Кількість оцінок у І групі Кількість оцінок у ІІ групі Таблиця 1 “5” “2” “3” “4” 0 10 9 1 4 6 5 5 За даними таблиці було установлено, що середні бали у цих групах однакові ( x1 x 2 3 ,55 ), тому для більш детального вивчення статистичних рядів необхідно враховувати розсіювання варіант відносно середнього арифметичного. Для характеристики розсіювання використовуються середнє лінійне відхилення, а також дисперсія. 68 Означення. Середнім лінійним відхиленням називається середнє арифметичне абсолютних величин відхилень варіант від їх середньої арифметичної m d x i x ni i 1 n . (1) Приклад. За даними таблиці 1 знайти середні лінійні відхилення. Розв’язання. Оскільки середні арифметичні вже відомі x1 x 2 3 ,55 , то за формулою (1) знаходимо 1 2 3 ,55 0 3 3 ,55 10 4 3 ,55 9 5 3 ,55 1 d1 20 1 0 0 ,55 10 0 ,45 9 1,45 1 1 5 ,50 4 ,05 1,45 11 0 ,55. 20 20 20 1 2 3 ,55 4 3 3 ,55 6 4 3 ,55 5 5 3 ,55 5 20 1 1,55 4 0 ,55 6 0 ,45 5 1,45 5 19 0 ,95. 20 20 Отже, d1 0,55 , d 2 0 ,95 ; d1 d 2 , і це означає, що d2 значення варіант (оцінок) у другій групі більш розсіяні ніж у першій. 2.4.4. Дисперсія. Середнє квадратичне відхилення Означення 1. Дисперсією або розсіюванням статистичного ряду називається середнє арифметичне квадратів відхилень варіант від їх середньої, тобто D 2 1 m ( x i x ) 2 ni , n i 1 (1) Приклад 1. В умовах прикладу 1 (див.2.4.1) знайти дисперсії для кожної із груп. 69 Роз’язання. Оскільки у прикладі 1 (див. 2.4.1) відомі середні арифметичні для кожної із груп і x1 x 2 3 ,55 , то тепер за формулою (1) обчислюємо дисперсії: 1 (( 2 3 ,55 )2 0 ( 3 3 ,55 )2 10 ( 4 3 ,55 )2 9 20 ( 5 3 ,55 )2 1 ) 1 6 ,95 ( 2 ,4025 0 0 ,3025 10 0 ,2025 9 2 ,1025 1 ) 20 20 0 ,3475 0 ,35. 1 D2 ( 2 ,4025 4 0 ,3025 6 0 ,2025 6 2 ,1025 5 ) 20 22 ,95 1 ,1475 1 ,15. 20 Отже, порівнюючи дисперсії D1 0,35 і D2 1,15 можна стверджувати, що розсіювання варіант x i відносно середньої D1 x 3,55 у ІІ-ій групі більше, ніж у І-ій. Це видно із таблиць в умові прикладу 1 (див. у 2.4.1). Означення 2. Арифметичне значення кореня квадратного із дисперсії називається середнім квадратичним відхиленням, тобто D 1 m ( x i x ) 2 ni . n i 1 (2) Слід вімітити, що тоді, коли розмірність дисперсії D дорівнює квадрату розмірності варіант x i , то розмірність середнього арифметичного якраз збігається з розмірністю варіант. Приклад 2. За значенням дисперсій, знайдених у прикладі1, обчислити середні квадратичні відхилення. Роз’язання. Згідно формули (2) маємо 1 D1 0,3475 0,59 ; 2 D2 1,1475 1,07 . 70 Порівнюючи ці значення з відповідними середніми лінійними відхиленнями (див. 2.4.3 , приклад 4) d1 0,55 і d 2 0 ,95 , ми бачимо, що 1 і d 1 , 2 і d 2 майже однакові за своїм порядком. У загальному випадку можна довести, що d , тобто середнє лінійне відхилення не перевищує середнього квадратичного. У теорії ймовірностей і математичній статистиці перевагу над середніми лінійними віддають дисперсії. Це, зокрема, пов’язано з тим, що перетворювати суми, які містять квадрати величин, простіше ніж суми, які містять модулі цих величин. Перевага ця стане зрозумілою, коли ми з метою спрощення обчислень дисперсії перейдемо від основних варіант до допоміжних, а також при вивченні властивостей дисперсій. 2.4.5. Властивості дисперсії Теорема 1. Якщо всі варіанти збільшити або зменшити у h разів, то дисперсія збільшиться або зменшиться у h2 разів. Доведення. Враховуючи відповідну властивість для середньої арифметичної (див. в 2.4.1), маємо 1 m 1 m 2 2 ( hx h x ) n h ( x i x ) 2 ni h 2 D . i i n i 1 n i 1 Теорема 2. Збільшення або зменшення варіант на одну й ту ж сталу величину не змінює дисперсію, 2 1 m 1 m ( x c ) ( x c ) n ( x i x ) 2 ni . i i n i 1 n i 1 Теорема 3. При збільшенні або зменшенні частот в одне й те ж число разів дисперсія не зміниться m ( x i x )2 hni i 1 m hni 1 m ( x i x ) 2 ni . n i 1 i 1 Позначимо середнє арифметичне квадратів варіант через x2 , 71 x2 1 m 2 x i ni . n i 1 (1) Теорема 4. Дисперсія дорівнює середній арифметичній квадратів варіант без квадрата середньої арифметичної, тобто D x 2 ( x)2 . (2) Дійсно, перетворюючи вираз для дисперсії, отримаємо 1 m 1 m 2 2 2 ( x i x ) ni ( x i 2 x i x ( x ) ) ni n i 1 n i 1 m m 1 1 1 m x i2 ni 2 x x i ni ( x ) 2 ni n i 1 n i 1 n i 1 D x 2 2 x x ( x )2 x 2 ( x )2 . Отже, рівність (2) доведена. Із рівності (2) знаходимо D x 2 ( x)2 - формулу відхилення. для обчислення (3) середнього квадратичного 2.4.6. Спрощений спосіб обчислення дисперсії У параграфі 2.4.2 було розглянуто, як за допомогою допоміжних варіант u i , xi C , h 1 m (1) ui ni , n i 1 (h – відстань між варіантами або крок вибірки, С– значення тієї де ui u варіанти, якій відповідає найбільша частота) знаходиться середнє арифметичне Du (2) x uh C . Позначимо через Dx – дисперсію основних варіант, і через – дисперсію допоміжних варіант, а середні квадратичні відхилення відповідно позначимо x D x і u Du . Теорема. Дисперсія основних варіант дорівнює добутку дисперсії допоміжних варіант на квадрат кроку цієї вибірки, 72 D x Du h 2 , (3) а середнє квадратичне відхилення основних варіант дорівнює добутку середнього квадратичного відхилення допоміжних варіант на крок вибірки, (4) x u h, де D x Du 1 m ( x i x ) 2 ni x 2 ( x ) 2 , n i 1 1 m ( u i u ) 2 ni u 2 ( u ) 2 , n i 1 u2 (5) 1 m 2 ui ni . n i 1 Доведення. Оскільки із формул (1) і (2) x i ui h C , а x uh C , то квадрат різниці ( x i x )2 ( ui h C uh C )2 ( ui u )2 h2 . Тому Dx 1 m 1 m 2 ( x x ) n ( u i u ) 2 n i h 2 Du h 2 . i i n i 1 n i 1 Формула (3) доведена, а добувши арифметичний корінь квадратний у рівності (3), отримаємо (4). Приклад. Користуючись допоміжними варіантами обчислити дисперсію та середнє квадратичне відхилення за даними статистичного ряду, даного у прикладі 3 (див. 2.4.2.). Роз’язання. Перепишемо заново таблицю 2 із заданого прикладу, добавивши ще два стовпці ui2 і ui2 ni . Отримаємо розширену таблицю № з/п ui ni ui ni ui2 ui2 ni 1. 2. 3. 4. 5. -1 0 1 2 3 4 23 12 9 4 -4 0 12 18 12 1 0 1 4 9 4 0 12 36 36 73 6. 7. Суми 4 5 1 1 54 4 5 47 16 25 16 25 129 За формулою (5) даного параграфа знайдемо дисперсію допоміжної варіанти за даними таблиці. Спочатку обчислимо u 47 129 0 ,87037 ; u 2 2,38888 , 54 54 Du 2 ,388888 0 ,87037 2 ,38888 0 ,75754 1,6313 2 Dx Du h2 1,6313 25 40 ,7837 . x D x 40 ,7837 6 ,39 . 2.4.7. Медіана статистичного ряду Означення. Медіаною M e називається варіанта, яка находиться посередині варіаційного ряду. Тобто медіаною є та варіанта, яка ділить варіаційний ряд на дві рівні за обсягом сукупності. До медіани і після неї однакова кількість членів варіаційного ряду. При знаходженні медіани дискретного ряду слід розрізняти два випадки: 1) обсяг сукупності непарний; 2) обсяг сукупності парний. Нехай обсяг сукупності непарний і дорівнює 2m 1 тобто x1 , x 2 , ..., x m 1 , x m , x m 1 , ..., x 2m 1 . У цьому ряду кожна варіанта повторена стільки разів, скільки вона зустрічається в обсязі, тому серед них можуть бути і однакові. Медіаною цього розподілу є варіанта з номером m , оскільки вона знаходиться посередині ряду, до і після неї знаходиться по m 1 варіант, тобто M e xm . (1) Якщо обсяг сукупності парний, дорівнює m , то немає варіанти, яка б ділила варіаційний ряд на дві рівні частини,. тому за медіану умовно приймають близькі до середини. Ними будуть варіанти з номером m 2m : 2 m і номером m 1 , тобто 74 Me 1 x m x m 1 . 2 (2) Приклад. Знайти медіану варіаційного ряду, заданого таблицею 2 параграфа 2. 1. Розв’язання. За даними таблиці 2 кількість варіант 2m 54 , тому m 27 , а m 1 28 . Під номером m 27 знаходяться значення x 27 177 , воно розміщене у ІІІ-му стовпці табл. 2, і за ним зразу ж наступне x 28 178 , тому Me 1 x 27 x 28 1 177 178 177 ,5 . 2 2 Відмітимо, що середня арифметична змінюється із зміною всякої варіанти, і вона особливо чутлива до зміни крайніх варіант. На значенні медіани зовсім не відбиваються зміни значень крайніх варіант, якщо тільки при цих змінах варіанти продовжують залишатись по тіж самі сторони відносно медіани. Ця властивість медіани робить її більш вірною характеристикою варіаційного ряду в тих випадках, коли кінці розподілу за певних причин неточні або ненадійні. 2.4.8. Мода Означення. Модою M 0 називається варіанта, яка найбільш часто зустрічається. Для дискретного розподілу знаходження моди не вимагає якихось обчислень: нею є варіанта, якій відповідає найбільша частота. Зауважимо, що при спрощеному обчисленні середнього арифметичного та дисперсії за допомогою умовних варіант, ми за сталу C вибирали якраз моду. Приклад. Дано розподіл оцінок студентів при перевірці знань з даного розділу Оцінки „2” „3” „4” „5” Кількість студентів 13 4 4 5 Знайти моду, середній бал. Визначити чи достатньо засвоєний матеріал. 75 Розв’язання. Найбільшою серед частот є n1 13 їй відповідає x1 2 M 0 - мода, M0 2 . Знайдемо середний бал 1 79 ( 2 13 3 3 4 4 5 5 ) 3 ,04 . 26 26 Хоча середний бал x 3,04 відповідає задовільній оцінці, однак x оскільки мода M 0 2 x 3 ,04 , то це означає що 13 студентів (половина групи) матеріал не засвоїла, а про всю групу можна сказати, що матеріал засвоєний недостатньо. Біля моди групуються і інші варіанти з великими частотами, тому вона виявляє те значення ознаки, біля якого групується більша частина обсягу вибірки. 2.4.9. Коефіцієнт варіації Щоб охарактеризувати, наскільки добре представляє середня арифметична статистичний ряд, використовують коефіцієнт варіації, який дорівнює вираженому у процентах відношенню середнього квадратичного відхилення і середнього арифметичного: V x 100% (1) Якщо статистичні ряди мають однакові середні арифметичні, то середнє арифметичне з меншим коефіцієнтом варіації є більш представлюваним. Наприклад, у §2.4.3. (приклади 1 та 2) ми розглядали результати здачі єкзамена у двох групах. Там знайшли середні квадратичні відхилення 1 0,59 і 2 1,07 при середніх арифметичних x 1 x 2 3 ,55 . Тепер їхні коефіцієнти варіації запищуться: V1 1 x1 100% 0 ,59 100% 16 ,62% , 3 ,55 76 V2 2 x2 100% 1,07 100% 30 ,14% ; 3 ,55 k1 k 2 . Якщо полігон статистичного ряду не має значних скошень у ліву чи праву сторону, і досліджувана ознака може приймати тільки додатні значення, то V 30% . Якщо коефіцієнт варіації V 100% , то, як правило, можна зробити висновок, що спостереження неоднорідні. 2. 5. Моменти статистичного ряду Означення. Початковим моментом V k* статистичного ряду порядку k називається середня арифметична k -тих степенів варіант, тобто Vk* При k 0 порядку: 1 m k k x i ni x . n i 1 отримаємо початковий момент нульового V0* 1 m 0 1 m x i ni ni 1 . n i 1 n i 1 Якщо k 1 , то порядку: V1* (1) отримаємо початковий момент першого 1 m x i ni x - це є середнє арифметичне. n i 1 Означення. Центральним моментом M k* статистичного ряду k -того порядку називаються середнє арифметичне k - тих степенів відхилень варіант від їх середньої M k* k 1 m x i x ni . n i 1 (2) Якщо k 0 , то отримаємо центральний момент нульового порядку. M 0* 1 m 1 0 x i x ni 1 . n i 1 n При k 1 маємо центральний момент першого порядку 77 M 1* 1 m x i x ni 0 , n i 1 бо за теоремою 3 про властивості середнього арифметичного x i x ni 0 . m i 1 Центральний момент другого порядку запишеться у вигляді: M 2* 1 m x i x 2 ni 2 n i 1 це дисперсія статистичного ряду. 2. 6. Асиметрія і ексцес Означення. Коефіцієнтом асиметрії A називається відношення центрального моменту третього порядку до кубу середнього квадратичного відхилення: A M 3* 3 1 3 m x i x 3 ni . n (1) i 1 Якщо у варіаційному ряді переважають варіанти більші ніж x , то коефіцієнт асиметрії додатній, і має місце правостороння асиметрія, див. рис. 1. 2. а) б) Рис. 1 Означення. Ексцесом або коефіцієнтом крутості E називається зменшене на 3 одиниці відношення центрального 78 моменту четвертого порядку до четвертого степеня середнього квадратичного відхилення: E M 4* 4 3 4 m x i x 4 ni 3 . n 1 (2) i 1 За стандартне значення ексцесу приймають E 0 . Криві, у яких E 0 , у порівнянні із нормальною кривою менш круті і називаються плоско вершинними (див. рис. 2.б). Криві, у яких E 0 , більш круті, мають більш гостру вершину і називаються гостровершинними (див. рис. 2.а) а) б) Рис 2. Задачі до глави II 1. Протягом 5 днів температура повітря складала 3 , 5 , 4 , 1 , 2 . Знайти середню температуру повітря. 2. Відомі оцінки учнів в сумі балів за 3 іспити 10, 10, 11, 9, 15, 12, 9, 12, 13, 9, 8, 11, 14, 13, 12, 9. Побудувати полігон, гістограму, кумуляту, огіву. Знайти x , M 0 , M e , D . 3. Дано розподіл оцінок студентів Оцінки Кількість студентів 2 3 4 5 17 4 7 6 Визначити, чи достатньо засвоєний матеріал? У задачах 4, 5 скласти емпіричну функцію розподілу і побудувати її графік. 79 4. 5. xi 4 7 8 12 ni 5 2 3 10 xi 2 5 7 8 ni 1 3 2 4 6. Для ряду, який задано на інтервалах, знайти Інтервали 36- 38- 40- 42- 44- 4638 40 42 44 46 48 2 5 6 8 12 28 ni 7. Знайти M 0 , M e . x i 2,6 3,0 3,4 ni 8 20 45 3,8 4,2 15 12 D, , M0 , Me . 48- 50- 52- 54- 5650 52 54 56 58 21 14 7 3 1 8. Знайти x , . Побудувати гістограму відносних частот і функцію F ( x ) - відносних накопичених частот. Урожайн. 9-12 12-15 15-18 18-21 21-24 24-27 Жита (у/га) Ділянки в 6 12 33 22 19 8 гектпрах x 10.54 , M 0 10 , M e 10 , D 5.85 . 3. Ні, оскільки x 3 , але M 0 2 (найбільш часто зустрічається оцінка “2”). 6. x 47.21 ; D 16.46 ; 4.06 ; M 0 47.4 ; M e 47.46 . 7. A 0.18 ; E 0.75 . 8. x 18 ,3 ; 5.03 . Відповіді. 1. 3 . 2. 80