Статистическая обработка данных Статистика (лат. «status») состояние дел это отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных; изучение количественной стороны массовых общественных явлений в числовой форме. 3, 5 5, 3 3, 2 2, 4 4, 3 3, 3 3, 3 3, 4 4, 5 5, 3 3, 3 3, 3 3, 4 4, 4 4, 3 3, 4 4, 3 3 кол ─ во результатов 10 , , , , , , , , , , , , , , , , , 1 Гистограмма Многоугольник распределений 10 5 2 результат 2 3 4 5 количество результатов 1 10 5 2 5 2 1 0 2 3 4 5 результат результат 2 3 4 5 количество результатов 1 10 5 2 200° 20° Круговая 360° = 20° диаграмма ∙ 360° = 200° «2»: 1 ∙ 18 «3»: 10 18 «4»: 5 ∙ 18 360° = 100° «5»: 2 ∙ 18 360° = 40° 40° 100° "2" "3" "4" "5" Этапы статистической обработки данных 1. Упорядочить и сгруппировать данные измерения 2. Составить таблицу распределения данных 3. Построить графики распределения данных 4. Получить паспорт данных измерения объём, размах, мода измерения, среднее (или среднее арифметическое) результат 2 3 4 5 количество результатов 1 10 10 5 5 1 22 ‒ объём измерения 1 + 10 + 5 + 2 = 18 ‒ размах измерения 5−2=3 ‒ мода измерения 3 ‒ среднее 2∙1+3∙10+4∙5+5∙2 18 ≈ 3,4 результат варианта 2 3 4 5 количество кратность результатов 1 10 5 2 3, 5 5, 3 3, 2 2, 4 4, 3 3, 3 3, 3 3, 4 4, 5 5, 3 3, 3 3, 3 3, 4 4, 4 4, 3 3, 4 4, 3 3 , , , , , , , , , , , , , , , , , 𝟑 ряд данных сгруппированный ряд данных Средняя варианта — медиана измерения. Пример: На уроке физкультуры 14 школьников прыгали в высоту, а учитель записывал их результаты: 125, 110, 130, 125, 120, 130, 140, 125, 110, 130, 120, 125, 120, 125. Получить сгруппированный ряд данных и таблицу распределения. Найти объём, размах, моду, среднее и медиану измерения. Решение: 130 130, 130, 140 110, 110 110, 120 120, 120, 120, 125 125, 125, 125, 125, 125, 130, 2 варианта кратность 3 5 110 120 125 130 140 3 2 5 3 1 2 3 5 3 1 3 1 среднее: 110∙2+120∙3+125∙5+130∙3+140 ≈14123,93 объём: 2 + 3 + 5 + 3 + 1 = 14 мода: 125 размах: 140 − 110 = 30 медиана: 125 ≈ 110 120 125 130 140 варианта кратность 2 3 5 3 1 кратность 5 3 2 1 0 110 115 120 125 130 140 варианта кратность варианты Частота варианты = объём измерения варианта кратность частота 110 120 125 130 140 2 1 7 2 14 3 3 14 3 14 5 5 14 5 14 3 3 14 3 14 1 1 14 1 14 сумма 14 1 кратность варианты Частота варианты = объём измерения кратность варианты Частота варианты в процентах = ∙ 100% объём измерения варианта 110 120 125 130 140 сумма кратность 2 3 5 3 1 14 частота 1 7 3 14 5 14 3 14 1 14 1 7,2 100% частота, % 14,3 21,4 35,7 21,4 Пример: кратность Составить таблицу распределения данных и таблицу распределения частот. 8 7 6 5 4 3 2 1 варианта 𝑎 𝑏 𝑐 Решение: 𝑑 𝑒 𝑓 𝑔 ℎ варианта 𝑎 𝑏 𝑐 𝑑 𝑒 𝑓 𝑔 ℎ сумма кратность 7 5 3 6 4 8 2 4 39 частота 7 39 частота, % 18 5 39 13 3 6 8 2 4 4 39 39 39 39 39 39 7,7 15,4 10,2 20,4 5,1 10,2 1 100 На испытательном стенде оружейного завода пристреливают готовые ружья, т.е. уточняют и корректируют их прицел. Выстрелы №1 №2 №3 №4 №5 №6 №7 №8 №9 №10 Ружьё А +1,0 +1,0 +2,0 +1,5 +2,0 +2,0 +1,5 +1,5 +0,5 +1 Ружьё Б +1,0 0 −1,5 +1,5 −0,5 −1,5 +2 +1,0 −1,0 +2,0 Среднее для ружья А: 1 + 1 + 2 + 1,5 + 2 + 2 + 1,5 + 1,5 + 0,5 + 1 = 1,4 10 Среднее для ружья Б: 1 + 0 − 1,5 + 1,5 − 0,5 − 1,5 + 2 + 1 − 1 + 2 = 0,3 10 А Б Числовую характеристику данных измерения, отвечающую за разброс данных вокруг среднего значения, называют дисперсией. 𝝈 = 𝐷 — средним квадратическим отклонением. Алгоритм вычисления дисперсии: 1. среднее значение 𝑀 = 𝑥1 +𝑥2 +⋯+𝑥𝑛 ; 𝑛 2. отклонение данных от 𝑀: 𝑥1 − 𝑀, 𝑥2 − 𝑀, … , 𝑥𝑛 − 𝑀; 3. квадраты отклонений: 𝑥1 − 𝑀 2 , 𝑥2 − 𝑀 2 , … , 𝑥𝑛 − 𝑀 2 ; 4. 𝐷 = 𝑥1 −𝑀 2 + 𝑥2 −𝑀 2 +⋯+ 𝑥𝑛 −𝑀 2 𝑛 𝜎= 𝐷 𝐷 𝐷𝑥𝑥𝑖= −0,24 𝑀2 𝑀 𝑖− 𝜎 ≈ 0,5 №1 №2 №3 №4 №5 №6 №7 №8 №9 №10 результат +1,0 +1,0 +2,0 +1,5 +2,0 +2,0 +1,5 +1,5 +0,5 +1 отклонение квадрат отклонения −0,4 −0,4 0,6 0,1 0,6 0,6 0,1 0,1 −0,9 −0,4 0,16 0,16 0,16 0,16 0,36 0,36 0,01 0,01 0,36 0,36 0,36 0,36 0,01 0,01 0,01 0,01 0,81 0,81 0,16 0,16 Выстрелы из ружья А (среднее: 1,4) 0,16 + 0,16 + 0,36 + 0,01 + 0,36 + 0,36 + 0,01 + 0,01 + 0,81 + 0,16 𝐷 = 0,24 ⟹ 𝜎 = 0,24 ≈ 0,5 10 𝐷𝑥𝑥𝑖= −1,71 𝑀2 𝑀 𝑖− 𝜎 ≈ 1,31 №1 №2 №3 №4 №5 №6 №7 №8 №9 №10 результат +1,0 0 −1,5 +1,5 −0,5 −1,5 +2 +1,0 −1,0 +2,0 отклонение квадрат отклонения 0,7 −0,3 −1,8 1,2 −0,8 −1,8 1,7 0,7 −1,3 1,7 0,49 0,49 0,09 0,09 3,24 3,24 1,44 1,44 0,64 0,64 3,24 3,24 2,89 2,89 0,49 0,49 1,69 1,69 2,89 2,89 Выстрелы из ружья Б (среднее: 0,3) 0,49 + 0,09 + 3,24 + 1,44 + 0,64 + 3,24 + 2,89 + 0,49 + 1,69 + 2,89 𝐷 = 1,71 ⟹ 𝜎 = 1,71 ≈ 1,31 10 Выстрелы из ружья А (среднее: 1,4) 𝐷 = 0,24 𝜎 ≈ 0,5 №1 №2 №3 №4 №5 №6 №7 №8 №9 №10 результат +1,0 +1,0 +2,0 +1,5 +2,0 +2,0 +1,5 +1,5 +0,5 +1 отклонение квадрат отклонения −0,4 −0,4 0,6 0,1 0,6 0,6 0,1 0,1 −0,9 −0,4 0,16 0,16 0,36 0,01 0,36 0,36 0,01 0,01 0,81 0,16 Выстрелы из ружья Б (среднее: 0,3) 𝐷 = 1,71 𝜎 ≈ 1,31 №1 №2 №3 №4 №5 №6 №7 №8 №9 №10 результат +1,0 0 −1,5 +1,5 −0,5 −1,5 +2 +1,0 −1,0 +2,0 отклонение квадрат отклонения 0,7 −0,3 −1,8 1,2 −0,8 −1,8 1,7 0,7 −1,3 1,7 0,49 0,09 3,24 1,44 0,64 3,24 2,89 0,49 1,69 2,89 Этапы статистической обработки данных 1. Упорядочить и сгруппировать данные измерения 2. Составить таблицу распределения данных 3. Построить графики распределения данных 4. Получить паспорт данных измерения объём, размах, мода измерения, среднее (или среднее арифметическое) Каждое значение, полученное в ходе измерений, называют вариантой. Число повторений данной варианты, называют её кратностью. кратность варианты Частота варианты = объём измерения кратность варианты Частота варианты в процентах = ∙ 100% объём измерения Числовую характеристику данных измерения, отвечающую за разброс данных вокруг среднего значения, называют дисперсией. 𝝈 = 𝐷 — средним квадратическим отклонением. Алгоритм вычисления дисперсии: 1. среднее значение 𝑀 = 𝑥1 +𝑥2 +⋯+𝑥𝑛 ; 𝑛 2. отклонение данных от 𝑀: 𝑥1 − 𝑀, 𝑥2 − 𝑀, … , 𝑥𝑛 − 𝑀; 3. квадраты отклонений: 𝑥1 − 𝑀 2 , 𝑥2 − 𝑀 2 , … , 𝑥𝑛 − 𝑀 2 ; 4. 𝐷 = 𝑥1 −𝑀 2 + 𝑥2 −𝑀 2 +⋯+ 𝑥𝑛 −𝑀 2 𝑛 𝜎= 𝐷 𝐷