Использование Excel в описательной статистике Лекция 2 Доцент каф. ПМ иВТ Мисюра В.В. ВВЕДЕНИЕ Математическая статистика – раздел математики, посвящённый математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. Статистическими данными мы называем сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками. Метод исследования, опирающийся на рассмотрение статистических данных о тех или иных совокупностях объектов, называется статистическим. Первичный статистический анализ Понятие о генеральной совокупности и выборке Генеральной совокупностью называется полный набор всех значений, которые принимает или может принять случайная величина Часть генеральной совокупности из n значений случайных величин, выделенных из этой совокупности, называется выборкой Выборки объемом до 30 значений случайных величин (СВ) условно принято считать малыми, а свыше 30 – большими Число значений СВ, входящих в выборку, называется ее объемом Требования к выделению выборки 1) В выборку можно включать только данные, относящиеся к исследуемой генеральной совокупности; 2) Все значения СВ, принадлежащие к исследуемой генеральной совокупности, должны иметь одинаковую возможность быть включенными с выборку; 3) Выборка должна быть репрезентативной (представительной), т.е. она должна включать в себя достаточное число значений случайной величины для представления об особенностях генеральной совокупности СТАТИСТИЧЕСКИЙ АНАЛИЗ БОЛЬШИХ ВЫБОРОК 1. Составление вариационного ряда (в порядке возрастания) x1(min ) ≤ x2 ≤ x3 ≤ ≤ xn (max ) 2. Определение размаха вариационного ряда (1) R = xn − x1 или R = x(max ) − x(min ) 3. Выбор числа интервалов разбиения k вариационного ряда k= 3 n; (2) k = 1 + 3,32 lg n (2 ) ∗ 4. Определение длины интервала разбиения (шага) h= R k (3) h0 = xmin − 0,5h (4) Нижняя граница первого интервала 5. Составляют интервальный (группированный) вариационный рад в виде таблицы 1. Частость - это относительная частота попадания СВ в i-й интервал (число значений СВ в определенном интервале, отнесенное к общему объему выборки). 6. Строят в масштабе гистограмму Гистограмма – ступенчатая фигура, состоящая из прямоугольников с основанием в виде отрезков, соответствующих длинам интервалов, и высотами, соответствующими частостям. 7. Определяют закон распределения случайной величины Закон распределения СВ – это соотношение, устанавливающее связь между возможными значениями СВ и соответствующими им вероятностями. Интервальный вариационный ряд №№ интервала 1 Границы интервала h 0 ÷ (h 0 + h ) Частота (число вариантов в i-ом интервале mi Частость mi ωi = n m1 ω1 m2 ω2 Xmin ÷( Xmin + h) 2 (h 0 + h ) ÷ (h 0 + 2h ) (Xmin + h) ÷( Xmin + 2h) 3 (h 0 + 2h ) ÷ (h 0 + 3h ) m3 ω3 … ……………… …………. ……. [xmin + (k − 1) h ] ÷ xmax mk ωr k ∑ m i = n ∑ ωi =1 Таблица 1 Р X Рис.1. Гистограмма k 12 xi Рис. 2. Кривая распределения Понятие «частость» (ωi) для генеральной совокупности заменяется на понятие «вероятность» (ρi). При n → ∞ ωi = ρi . С ростом числа интервалов, будет уменьшаться их длина и ломаная линия гистограммы превратится в плавную кривую (рис. 2). При этом, относящееся к выборке понятие частость (ωi) для генеральной совокупности, ωi = ρi. заменяется на понятие вероятность (ρi): n → ∞ Основные статистические показатели Среднее Среднее арифметическое арифметическое (все варианты имеют (все варианты имеют одну и ту же частоту, одну и ту же частоту, равную единице) равную единице) Характерно для Характерно малых выборок для малых выборок Среднее взвешенное Наиболее достоверная оценка измеряемой СВ + + + xk m k x = x1 m 1 x2 m 2 ; m 1 + m 2 + + m k (5) Характерно для больших выборок СТЕПЕНЬ РАЗБРОСА (РАССЕИВАНИЯ) ОТДЕЛЬНЫХ ЧАСТЕЙ СВ ОТНОСИТЕЛЬНО ЕЕ СРЕДНЕГО ЗНАЧЕНИЯ РАЗМАХОМ (R) называется разность между наибольшим (xmax) и наименьшим (xmin) вариантами ДИСПЕРСИЕЙ (D) называется среднее арифметическое значение квадратов отклонений D отдельных вариант от их средней арифметической Среднее квадратичное отклонение (δ) – это значение корня квадратного из дисперсии σ= D (7 ) 1 k = ∑ n − 1 i =1 [(x − x ) ⋅ mi 2 i ] (6) Коэффициент вариации (ν) – это отношение среднего квадратичного отклонения к среднему значению СВ, выраженное в процентах σ ν = ⋅ 100,% (8) x Показатели описательной статистики Excel Показатели описательной статистики Показатели положения Показатели разброса Показатели асимметрии Показатели распределения xmin, xmax Дисперсия Ax Полигон Средние Стандарт Кумулята Мода R Положение медианы относительно среднего Медиана Гистограм ма Эксцесс Функции Excel, используемые при расчете показателей положения 1. Функция МИН. МИН(число1;число2;…). Функция МИН находит наименьшее значение в множестве данных. Функции Excel, используемые при расчете показателей положения 2. Функция НАИМЕНЬШИЙ. НАИМЕНЬШИЙ(массив;k). Функция НАИМЕНЬШИЙ находит k-е по порядку (начиная с минимального) наименьшее значение в множестве данных. Функции Excel, используемые при расчете показателей положения 3. Функция МАКС. МАКС(число1;число2;…). Функция МАКС находит наибольшее значение в множестве данных. Функции Excel, используемые при расчете показателей положения 4. Функция НАИБОЛЬШИЙ. НАИБОЛЬШИЙ(массив;k). Функция НАИБОЛЬШИЙ находит k-е по порядку (начиная с максимального) наибольшее значение в множестве данных. Функции Excel, используемые при расчете показателей положения 5. Функция КВАРТИЛЬ. КВАРТИЛЬ(массив;k). Функция КВАРТИЛЬ рассчитывает квартиль дискретного вариационного ряда. Функция КВАРТИЛЬ рассчитывает: • минимальное значение, если k=0; • первую квартиль, если k=1; • значение медианы, если k=2; • третью квартиль, если k=3; • максимальное значение, если k=4. Функция КВАРТИЛЬ не требует предварительной ранжировки данных она проводит её автоматически. Функции Excel, используемые при расчете показателей положения 6. Функция СРЗНАЧ. СРЗНАЧ(число1;число2;…). Функция СРЗНАЧ рассчитывает значение невзвешенной средней арифметической множества данных. Функции Excel, используемые при расчете показателей положения 8. Функция СРГЕОМ. СРГЕОМ(число1;число2;…). Функция СРГЕОМ рассчитывает среднюю геометрическую значений массива положительных чисел. 10 Функции Excel, используемые при расчете показателей положения 9. Функция МОДА. МОДА(число1;число2;…). Функция МОДА отображает наиболее часто встречающееся значение в интервале данных. Функции Excel, используемые при расчете показателей положения 10. Функция МЕДИАНА. МЕДИАНА(число1;число2;…). Функция МЕДИАНА рассчитывает медиану заданного дискретного вариационного ряда. Функции Excel, используемые при расчете показателей разброса 1. Функция ДИСП. ДИСП(число1;число2;…). Функция ДИСП оценивает генеральную дисперсию по выборке. n S2 = 2 ( x − x ) ∑ i i =1 n −1 Функция ДИСП рассчитывает дисперсию при условии, что исходные данные образуют выборочную совокупность (исправленная выборочная дисперсия). В случае, если совокупность является генеральной, то необходимо воспользоваться функцией ДИСПР. 13 Функции Excel, используемые при расчете показателей разброса 2. Функция ДИСПР. ДИСПР(число1;число2;…). Функция ДИСПР вычисляет невзвешенную дисперсию по генеральной совокупности. n ∑ ( xi Dx = i=1 − x) 2 n Часто генеральную дисперсию обозначают σ2. Функции Excel, используемые при расчете показателей разброса 3. Функция СТАНДОТКЛОН. СТАНДОТКЛОН(число1;число2;…). Функция СТАНДОТКЛОН оценивает генеральное стандартное отклонение (стандарт) по выборке. n S= ∑ ( x − x) i =1 2 i n −1 Функция СТАНДОТКЛОН рассчитывает стандарт при условии, что исходные данные образуют выборочную совокупность. В случае, если совокупность является генеральной, то необходимо воспользоваться функцией СТАНДОТКЛОНП. Функции Excel, используемые при расчете показателей разброса 4. Функция СТАНДОТКЛОНП. СТАНДОТКЛОНП(число1;число2;…). Функция СТАНДОТКЛОНП вычисляет стандартное отклонение по генеральной совокупности. n σ= ∑ ( x − x) i =1 2 i n 16 Функции Excel, используемые при расчете показателей разброса 5. Функция СРОТКЛ. СРОТКЛ(число1;число2;…). Функция СРОТКЛ вычисляет среднее невзвешенное отклонение множества данных. n ∑| d = ± i =1 xi − x | n Функция Excel, используемая при расчете показателя асимметрии Функция СКОС. СКОС(число1;число2;…). Функция СКОС оценивает коэффициент асимметрии по выборке. n xi − x Ax = ∑ ( n − 1)(n − 2) i =1 σ n 3 Если данные образуют не выборочную, а генеральную совокупность, то асимметрию необходимо рассчитывать по стандартной формуле: µ3 Ax = 3 σ Функция Excel, используемая при расчете показателя распределения Функция ЭКСЦЕСС. ЭКСЦЕСС(число1;число2;…). Функция ЭКЦЕСС оценивает эксцесс по выборке. xi − x n( n + 1) 3( n − 1) 2 Ex = − ∑ ( n − 2)(n − 3) ( n − 1)(n − 2)(n − 3) i =1 σ n 4 Если данные образуют не выборочную, а генеральную совокупность, то эксцесс необходимо рассчитывать по стандартной формуле: µ4 Ex = 4 − 3 σ Подключение режима «Анализ данных» 29 Подключение режима «Анализ данных» Выход в режим «Описательная статистика» Справочная информация по технологии работы в режиме «Описательная статистика» Справочная информация по технологии работы в режиме «Описательная статистика» Справочная информация по технологии работы в режиме «Описательная статистика» Средняя ошибка выборки (показатель Стандартная ошибка) µx = σ n =E7/КОРЕНЬ(E15) Предельная ошибка выборки (показатель Уровень надежности) ∆ x = tµ x =СТЬЮДРАСПОБР(0,05;E15-1)*E4 Справочная информация по технологии работы в режиме «Гистограмма» Справочная информация по технологии работы в режиме «Гистограмма» Режим Гистограмма служит для вычисления частот попадания данных в указанные границы интервалов, а также для построения гистограммы интервального вариационного ряда распределения. xmax − xmin h= {n}− 1 {n} = 1 + 3,322 ⋅ lg n 26 Справочная информация по технологии работы в режиме «Гистограмма» Справочная информация по технологии работы в режиме «Гистограмма» Справочная информация по технологии работы в режиме «Выборка» 29 Справочная информация по технологии работы в режиме «Выборка» Режим Выборка служит для формирования выборки из генеральной совокупности на основе схемы случайного отбора, а также из периодических данных. Справочная информация по технологии работы в режиме «Выборка» Справочная информация по технологии работы в режиме «Выборка»