ТЕМА 2 - Признаки единиц статистической совокупности - Статистические показатели - Абсолютные и относительные статистические показатели - Понятие признака объекта - Классификация и группировка - Понятие кластерного анализа - Средние величины - Вариации массовых явлений - Структурные характеристики вариационного ряда - Показатели размера и интенсивности вариации - Моменты распределения и показатели его формы - Многомерные средние ЦЕЛЬ ЭТОГО ЦИКЛА ЛЕКЦИЙ- сообщить начальные сведения о математическом аппарате статистики Признаки единиц статистической совокупности Признак - количественное выражение какого - либо свойства единицы совокупности . ПРИЗНАКИ Описательные ( номинальные и порядковые ) Количественные Прямые ( непосредственные ) Косвенные Первичные ( учитываемые ) Вторичные ( расчетные ) Моментные Интервальные Альтернативные Непрерывные Дискретные Статистические показатели Статистический показатель - обобщающая характеристика какого то свойства совокупности. Индивидуальное значение - признак. Абсолютные и относительные статистические показатели. Абсолютные величины - имеют размерность, относительные величины - отношения абсолютных величин. Виды относительных показателей: - характеризующие структуру объекта - характеризующие динамику процесса - характеризующие взаимосвязь между различными признаками объекта - характеризующие соотношение разных признаков одного и того же объекта между собой - выражающие отношение фактических величин признака к его плановому, оптимальному, максимальному, нормативному значению - полученные в результате сравнения разных объектов по одному признаку. Показатели бывают первого порядка и высших порядков. Показатели высших порядков - это комбинации показателей первого порядка. Признак объекта {F} {Y} {M} 1 a c b 2 2 2 c a a b 1 2 { F } - предъявляемые объекты 3 2 4 c b 1 a Y y1 , y 2 , y 3 b a c 3 3•5 3 , где b { Y } - признаки c 1 2 5 5 2 2 {M } - данные измерений 3 y1 = a , y2 = b , y3 = c M 1 2,2, 2, M 2 1,2, 5,M 3 1,2, 3... Объект Вектор Желтый Красный Есть косточки Вишня x1 x2 x3 Есть семечки x11 = 0 x21 = 1 x31 = 1 x12 = 1 x22 = 1 x32 = 0 x13 = 0 x23 = 1 x33 = 0 x14 = 1 x24 = 0 x34 = 0 Яблоко Банан x x1 , x 2 , x 3 x 1T x 2T x 3T 0 1 0 1 1 1 1 0 1 0 0 0 Классификация объектов Процедура классификации состоит в том , чтобы отнести предъявляемый объект к тому или иному классу . Понятие расстояния между классами: P X 0 , X 0 X ; где X метрическое пространство. Расстояние между точкой и классом : d 1 P , X 0 inf d P , M , M X 0 , Расстояние между классами X1 X , X 2 X : d 2 X1 , X 2 inf d P , M P X1 , M X 2 , Способы определения расстояния Евклидово расстояние 2 d e x i , x j x ik x jk k 1 n 1 2 расстояние по Манхэттену (метрика городских кварталов) n d m x i , x j x ik x jk k 1 Чебышевское расстояние d ch x i , x j max x ik x jk расстояние по Камберру n x ik x jk k 1 x ik x jk d k xi , x j Классификация по минимальному расстоянию. Ri i 1 , 2 , ... , k множество векторов , характеризующих эталонные образы d x m , ck min . x m ck , если Понятие о кластерном анализе. - вычисляются расстояния между всеми точками в пространстве признаков. - две точки (с минимальным расстоянием между ними) объединяются в класс. - вычисляются расстояния от всех точек до класса. - к классу присоединяется новая точка (с минимальным расстоянием до класса). - процесс прерывается, когда расстояние от точек до класса превысит rкрит.. Группировка - частный случай классификации. Группировка - это распределение единиц по группам в соответствии с принципом: различия между единицами, отнесенными к одной группе меньше чем между единицами другой группы. Для решения задачи группировки нужно установить правила отнесения единицы к той или иной группе: - определяются (группировочные) признаки, по которым будет проводиться группировка - определяются значения отделяющие одну группу от другой (интервалы группировки). Группировка называется простой, если для ее построения используется один группировочный признак. Если группировка проводится по нескольким признакам - она называется сложной (политетической). Комбинационная группировка: группы выделенные по одному признаку подразделяются на подгруппы по другому признаку. Интервалы: открытые и закрытые. Закрытые интервалы: равные и неравные. Неравные интервалы определяются как равнонаполненные. Виды группировок Типологическая группировка служит для выделения классификации типов явлений Этапы проведения типологической группировки: - выделяются те типы явлений, которые должны быть проанализированы, - выбираются группировочные признаки, формирующие описание типов, - устанавливаются границы интервалов, - группировка оформляется в таблицу, выделенные группы объединяются в намеченные типы, определяется численность каждого из них. Структурная группировка характеризует структуру совокупности по какому - либо одному признаку. Позволяет изучать: - интенсивность вариации группировочного признака - динамику структуры совокупности. Средние величины Средняя величина обобщает качественно однородные значения признака. Виды средних: n x x i i 1 средняя арифметическая n n x / x i fi i 1 взвешенная средняя арифметическая n f i i 1 Возраст 17 - 20 20 - 30 30 - 40 40 - 50 50 - 65 Число больных f i 48 120 75 62 54 12408 X= Xi / f i 888 3000 2625 2790 3105 12408 = 34.56 года 359 Середина инт. Xi / 18.5 25 35 45 57.5 n 2 x i xк в i 1 n средняя квадратическая n xс т k k x i i 1 средняя степенная n n средняя гармоническая x г ар м n 1 i 1 x i x г е о м n x 1 x 2 ... x n средняя геометрическая Правило мажорантности средних величин: xгарм xгеом xариф xкв xст Вариации массовых явлений Вариацией значений какого - либо признака в совокупности называется различие его значений у разных единиц данной совокупности в один и тот же период или момент времени . Вариационный ряд - упорядоченное распределение единиц совокупности по возрастающим / убывающим значениям признака и подсчет числа единиц с тем или иным признаком. Вариационный ряд ( ряд распределения ) Ранжированный Дискретный Интервальный Число койко-дней в кардиологических Наименование больницы отделениях больниц города Больница N3 14.9 Железнодорожная клиника 16.0 Больница N1 18.6 Больница N2 25.2 Число забитых мячей , X i 0 1 2 3 4 5 6 7 Число игр с таким кол - вом X i 21 41 41 37 19 10 6 2 50 Число 40 боль ниц 30 региона, 20 f 10 0 5 10 15 20 25 30 35 40 45 50 55 Сме ртность по тубе ркуле зу, (на тыс. боль ных) Как определить число требуемых интервалов в интервальном вариационном ряду? Формула Стержеса : k = integer 1 3.32 lg( n ) тогда, ширина интервала: x max x min k Структурные характеристики вариационного ряда Медиана распределения Медиана - это численное значение признака у той единицы изучаемой совокупности, которая находится в середине ранжированного ряда. Медиана делит совокупность на две равные части. Первая половина единиц статистической совокупности (после ранжирования!) имеет значение варьирующего признака меньше, чем медиана, элементы из второй половины совокупности - больше. Пример: группа из 7 студентов в возрасте от 17 до 23 лет сидят в аудитории за семью столами. Вариационный признак - возраст студента. Первичные данные Номер 1 стола Возраст 21 студента 2 3 4 5 6 7 17 19 22 18 20 23 Строим ранжированный (по возрасту) вариационный ряд Номер 2 5 3 6 1 4 стола Возраст 17 18 19 20 21 22 студента 7 23 Медиана равна 20 годам. Т.е. возраст четвертого (в ранжированном вариационном ряду) студента делит совокупность на две равные части. Трое студентов моложе его, трое - старше. Если число единиц наблюдения (число элементов статистической совокупности) четное, то медианой считается средняя арифметическая из значений признака у двух серединных членов совокупности. Рассмотрим абсолютно аналогичный пример, но для случая, когда наблюдается группа из 8 студентов. Первичные данные Номер 1 2 стола Возраст 21 17 студента 3 4 5 6 7 8 19 22 18 20 23 20.5 1 4 7 21 22 23 Ранжированный вариационный ряд (по возрасту) Номер 2 5 3 6 8 стола Возраст 17 18 19 20 20.5 студента В этом случае медиана равна 20 20.5 20.25 2 Определение медианы по интервальному ряду Предположим, что первичные данные обработаны, и по ним построен интервальный вариационный ряд. Пример: статистическому наблюдению подвергаются больницы области. Число больниц - 143. Вариационный признак - число коек. Строится интервальный ряд: Группы больниц по числу коек Xi 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50-55 ИТОГО: Число больниц fi Середина Интервала Xi' Xi' f i Накопленная частота f i' 6 9 20 41 26 21 14 5 1 143 12,5 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 75 157,5 450 1127,5 845,5 787,5 595 237 52,5 4327,5 6 15 35 76 102 123 137 142 143 Предположим, что у нас нет в нашем распоряжении первичных данных. В этом случае мы не можем построить ранжированный вариационный ряд, как это было сделано в предыдущем примере. В нашем распоряжении есть только обработанные до нас данные, которые уже сведены к интервальному ряду. Например, интервальный ряд (в виде гистограммы) был взят нами из периодической литературы. Сами исходные данные не публиковались. Медиана распределения вычисляется с использованием интервального ряда по формуле: k fi / i 1 M e X0 2 f M/ e 1 fM e Xo - низшая граница интервала, в котором находится медиана; f ' (Me -1) - накопленная частота в интервале, предшествующем медианному; fMe - частота в медианном интервале; - величина интервала; k - число групп Вычислим медиану по приведенной выше формуле: 1) 143/2~ 72 -> медиана находится в четвертом интервале (т.к. полученное число 72 ближе всего к 76 в столбце накопленных частот). Этот интервал отмечен значком в таблице. 2) в четвертом интервале: низшая граница Xo =25, частота fMe=41 3) в предшествующем (третьем) интервале накопленная частота равна f '(Me -1) = 35 4) ширина каждого интервала = 5 (см. первый столбец интервалов) 5) Окончательно, Me=25+[(72-35)/ 41]* 5 = 29.5 коек. Квартили распределения Вычисляются абсолютно аналогично медиане по формулам: k / / f 4 f j Q1 1 j 1 Q1 x0 f Q1 35.75 35 5 25.09 25 41 Q2 M e k / / f j 4 f Q 1 3 3 j 1 Q3 x0 f Q3 107.25 102 35 5 36.25 21 Общее название для вышеприведенных структурных характеристик вариационного ряда - квантили. Если ряд делится на 4 части то в этом случае квантили называются квартилями (см. формулы выше), на 5 частей - квинтили ; на 10 - децили ; на 100 - перцентили . Мода распределения . Модальный интервал - интервал с наибольшей частотой . Мода: f M 0 fM 0 1 M0 X0 f M 0 fM 0 1 f M 0 fM 0 1 по-прежнему, fM 0 X 0 нижняя граница модального интервала, частота в модальном интервале. Рассмотрим пример с обследованием 143 больниц. Модальный интервал - четвертый. Наибольшая частота (41) относится к этому интервалу. Т.е., в рассматриваемом примере модальный и медианный интервалы совпали. Это часто встречается, но так бывает не всегда! Частоты в интервалах в предшествующем (число 20) и следующим (это число 26) за модальным интервалом отмечены в таблице бирюзовой заливкой. Вычислим моду: 41 20 M 0 25 5 27.9 41 20 41 26 M0 < Me < x для нормального распределения. 7. Моменты распределения и показатели его формы Центральные моменты: N M 1 i 1 N M N 2 i 1 N x x 2 2 второго порядка x x 3 i 1 3 i третьего порядка N x x 4 i 1 первого порядка 2 N M = 0 (всегда!) = xi x N M xi x 4 i четвертого порядка N Коэффициенты ассиметрии M A d s 3 Левосторонняя ассиметрия 3 и As Пирсона x Mo Правосторонняя ассиметрия Эксцесс E x M d 4 4 3 Эксцесс Показатели размера и интенсивности вариации Размах или амплитуда вариации R x max x min Средний модуль отклонений 1 n a xj x n j1 Среднее линейное отклонение - взвешенное по частоте отклонение по модулю середин интервалов от средней арифметической величины: k a x /j x f j 980.2 6.85 143 j 1 k f j j 1 Среднеквадратичное отклонение : n 2 x x j j 1 n для ранжированного ряда Среднее квартильное расстояние : Q q 3 M e M e Q1 Q3 Q1 2 2 Относительные показатели вариации : R :x Относительный размах вариации m a :x Относительное отклонение по модулю :x Относительное СКО d q :x Относительное квартильное расстояние Предельно возможные значения показателей вариациии и их применение . n - число единиц совокупности; x - средняя величина признака; Тогда x • n - общий объем признака: x max x n x min 0 Максимальное значение амплитуды ( размах вариации ) : Rmax x n 0 x n ; Rmax n x Среднее линейное отклонение : a max 2x n 1 2 2x x n n Среднее квадратическое отклонение max x 2 n 12 n 1 x n 1 n Относительное модульное ( линейное ) отклонение m max 2 a max : x 2 n Коэффициент вариации Vmax max : x n 1 Многомерная средняя Используется при построении многомерных группировок. Это средняя величина нескольких признаков для одной единицы совокупности. Многомерная средняя вычисляется по относительным (безразмерным) величинам. k p ij pi j 1 k k j 1 xij xj pi - многомерная средняя для i - единицы, x ij - значение признака xj - среднее значение признака k i - число признаков, xj j для i - единицы, xj, - номер признака, - номер единицы совокупности. : k,