ВАРИАЦИОННЫЙ РЯД И ОСНОВНЫЕ ПАРАМЕТРЫ к.э.н., доцент Золотов Михаил Михайлович кафедра Менеджмента и экономики спорта им. В.В. Кузина ОДНА ПЕРЕМЕННАЯ 2 При проведении маркетинговых исследований часто необходимо получить информацию об одной переменной. Например: Какое количество клиентов спортивного клуба можно считать лояльными ему? Каково соотношение между разными группами потребителей услуги «йога»: много использующими, средне, слабо и не пользователями? Какое количество потребителей хорошо осведомлены о предлагаемой новой услуге? Сколько потребителей поверхностно знакомы, сколько— что-то слышали, а сколько вообще ничего не знают о новом тренажерном зале? Какова средняя степень осведомленности о новом зале? Сильно ли различается степень осведомленность потребителей о новом зале? Что представляет собой кривая распределения дохода для приверженцев данной услуги? Смещено ли данное распределение в сторону группы потребителей с низкими доходами? Ответы на подобные вопросы можно получить, изучив распределение частот значений переменной, или вариационный ряд (frequency distribution). При таком анализе рассматривается одна переменная. ВАРИАЦИОННЫЙ РЯД 3 Вариационный ряд, распределение частот значений переменной (frequency distribution) – Математическое распределение, цель которого - подсчет ответов, связанных с различными значениями одной переменной (частот), и дальнейшее выражение их в процентном виде. Целью построения вариационного ряда является подсчет ответов респондентов, в которых приводятся различные значения переменной. Относительную частоту различных значений переменной выражают в процентах и называют частостями (frequency distribution). ПРИМЕР 4 В данной таблице приведен пример распределения частот осведомленности о новом продукте компании Reebok – кроссовок “bubble-fit”. Плохо осведомлены Хорошо осведомлены Значение N % от N С учетом пропуска Нарастающим итогом, % 1 0 0,0 0,0 0,0 2 2 6,7 6,9 6,9 3 6 20,0 20,7 27,6 4 6 20,0 20,7 48,3 5 3 10,0 10,3 58,6 6 8 26,7 27,6 86,2 7 4 13,3 13,8 100,0 Пропуск 1 3,3 Итого 100,0 100,0 ГРАФИЧЕСКОЕ ОТОБРАЖЕНИЕ 5 Гистограмма распределения частот 9 8 7 6 N 5 4 3 2 1 0 2 3 4 5 Значение 6 7 СТАТИСТИКИ 6 Как следует из предыдущего раздела, распределение частот — удобный способ представления различных значений переменной. Таблица вариационного ряда легко читается и содержит основную информацию, но иногда такая информация слишком детализирована, и исследователь вынужден обобщать ее с помощью описательных статистик Чаще всего используют следующие статистики, связанные с распределением частот: 1. показатели центра распределения (среднее, мода и медиана); 2. показатели вариации (размах, межквартальный размах, коэффициент вариации); 3. показатели формы распределения (асимметрия и эксцесс). стандартное отклонение и ПОКАЗАТЕЛИ ЦЕНТРА РАСПРЕДЕЛЕНИЯ 7 Показатели центра распределения (measures of location) характеризуют положение центра распределения, вокруг которого концентрируются данные. Если всю выборку изменить, добавив фиксированную величину к каждому наблюдению, то среднее, мода и медиана изменятся на аналогичную величину. СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ – MEAN 8 Среднее арифметическое или выборочное среднее (mean) — это наиболее часто используемый показатель, характеризующий положение центра распределения. Он используется для оценки среднего значения в случае, если данные собраны с помощью интервальной или относительной шкалы. Его величина должна отражать некоторое среднее значение, вокруг которого распределена большая часть ответов. � = ∑ 𝑋𝑋𝑖𝑖 /𝑛𝑛 𝑋𝑋 В нашем примере с кроссовками расчет медианы следующий: �= 𝑋𝑋 2∗2+6∗3+6∗4+3∗5+8∗6+4∗7 29 = 4,724 МОДА – MODE 9 Мода (mode) — значение переменной, встречающееся чаще других. Представляет наивысшую точку (пик) распределения. Мода хороший показатель центра распределения, если переменная имеет категорийный характер, или, иначе говоря, ее можно разбить на категории. В нашем примере мода = 6, так как значение переменной в 6 ответов встречается больше всего. МЕДИАНА – MEDIAN 10 Медиана (median) выборки — это значение переменной в середине ряда данных, расположенных в порядке возрастания или убывания, Положение медианы определяется ее номером. ПОКАЗАТЕЛИ ВАРИАЦИИ 11 Показатели вариации (изменчивости) (measures of variability), вычисляемые на основании данных, измеряемых с помощью интервальных или относительных шкал, включают: 1. 2. 3. 4. 5. размах вариации; межквартильный размах; дисперсию; стандартное отклонение; коэффициент вариации. РАЗМАХ ВАРИАЦИИ – RANGE, МЕЖКВАРТИЛЬНЫЙ 12 Размах вариации (range) отражает разброс данных. Он равен разности между наибольшим и наименьшим значениями в выборке. Поэтому на него непосредственно влияют выбросы. В нашем примере размах вариации равняется 7-2=5 Межквартильный размах (interquartile range) — это разность между 75- и 25-м процентилями. Размах вариации распределения, охватывающий центральные 50% всех наблюдений. ДИСПЕРСИЯ – VARIANCE 13 Разность между средним значением переменной и ее наблюдаемым значением называют отклонением от среднего. Дисперсия (variance) — среднее из квадратов отклонений переменной от ее средней величины. Она никогда не может быть отрицательной. Если значения данных сгруппированы вокруг среднего, то дисперсия невелика. И наоборот, если данные разбросаны, то мы имеем дело с большей дисперсией. СТАНДАРТНОЕ ОТКЛОНЕНИЕ – STANDARD DEVIATION 14 Среднеквадратическое (стандартное) отклонение (standard deviation) равно квадратному корню из дисперсии. Таким образом стандартное отклонение выражается в тех же единицах, что и сами данные. Можно сказать, что стандартное отклонение – это среднее среднего арифметического. Представим себе, что вы как маркетолог исследуете сколько калорий потребляют в день люди. Если ваша выборка довольна большая, то результаты исследований будут иметь форму нормального распределения, или иными словами, большая часть респондентов потребляют схожее количество калорий. И лишь немногие потребляют значительно меньше или значительно больше. Теперь представьте себе, что вы провели такое исследование с выборкой в 1000 человек, но в разных местах: 1. 2. 3. В армии В офисе В торговом комплексе ПРИМЕР 15 Синяя кривая распределения показывает исследование в армии, красная линия – в офисе, а оранжевая – в универмаге. Задание: Как вы можете охарактеризовать зеленую кривую? Как правильно отобразить измерения на оси у? ПОЯСНЕНИЕ 16 Таким образом, стандартное отклонение показывает как сильно «кучкуются» данные вокруг среднего значения. Если мы говорим о нормальном распределении, то 1 стандартное отклонение охватывает 68,2% всех значений. КАК РАССЧИТЫВАТЬ 17 Из каждого полученного значения нужно вычесть среднее, потом эту величину возвести в квадрат. Полученная сумма нужно поделить на количество ответов – 1. Из полученного берем квадратный корень. 𝑠𝑠𝑥𝑥 = (𝑋𝑋 𝑖𝑖 −𝑋𝑋) 2 ∑ 𝑛𝑛−1 Сейчас все используют Exel для такого рода операций. Используйте оператор: STDEV.S – для выборки STDEV.P – для всей совокупности.