Uploaded by amn

лекция по статистике

advertisement
Лекция 2. Теория статистических показателей
Абсолютные показатели
Исходной, первичной формой выражения статистических показателей
являются показатели в абсолютном выражении или абсолютные величины.
Статистические показатели в форме абсолютных величин характеризуют
абсолютные размеры изучаемых статистикой процессов и явлений.
Абсолютные статистические показатели всегда являются именованными
числами. Они выражаются в натуральных, стоимостных или других единицах
измерения. Используются такие натуральные единицы измерения как тонны,
килограммы, квадратные, кубические и простые метры, мили, километры,
галлоны, литры, штуки и т.д.
Относительные показатели
Относительный показатель представляет собой результат деления одного
абсолютного показателя на другой и выражает соотношение между
количественными характеристиками социально-экономических процессов и
явлений. Поэтому, по отношению к абсолютным показателям, относительные
показатели или показатели в форме относительных величин являются
производными, вторичными. Без относительных показателей невозможно
измерить интенсивность развития изучаемого явления во времени, оценить
уровень развития одного явления на фоне других взаимосвязанных с ним явлений,
осуществить пространственно-территориальные сравнения.
При расчете относительного показателя абсолютный показатель,
находящийся в числителе получаемого отношения, называется текущим или
сравниваемым. Показатель же, с которым производится сравнение и который
находится в знаменателе, называется основанием или базой сравнения. Таким
образом, рассчитываемая относительная величина показывает, во сколько раз
сравниваемый абсолютный показатель больше базисного, или какую составляет
от него долю, или сколько единиц первого приходится на 1, 100, 1000 и т. д.
единиц второго.
Средние показатели
Наиболее распространенной формой статистических показателей,
используемой в экономических исследованиях, является средняя величина,
представляющая собой обобщенную количественную характеристику признака в
статистической совокупности. Показатель в форме средней величины выражает
типичные черты и дает обобщающую характеристику однотипных явлений по
одному из варьирующих признаков. Он отражает уровень этого признака,
отнесенный к единице совокупности.
Важнейшее свойство средней величины заключается в том, что она
отражает то общее, что присуще всем единицам исследуемой совокупности.
Значения признака отдельных единиц совокупности колеблются в ту или иную
сторону под влиянием множества факторов, среди которых могут быть как
основные, так и случайные. Сущность средней в том и заключается, что в ней
взаимопогашаются отклонения значений признака отдельных единиц
совокупности, обусловленные действием случайных факторов, и учитываются
1
изменения, вызванные действием факторов основных. Это позволяет средней
отражать типичный уровень признака и абстрагироваться от индивидуальных
особенностей, присущих отдельным единицам.
В зависимости от того, в каком виде представлены исходные данные для
расчета средней, потребуется одна из следующих форм средней величины:
средняя арифметическая, средняя геометрическая, средняя квадратическая,
кубическая и т.д.
Средняя арифметическая простая используется в тех случаях, когда
расчет осуществляется по несгруппированным данным, и имеет вид:
x
x1  x 2  ...  x n

n
x
i
(1)
n
Средняя арифметическая взвешенная. При расчете средних величин
отдельные значения осредняемого признака могут повторяться, встречаться в
совокупности несколько раз. В подобных случаях расчет средней производится по
сгруппированным данным, то есть данным представленным в виде дискретных
или интервальных вариационных рядов распределения.
Средняя арифметическая взвешенная определяется по формуле:
x
x f
f
(2)
i i
i
Здесь fi – частота повторения значения xi.
Средняя квадратическая:
x=
x=
x
2
i
n
x f
f
2
i i
- невзвешенная
(6)
- взвешенная
i
Наиболее широко этот вид средней используется при расчете показателей
вариации.
Пример 1. По данным табл. 1 рассчитаем среднюю заработную плату в
целом по трем предприятиям. Имеет место дискретный вариационный ряд.
Таблица 1
Месячный
Численность
Средняя
фонд
Пред
промышленнозаработная плата,
заработной
приятие производственного
руб.
платы, тыс.
персонала, чел. fi
xi
руб.wi
1
2
3
1
270
564,84
2092
2
121
332,75
2750
3
229
517.54
2260
Итого
620
1415,13
?
2
Если мы располагаем только данными о средней заработной плате и
численности работников (гр. 1 и 3), то общая средняя может быть рассчитана по
формуле средней арифметической взвешенной:
При расчете средней по интервальному вариационному ряду для
выполнения необходимых вычислений от интервалов переходят к их серединам
путем определения средней арифметической простой между нижней и верхней
границами каждого интервала.
Пример 2. По данным табл. 2 определим величину среднедушевого
денежного дохода за месяц в условном регионе.
Обозначим значение осредняемого признака (среднедушевой денежный
доход в среднем за месяц) через х, а частоту повторения данного признака
(численность населения, % к итогу) через f.
Таблица 2
Распределение населения условного региона по уровню среднедушевых
денежных доходов
Среднедушевой денежный
доход в среднем за месяц, х i
руб.
До 400
400 - 600
600 - 800
800 - 1000
1000- 1200
1200 - 1600
1600 - 2000
2000 и выше
Итого
Численность населения, % к
итогу fi
30,2
24,4
16,7
10,5
6,5
6,7
2,7
2,3
100
Так как значения осредняемого признака заданы в виде интервалов, то
найдем их середины. При этом величину первого интервала условно приравняем к
величине второго, тогда его нижняя граница будет равна 200 руб. Величину последнего интервала условно приравняем к величине предпоследнего, тогда его
верхняя граница составит 2400 руб. В результате получаем следующие середины
интервалов (х'): 300 500 700 900 1100 1400 1800 2200.
Роль численности населения в данном случае выполняет его доля в общем
итоге, выраженная в процентах. Для расчета воспользуемся средней
арифметической взвешенной:
3
Следовательно, среднедушевой денежный доход населения составлял 688,5
руб.
Структурные средние
К структурным средним величинам в статистике относят моду, медиану и
квартили, квинтили, децили, перцентили.
Мода – значение признака, наиболее часто встречающееся в совокупности.
Расчет моды для несгруппированных данных состоит в определении
наиболее часто встречающегося значения. Если два и более варианта признака
встречаются чаще остальных, то будет соответственно несколько модальных
значений.
Расчет моды для дискретного ряда распределения состоит в определении
признака имеющего наибольшую частоту.
Пример 3. Рассчитаем моду по данным табл. 3.
Таблица 3
Распределение женской обуви, проданной в обувном отделе торгового объединения, в
ноябре 2015 г.
Размер женской Число проданных пар, % Накопленные
обуви (х)
к итогу (d)
частоты S
33
4
4
34
12
16
35
18
34
36
26
60
37
20
—
38
13
—
39
6
—
40
1
—
Итого
100
-
По данным табл. 3 видно, что наибольшая частость (d = 26) приходится на
36-й размер обуви. Следовательно, Мо = 36-му размеру, т.е. в данной
совокупности именно этот размер обуви пользовался наибольшим спросом.
Моду для интервального ряда распределения определяют по формуле:
Mo  x0  i
где
( f Mo
f Mo  f Mo 1
 f Mo 1 )  ( f Mo  f Mo 1 ) ,
(7)
- нижняя граница модального интервала;
i –величина модального интервала;
x0
f M o - частота модального интервала;
f Mo 1
- частота интервала, предшествующего модальному;
4
f Mo 1
- частота интервала, следующего за модальным.
Модальным
называется
интервал
с
наибольшей
рассматриваемого признака.
частотой
Пример 4. По данным о содержании влаги в поступившей партии товара в
магазин, определить моду (табл. 4).
Решение. По данным табл. 4, наибольшей влажностью обладают товары в
интервале 14 - 16% (графа 1). Это и есть модальный интервал, ширина интервала i
=2, а нижняя граница х0 = 14, частота fМо = 30, предмодальная частота fМо-1 = 20, а
послемодальная частота fМо+1 = 25.
Таблица 4
Влажность,
%(х)
А
До 14
14-16
16-18
18-20
20 и более
Итого
Число
образцов
(f)
1
20
30
25
15
10
100
Накопленная
частота
S
2
20
50
75
90
100
-
Середина
интервала
х'
3
13
15
17
19
21
-
x'f
4
260
450
425
285
210
1630
Модальный процент влажности в партии товара составляет
Таким образом, в данной совокупности поступившей партии товаров
наибольший процент влажности равен 15,3 %.
Расчет моды для порядковых и атрибутивных признаков не представляет
сложности с математической точки зрения и состоит в определении значения
признака, которое встречается чаще остальных.
Медиана – это значение признака, находящееся в середине ранжированной
(упорядоченной по возрастанию или убыванию) совокупности. Медиана делит
изучаемую совокупность на две равные части – у половины единиц совокупности
значение признака меньше медианы, а у другой половины единиц совокупности
значение признака больше медианы.
Медиана является центром распределения. Основное свойство медианы
заключается в том, что сумма абсолютных отклонений фактических значений от
медианы меньше, чем от любой другой величины:
 xi  Me  min ,
Me - значение медианы.
где x i - i - ый вариант признака,
Медиана может быть определена для количественных и порядковых
признаков. Расчет медианы для альтернативных и атрибутивных признаков
невозможен, так как эти признаки нельзя ранжировать.
5
Порядок расчета медианы:
1. расположить данные в порядке возрастания (или убывания) значений
признака;
2. определить номер медианной единицы
N me 
n 1
2 ,
(8)
N me
где
- номер медианной единицы, n –число единиц совокупности;
3. определить медиану, т.е. значение признака соответствующее номеру
медианной единицы.
В дискретном ряду распределения медиана находится непосредственно по
накопленной частоте, соответствующей номеру медианы.
Пример 5. Используя данные табл. 3, найдем номер медианы: (100+1)/2=
50,5.
Накапливаем частоты (графа 2 табл. 3) до тех пор, пока кумулятивная
частота S не будет равна этому значению или превысит его. Следовательно, 4%
пар женской обуви продано не более 33 размера, 4% + 12% = 16% пар не более 34
размера, 16 % + 18% = 34% не более 35 размера, а 34% + 26% = 60% не более 36
размера.
Таким образом, медиана данного ряда распределения равна 36 размеру
женской обуви, т.е. половина женской обуви (50%) в торговом объединении была
продана до 36 размера, а половина (50%) - больше 36 размера.
Таблица 3
Распределение женской обуви, проданной в обувном отделе торгового объединения, в
ноябре 2015 г.
Размер женской Число
проданных пар, Накопленные
частоты 5
обуви (х)
% к итогу (d)
1
2
33
4
4
34
12
16
35
18
34
36
26
60
—
37
20
38
13
—
—
39
6
—
40
1
Итого
100
Медиана количественного признака
распределения определяется по формуле:
для
1
Н
  f i  f Me
1
Me = x0 + i 2
,
f Me
интервального
ряда
(9)
где x 0 - нижняя граница медианного интервала;
i –величина интервала;
6
Н
f Me
1
медианному;
f Me
f
-
накопленная
частота
интервала,
предшествующего
- частота медианного интервала;
- число единиц совокупности.
Медианным является интервал, первая накопленная частота которого
превышает половину объема совокупности.
Пример 6. Алгоритм расчета медианы по интервальному ряду рассмотрим
по данным о содержании влаги в поступившей партии товара в магазин,
приведенным в табл. 4 (графы 1, 2).
Таблица 4
i
Влажность,
%(х)
А
До 14
14-16
16-18
18-20
20 и более
Итого
Число
Накопленная
образцов
частота
(f)
S
1
2
20
20
30
50
25
75
15
90
10
100
100
-
Середина
интервала
х'
3
13
15
17
19
21
-
x'f
4
260
450
425
285
210
1630
Решение. Находим номер медианы: (100+1)/2= 50,5.
Накапливаем частоты (см. графу 2 табл. 4) и определяем, что 50,5 образцов
товара приходится на интервал 16-18.
Точное нахождение медианы на данном интервале определим по
приведенной выше формуле:
Таким образом, половина (50%) партии товара имеет влажность менее 16%,
и половина (50%) имеет содержание влаги в партии товара выше 16%.
Средняя, медиана и мода характеризуют типичное значение признака в
изучаемой совокупности. Вместе с тем каждый из перечисленных показателей
имеет свою экономическую интерпретацию и особенности применения.
Использование перечисленных показателей зависит от вида признака и характера
распределения.
В анализе распределений порядковых признаков используют медиану и
моду. Порядковые данные не имеют среднего значения. Типичное значение
порядкового признака может быть выражено с помощью медианы и моды. При
этом медиана отражает значение признака наиболее близкого ко всем единицам
совокупности, а мода, характеризует наиболее распространение значение
признака.
В анализе распределений количественных признаков для однородной
совокупности обычно рассчитывают все три показателя. При этом соотношение
значений средней, медианы и моды позволяют судить о характере распределения.
7
Если данные распределены симметрично, то значения средней медианы и моды
совпадают (рис. 1.) Если распределение характеризуется асимметрией, то
значения средней и медианы отличаются. В распределениях с левосторонней
асимметрией значение средней меньше значений медианы и моды. В
распределениях с правосторонней асимметрией значение средней больше
значений медианы и моды (рис. 2).
f
x
x = Mo = Me
Рис. 1.Симметричное распределение
f
x
Mo
Me
x
Рис. 2. Правосторонняя асимметрия
Аномальные значения (значения существенно отличающиеся от других) не
влияют на расчет медианы, но могут оказать существенное влияние на среднее
значение признака. Поэтому, медиана является наиболее предпочтительной, по
сравнению со средней величиной, характеристикой типичного уровня признака
неоднородных совокупностей.
Основные показатели вариации
Вариация значений признака представляет наибольший интерес при
исследовании социально-экономических явлений и процессов.
Вариация – изменяемость величины признака у отдельных единиц
совокупности.
Она возникает в результате того, что индивидуальные значения признака
складываются под влиянием разнообразных факторов (условий), которые поразному сочетаются в каждом отдельном случае.
Используемые в статистическом анализе показатели вариации можно
разделить на три группы: показатели размаха; показатели, характеризующие
отклонения от среднего уровня; относительные показатели вариации.
Показатели размаха
8
Вариационный размах или размах вариации характеризует абсолютную
разницу между максимальным и минимальным значениями признака в изучаемой
совокупности:
R = xmax  xmin
(10)
Основным недостатком данного показателя является то обстоятельство, что
максимальные и минимальные значения признака могут быть обусловлены
случайными обстоятельствами и в этой связи могут искажать типичный для
изучаемой совокупности размах вариации.
Показатели отклонения от среднего
Среднее линейное отклонение. Для абсолютной количественной оценки
различий между всеми без исключения значениями признака в изучаемой
совокупности используется оценка отклонений фактических значений от их
среднего уровня. Чем больше различия между вариантами признака, тем больше и
их отклонения от среднего уровня. При этом сумма отклонений фактических
значений от средней всегда равна 0.
Существует два основных подхода к усреднению отклонений фактических
значений от средней. Первый состоит в том, что используют абсолютные
значения отклонений и в результате получают показатель, который называется
среднее линейное отклонение. Второй состоит в том, что отклонения возводят в
квадрат и в результате получают дисперсию и среднее квадратическое
отклонение.
Среднее линейное (или среднее абсолютное отклонение) представляет
собой среднее арифметическое из абсолютных значений отклонений фактических
вариантов признака от среднего значения. В зависимости от характера исходных
данных для расчета используют простую или взвешенную форму:
d
x


d 
i
x
n
 x x f
f
i
i
- простая форма;
(11)
- взвешенная форма,
(12)
i
Если данные не сгруппированы, используют простую форму, если
сгруппированы – взвешенную.
Дисперсия представляет собой средний квадрат отклонений значений
признака от средней величины.
В зависимости от характера исходных данных для расчета используют
простую или взвешенную формулу:

2
 x

 x
2
i
n
- простая форма;
(13)
9
2
 x


2
 x  fi
i
f
- взвешенная форма,
i
(14)
Для расчета дисперсии в отдельных случаях удобнее использовать формулу,
которая представляет собой алгебраическое преобразование выражений (13) и
(14):
 2  x 2  (x) 2 , где
(15)
x2
- средняя квадратическая.
В зависимости от характера исходных данных для расчета средней
квадратической используются простая или взвешенная формы:
x
2
x
2
x

2
i
- простая,
n
x  f

f
2
i
(16)
i
i
- взвешенная.
(17)
Если данные не сгруппированы, используют простую форму, если
сгруппированы – взвешенную.
Поэтому наиболее удобным и широко распространенным на практике
показателем вариации является среднее квадратическое отклонение, которое
определяется как квадратный корень из дисперсии и имеет ту же размеренность,
что и изучаемый признак.
Среднее квадратическое отклонение характеризует среднее отклонение
фактических значений признака в статистической совокупности от их среднего
значения и рассчитывается на основе следующих формул:


 (x
i
 x) 2
- простая форма,
n
 ( x  x)
f
i
2
f i
(18)
- взвешенная форма
(19)
i
 
x 2  (x) 2
(20)
называют стандартным
Среднее квадратическое отклонение также
отклонением.
Среднее квадратическое отклонение более широко применяется в
статистическом анализе по сравнению со средним линейным отклонением
благодаря своим математических свойствам. Так среднее квадратическое
отклонение является одним из параметров многих распределений и в первую
очередь нормального распределения.
В нормальном распределении примерно 2/3 всех значений отклоняются от
среднего уровня не больше, чем на одну величину среднего квадратического
отклонения. Приблизительно 95% всех значений отклоняются от среднего уровня
не более чем на две величины среднего квадратического отклонения. И, наконец,
10
около 99,7% всех значений лежат в пределах трех средних квадратических
отклонений (правило 3-х сигм).
Относительные показатели вариации
Чтобы оценить масштабы вариации используют относительные показатели
вариации, которые измеряют изменчивость значений признака в относительном
выражении по сравнению со средним уровнем, что во многих случаях является
более предпочтительным.
Для оценки относительных размеров вариации используют коэффициент
осцилляции, линейный коэффициент вариации и квадратический
коэффициент вариации, который называют также просто коэффициентом
вариации. Относительные показатели вариации, как правило, рассчитывают в
процентах.
Коэффициент осцилляции – процентное отношение размаха вариации к
средней:
VR =
R
 100%
x
(21)
Линейный коэффициент вариации измеряют через соотношение среднего
линейного отклонения и средней:
Vd =
d
 100%
x
Коэффициент вариации измеряют
квадратического отклонения и средней:
Vσ =
σ
 100%
x
(22)
через
соотношение
среднего
(23)
По величине коэффициента вариации можно, в частности, судить о степени
однородности признаков совокупности. Чем больше его величина, тем больше
разброс значений признаков вокруг средней, тем менее однородна совокупность
по своему составу и тем менее представительна средняя.
Под однородными данными понимается некоторый уровень их рассеяния,
при котором рассчитываемые статистические показатели (средняя, дисперсия и
др.) будут давать надежную и качественную характеристику анализируемой
совокупности.
В статистике принято считать, что, если значение коэффициента вариации
менее 33%, то совокупность данных является однородной, если более 33%, то
– неоднородной.
Пример. По данным выборочного обследования произведена группировка
вкладчиков по размеру вклада в Сбербанке города:
Размер вклада, руб. До 400 400 - 600 600 - 800 800 - 1000 Свыше 1000
56
120
104
88
Число вкладчиков 32
11
Определить:
1) размах вариации;
2) средний размер вклада;
3) среднее линейное отклонение;
4) дисперсию;
5) среднее квадратическое отклонение;
6) коэффициент вариации вкладов.
Решение
Данный ряд распределения содержит открытые интервалы. В таких рядах
условно принимается величина интервала первой группы равной величине
интервала последующей, а величина интервала последней группы равной
величине интервала предыдущей.
Величина интервала второй группы равна 200, следовательно, и величина
первой группы также равна 200. Величина интервала предпоследней группы
равна 200, значит и последний интервал будет иметь величину, равную 200.
Получаем ряд:
Размер вклада, руб. 200 - 400 400 - 600 600 - 800 800 - 1000 1000 - 1200
56
120
104
88
Число вкладчиков 32
1) Определим размах вариации как разность между наибольшим и наименьшим
значением признака:
Размах вариации размера вклада равен 1000 руб.
2) Средний размер вклада определим по формуле средней арифметической
взвешенной.
Предварительно определим дискретную величину признака в каждом интервале.
Для этого найдём середины интервалов. Среднее значение для первого интервала
будет равно: (200+400)/2=300, второго - 500 и т. д.
Занесём результаты вычислений в таблицу:
Размер вклада,
руб.
200-400
400-600
600-800
800-1000
1000-1200
Итого
Число
вкладчиков,
f
32
56
120
104
88
400
Середина
интервала, х
300
500
700
900
1100
-
xf
9600
28000
84000
93600
96800
312000
Средний размер вклада будет равен:
12
3) Среднее линейное отклонение есть средняя арифметическая из абсолютных
отклонений отдельных значений признака от общей средней:
Порядок расчёта среднего линейного отклонения в интервальном ряду
распределения следующий:
1. Вычисляется средняя арифметическая взвешенная. Мы в пункте 2 получили это
значение равным 780.
2. Определяются абсолютные отклонения вариант от средней:
3. Полученные отклонения умножаются на частоты:
4. Находится сумма взвешенных отклонений без учёта знака:
5. Сумма взвешенных отклонений делится на сумму частот:
Удобно пользоваться расчётной таблицей:
Размер
вклада,
руб.
200-400
400-600
600-800
800-1000
1000-1200
Итого
Середина
Число
интервала,
вкладчиков, f
х
32
300
56
500
120
700
104
900
88
1100
400
-
Среднее линейное
составляет 203,2 руб.
отклонение
-480
-280
-80
120
320
-
размера
480
280
80
120
320
-
вклада
15360
15680
9600
12480
28160
81280
клиентов
Сбербанка
13
4) Дисперсия - это средняя арифметическая квадратов отклонений каждого
значения признака от средней арифметической.
Расчёт дисперсии в интервальных рядах распределения производится по
формуле:
Порядок расчёта дисперсии в этом случае следующий:
1. Определяется средняя арифметическая взвешенная, как показано в п. 2).
2. Вычисляются отклонения вариант от средней:
3. Возводятся в квадрат отклонения каждой варианты от средней:
4. Умножаются квадраты отклонений на веса (частоты):
5. Суммируются полученные произведения:
6. Полученная сумма делится на сумму весов (частот):
Расчёты сведём в таблицу:
Размер вклада,
руб.
200-400
400-600
600-800
800-1000
1000-1200
Итого
Число
вкладчиков, f
32
56
120
104
88
400
Середина
интервала, х
300
500
700
900
1100
-
-480
-280
-80
120
320
-
230400
78400
6400
14400
102400
-
7372800
4390400
768000
1497600
9011200
23040000
5) Среднее квадратическое отклонение размера вклада определяется как корень
квадратный из дисперсии:
6) Коэффициент вариации - это отношение среднего квадратического
отклонения к средней арифметической:
Используем полученное значение коэффициента вариации для анализа
степени однородности значений исследуемого признака. Так как V=30,77%<33%,
то можно считать, что рассматриваемая совокупность значений признака
является однородной
14
Download