Загрузил Ольга Яковская

Статистика (1 вариант)

Реклама
Вариант 1
Задание 1.
Известны следующие данные по основным показателям деятельности крупнейших
банков одной из областей России (данные условные):
№ п/п
Сумма
активов
Собственный
капитал
Привлеченные
ресурсы
Балансовая
прибыль
Объем вложений в
государственные
ценные бумаги
Ссудная
задолженность
1
645,6
12
27,1
8,1
3,5
30,8
2
636,9
70,4
56,3
9,5
12,6
25,7
3
629
41
95,7
38,4
13,3
26,4
4
619,2
120,8
44,8
38,4
4,4
25,3
5
616,4
49,4
108,7
13,4
15
20,9
6
614,4
50,3
108,1
30,1
19,1
47,3
7
608,6
70
76,1
37,8
19,2
43,7
8
601,1
52,4
26,3
41,1
3,7
29,1
9
600,2
42
46
9,3
5,2
56,1
10
600
27,3
24,4
39,3
13,1
24,9
Постройте группировку коммерческих банков по двум признакам: по величине
балансовой прибыли и сумме активов. По каждой группе и подгруппе определите число
банков, величину балансовой прибыли и сумму активов и другие два – три показателя,
взаимосвязанных с группировочными. Результаты группировки оформите в виде таблицы
и сформулируйте выводы.
Решение
1) Группировочный признак – «Балансовая прибыль».
Число групп приближенно определяется по формуле Стэрджесса:
n  1  3,322lg  n   1  3,322lg 10  4
Ширина интервала тогда будет:
h
X max  X min 41,1  8,1

 8,3 , где Х max  41,1 ; X min  8,1 .
n
4
Возьмем также показатели – «Собственный капитал» и «Привлеченные ресурсы».
По признаку «Балансовая прибыль» получаем границы интервалов.
Интервал
8,1 – 16,4
16,4 – 24,7
24,7 − 33
33 – 41,3
Количество банков
4
0
1
5
Группировка банков по величине балансовой прибыли (ден. ед.)
Группа
I
Сумма
Среднее
II
III
Сумма
Среднее
IV
Сумма
Среднее
Всего
Балансовая
прибыль
8,1
9,3
9,5
13,4
40,3
10,08
Интервал
8,1 – 16,4
Собственный Привлеченные
капитал
ресурсы
12
42
70,4
49,4
173,8
43,45
27,1
46
56,3
108,7
238,1
59,53
50,3
50,3
50,3
70
41
120,8
27,3
52,4
311,5
62,3
535,6
108,1
108,1
108,1
76,1
95,7
44,8
24,4
26,3
267,3
53,46
613,5
16,4 – 24,7
30,1
30,1
30,1
37,8
38,4
38,4
39,3
41,1
195
39
265,4
24,7 − 33
33 – 41,3
Группировка банков по величине балансовой прибыли (ден. ед.)
№
I
II
III
IV
Группа
банков по
величине
балансовой
прибыли
8,1 – 16,4
16,4 – 24,7
24,7 − 33
33 – 41,3
Всего
Балансовая
прибыль
всего
в среднем
на 1 банк
40,3
0
30,1
195
265,4
10,8
0
30,1
39
26,54
Колво
4
0
1
5
10
Собственный
капитал
Привлеченные
ресурсы
всего
в среднем
на 1 банк
всего
в среднем
на 1 банк
173,8
0
50,3
311,5
10
43,45
0
50,3
62,3
53,56
238,1
0
108,1
267,3
613,5
59,53
0
108,1
53,46
61,35
Вывод: У большинства банков средняя величина балансовой прибыли составляет
от 30 до 39 ден.ед.
2) Группировочный признак – «Сумма активов».
Число групп определено выше  п  4 :
Ширина интервала тогда будет:
h
X max  X min 41,1  8,1

 8,3 , где Х max  41,1 ; X min  8,1 .
n
4
3
Возьмем также показатели – «Объем вложений в государственные ценные бумаги»
и «Ссудная задолженность».
По признаку «Сумма активов» получаем границы интервалов.
Интервал
600 – 611,4
611,4 – 622,8
622,8 – 634,2
634,2 – 645,6
Количество банков
4
3
1
2
Группировка банков по сумме активов (ден. ед.)
Группа
I
Сумма
Среднее
II
Сумма
Среднее
III
Сумма
Среднее
IV
Сумма
Среднее
Всего
Сумма
активов
600
600,2
601,1
608,6
2409,9
602,48
614,4
616,4
619,2
1850
616,67
629
629
629
636,9
645,6
1282,5
641,25
6171,4
Интервал
600 − 611.4
611,4 – 622,8
622,8 – 634,2
634,2 – 645,6
Объем вложений в
государственные
ценные бумаги
Ссудная
задолженность
13,1
5,2
3,7
19,2
41,2
10,3
19,1
15
4,4
38,5
12,83
13,3
13,3
13,3
12,6
3,5
16,1
8,05
109,1
24,9
56,1
29,1
43,7
153,8
38,45
47,3
20,9
25,3
93,5
31,17
26,4
26,4
26,4
25,7
30,8
56,5
28,25
330,2
4
Группировка банков по сумме активов (ден. ед.)
№
Группа
предприятий по
сумме активов
I
II
III
IV
600 – 611,4
611,4 – 622,8
622,8 – 634,2
634,2 – 645,6
Всего
Сумма активов
в среднем
на 1 банк
2409,9
602,48
1850
616,67
629
629
1282,5
641,25
6171,4
617,14
Колво
всего
4
3
1
2
10
Объем вложений в
Ссудная
государственные
задолженность
ценные бумаги
в среднем
в среднем
всего
всего
на 1 банк
на 1 банк
41,2
10,3
153,8
38,45
38,5
12,83
93,5
31,17
13,3
13,3
26,4
26,4
16,1
8,05
56,5
28,25
109,1
10,91
330,2
33,02
Вывод: у всех банков средние суммы активов не намного отличаются друг от
друга.
Задание 2.
При изучении качества семян пшеницы было получено следующее распределение
семян по проценту всхожести:
Процент
70 75
всхожести
Число проб,
2
4
% к итогу
Рассчитайте моду и медиану.
80
85
90
92
95
7
29
46
8
3
Свыше
Итого
95
1
100
Решение
Мода – средняя величина вариационного ряда, соответствующая наиболее часто
повторяющейся варианте. Или, если выразиться по другому, это варианта, которой
соответствует наибольшая частота. Максимальное значение повторений при x  90
 n  46 . Следовательно, мода равна 90.
Процент
всхожести
Число проб,
% к итогу
S
Свыше
Итого
95
70
75
80
85
90
92
95
2
4
7
29
46
8
3
1
2
6
13
42
88
96
99
100
100
Медиана – значение варианты, делящей вариационный ряд пополам: по обе
стороны от нее находится равное число вариант. Медиана также, как и средняя
арифметическая и мода, относится к средним величинам. Находим xi , при котором
накопленная частота S будет больше
 n  51 .
2
5
Это значение xi  90 . Таким образом, медиана равна 90.
Задание 3.
При помощи столбиковой диаграммы изобразите данные о числе заключенных
браков населением России, тыс. чел.:
1990
1991
1992
1993
1994
1320
1277
1054
1107
867
Решение
1400
1200
1000
800
600
400
200
0
1990
1991
1992
1993
1994
Задание 4.
Имеются данные о распределении семей сотрудников финансовой корпорации по
количеству детей:
Число детей в семье
0
1
2
3
Число семей сотрудников по подразделениям
первое
второе
третье
4
7
5
6
10
13
3
3
3
2
1
-
Вычислите:
а) внутригрупповые дисперсии;
б) среднюю из внутригрупповых;
в) межгрупповую дисперсию;
г) общую дисперсии.
Проверьте правильность произведения расчетов с помощью правила сложения
дисперсий.
6
Решение
Вариация признака обусловлена различными факторами, некоторые из этих
факторов можно выделить, если статистическую совокупность разбить на группы по
какому-либо признаку. Тогда, наряду с изучением вариации признака по всей
совокупности в целом, становится возможным изучить вариацию для каждой из
составляющих ее группы, а также и между этими группами. В простейшем случае, когда
совокупность расчленена на группы по одному фактору, изучение вариации достигается
посредством исчисления и анализа трех видов дисперсий: общей, межгрупповой и
внутригрупповой.
Внутригрупповая (частная) дисперсия  i2 – отражает случайную вариацию, т.е.
часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от
признака-фактора, положенного в основание группировки. Она равна среднему квадрату
отклонений отдельных значений признака внутри группы х от средней арифметической
этой группы хi - (групповой средней) и может быть исчислена как простая дисперсия или
как взвешенная дисперсия по формулам, соответственно:
 x  x 
2
 
2
i
n
 x  x 

n
i
i
, 
2
i
2
n
.
Определим внутригрупповые дисперсии.
Число детей в семье, x
Число семей
сотрудников по
подразделениям, ni
первое
второе
третье
первое
второе
третье
третье
первое
второе
третье
Вспомогательная таблица
0
4
7
5
0
0
0
-1,2 -0,90 -0,90
1,44 0,82 0,82
5,76
5,73
4,09
1
6
10
13
6
10
13
-0,2
0,10
0,10
0,04 0,01 0,01
0,24
0,09
0,12
2
3
3
3
6
6
6
0,8
1,10
1,10
0,64 1,20 1,20
1,92
3,60
3,60
3
2
15
1
21
0
21
6
18
3
19
0
19
1,8
2,10
2,10
3,24 4,39 4,39
6,48 4,39
14,40 13,81
0,00
7,81
первое
третье
второе
второе
 x  xi 
x  xi
первое
xi  n
 x  xi 
2
2
n
По первому подразделению:
x1 
 х  n  0  4  1 6  2  3  3  2  18  1, 2
4 63 2
15
n
7
 12 
14, 40
 0,960
15
По второму подразделению:
х2 
19
 0,9
21
 22 
13,81
 0, 658
21
По третьему подразделению:
х3 
19
 0,9
21
 32 
7,81
 0,372
21
На основании внутригрупповой дисперсии по каждой группе, т.е. на основании  i2
можно определить общую среднюю из внутригрупповых дисперсий (остаточную
дисперсию):
2
i
 

2
i
п
п
2
; i 
0,960 15  0, 658  21  0,372  21 36, 02

 0, 632
15  21  21
57
Межгрупповая дисперсия  2 характеризует систематическую вариацию результативного
признака, обусловленную влиянием признака-фактора, положенного в основание
группировки. Она равна среднему квадрату отклонений групповых (частных) средних xi
от общей средней x :
2 
 x
i

2
x п
п
,
где n – численность единиц в группе.
Общая средняя равна:
x

2
1, 2 15  0,9  21  0,9  21 56

 0,982
15  21  21
57
1, 2  0,982 

2
15   0,9  0,982   21   0,9  0,982   21
2
15  21  21
2

0,963
 0, 017
57
8
Общая дисперсия  2 измеряет вариацию признака по всей совокупности под
влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату
отклонений отдельных значений признака х от общей средней х и определяется по
формуле:
2
 x  x

n
2
i
ni
.
i
Вспомогательная таблица
Число детей в
семье, x
0
1
2
3
2 
Число семей сотрудников по
подразделениям, n
4
7
5
6
10
13
3
3
3
2
1
0
15
21
21
ni
xi  x
 xi  x 
16
29
9
3
57
-0,982
0,018
1,018
2,018
0,965
0,000
1,035
4,070
2
 xi  x 
2
ni
15,444
0,009
9,319
12,211
36,982
36,982
 0, 649
57
Проверим правильность проведенных расчетов с помощью правила сложения
дисперсий. Согласно этому правилу, общая дисперсия равна сумме средней из
внутригрупповых и межгрупповой дисперсий:
2
 2  i  2
0,649 = 0,632 + 0,017.
0,649 = 0,649.
Задание 5.
По данным любого статистического ежегодника, например, «Россия в цифрах»,
«Российский
статистический
ежегодник
или
периодической
печати
подобрать
соответствующий цифровой материал и проанализировать с помощью описательной
статистики. Сделать выводы по полученным результатам.
9
Решение
Возьмем выборку из 180 банков по сумме выданных кредитов (млн. руб.) в 2017
году, которая представлено в таблице:
22,9
26,6
18,0
25,2
28,9
30,3
21,1
13,5
15,7
22,2
18,6
28,8
11,5
26,7
31,6
14,1
26,7
22,2
19,9
23,4
16,0
17,9
17,0
20,3
10,5
26,8
13,9
18,1
19,6
12,7
20,7
17,8
19,5
24,4
21,8
23,3
18,6
24,1
19,6
20,8
15,8
14,0
20,5
18,2
17,8
20,7
21,9
28,0
17,5
11,2
12,2
24,7
14,9
19,3
23,6
22,3
20,1
19,1
21,9
25,2
22,2
18,0
16,3
18,3
18,6
13,5
28,0
15,2
22,1
24,7
20,1
14,0
17,3
17,6
18,9
22,4
20,9
15,1
11,9
21,8
23,4
18,2
21,0
22,7
23,2
19,9
26,1
21,3
21,2
16,1
27,6
17,5
18,1
13,0
23,9
11,2
22,5
19,5
19,2
24,2
29,7
22,7
12,7
26,4
16,8
14,7
21,3
18,5
22,3
15,3
14,0
23,1
25,8
27,9
17,5
24,9
25,6
32,4
17,9
19,7
11,9
17,6
15,0
19,0
22,1
14,0
27,5
18,6
19,5
25,5
19,5
25,3
27,9
24,9
15,5
13,8
24,2
23,8
25,8
18,9
8,3
24,6
18,7
24,2
16,3
18,9
22,4
15,6
25,6
16,6
19,6
20,0
20,2
9,9
22,0
19,2
14,5
12,6
13,0
20,1
22,7
20,7
20,2
12,9
21,1
19,0
20,2
28,0
20,2
21,8
14,8
17,3
17,4
14,1
13,8
19,2
17,0
22,0
17,1
17,2
1.Составим интервальный вариационный ряд. Построим гистограмму и полигон
частот (на одном графике), эмпирическую функцию распределения (кумуляту).
Число групп находим по формуле Стэрджесса:
n  1  3,322log  n   1  3,322log 180   8
Ширина интервала равна:

xmax  xmin 32, 4  8,3

3
8
8
Найдем границы интервалов: [8,3 – 11,3); [11,3 – 14,3); [14,3 – 17,3); [17,3 – 20,3);
[20,3 – 23,3); [23,3 – 26,3); [26,3 – 29,3); [29,3 – 32,3].
Подсчитаем количество значений в каждом интервале и построим интервальный
вариационный ряд.
10
7
12
Гистограмма
17
22
29,3 − 32,3
26,3 − 29,3
23,3 − 26,3
20,3 − 23,3
17,3 − 20,3
14,3 − 17,3
11,3 − 14,3
8,3 − 11,3
Интервалы
[8,3 – 11,3)
[11,3 – 14,3)
[14,3 – 17,3)
[17,3 – 20,3)
[20,3 – 23,3)
[23,3 – 26,3)
[26,3 – 29,3)
[29,3 – 32,3]
Частота, ni
5
21
22
53
36
25
14
4
Строим полигон и гистограмму:
60
50
40
30
20
10
0
Полигон
Строим Кумуляту:
200
150
100
50
0
27
32
11
2.По сгруппированным данным вычислим выборочные числовые характеристики:
среднее арифметическое, исправленную выборочную дисперсию, среднее квадратичное
отклонение, коэффициент вариации, асимметрию, эксцесс, моду и медиану.
Строим таблицу промежуточных вычислений
Интервал
xi
Накопленная
частота, N
xi  ni
ni
xi  x  ni
8,3 – 11,3
9,8
5
49
5
50,422
11,3 – 14,3
12,8 21 268,8
26
148,773
14,3 – 17,3
15,8 22 347,6
48
89,858
17,3 – 20,3
18,8 53 996,4
101
57,476
20,3 – 23,3
21,8 36 784,8
137
68,96
23,3 – 26,3
24,8 25
620
162
122,889
26,3 – 29,3
27,8 14 389,2
176
110,818
29,3 – 32,4 30,85 4
123,4
180
43,862
Сумма
180 3579,2
693,058
Находим выборочные характеристики размеров вкладов.
 xi  x 
Относительная
2
 ni
508,48
1053,976
367,019
62,329
132,097
604,067
877,184
480,974
4086,126
ni
n
0,0278
0,117
0,122
0,294
0,2
0,139
0,0778
0,0222
1
частота,
Выборочное среднее:
x
1 n
1
xi 
 2579, 2  19,88

n i 1
180
Исправленная выборочная дисперсия:
sx2 
1 n
1
2
 xi  x    4086,126  22,83

n  1 i 1
179
Выборочная дисперсия:
ˆ x2 
n  1 2 179
 sx 
 22,83  22, 7
n
180
Стандартное отклонение:
sx  sx2  22,83  4,78
Выборочное среднее квадратичное отклонение:
ˆ x  ˆ x2  22,7  4,77
Выборочный коэффициент вариации:
V
ˆ x
x

4, 77
100%  23,96%
19,88
Так как V  30% , то совокупность однородна, а вариация слабая. Полученным
результатам можно доверять.
12
Для расчета асимметрии и эксцесса строим таблицу промежуточных вычислений:
Интервал
xi
ni
 xi  x  ·ni
 xi  x  ·ni
8,3 – 11,3
11,3 – 14,3
14,3 – 17,3
17,3 – 20,3
20,3 – 23,3
23,3 – 26,3
26,3 – 29,3
29,3 – 32,4
Сумма
9,8
12,8
15,8
18,8
21,8
24,8
27,8
30,9
5
21
22
53
36
25
14
4
180
-5127,7
-7466,8
-1499,1
-67,6
253
2969,3
6943,4
5274,1
1278,7
51710,4
52898,4
6122,9
73,3
484,7
14595,9
54960,9
57833,9
238680,3
3
4
Коэффициент асимметрии:

Aˆ х  33
ˆ х
где  3 – центральный момент третьего порядка.
ˆ х – среднеквадратическое отклонение.
3
x  x 

n
i
i
3
 ni
=
1278, 67
 7,1
180
Тогда
7,1
Aˆ х 
 0, 0657
4, 773
Оценка существенности показателя асимметрии дается с помощью средней
квадратической ошибки коэффициента асимметрии ˆ Aˆ . Если выполняется соотношение
х
Aˆ х
ˆ Aˆ
 3 , то асимметрия несущественная, ее наличие объясняется влиянием различных
х
случайных обстоятельств. Если имеет место соотношение
Aˆ х
ˆ Aˆ
 3 , то асимметрия
х
существенная и распределение признака в генеральной совокупности не является
симметричным.
ˆ Aˆ 
х
6 8  2 
6n  2

 0, 603
 n  1 n  3 8  18  3
В анализируемом ряду распределения наблюдается несущественная асимметрия:
 0, 0657

 0, 603  0,11  3 


13
Эксцесс оцениваем с помощью показателя:

Еˆ х  44
ˆ х
Для распределений более островершинных (вытянутых), чем нормальное,


показатель эксцесса положительный Eˆ x  0 , для более плосковершинных (сплюснутых)

– отрицательный Eˆ x  0 , т.к. для нормального распределения 44  3 .
ˆ

4

 x  x 

n
4
i
 ni
i
=
238680.34
 1326
180
1326
Еˆ х 
3  2,5732  3  0, 43
4, 77 4
Число 3 вычитается из отношения
распределения
4
потому, что для нормального закона
ˆ 4
4
 3 . Таким образом, для нормального распределения эксцесс равен
ˆ 4
нулю. Островершинные кривые обладают положительным эксцессом, кривые более
плосковершинные – отрицательным эксцессом.
Eˆ x  0 – плосковершинное распределение.
Чтобы оценить существенность эксцесса рассчитывают статистику
Eˆ x
, где ˆ Eˆ –
x
ˆ Eˆ
x
средняя квадратическая ошибка коэффициента эксцесса.
Если отношение
Eˆ x
 3 , то отклонение от нормального распределения считается
ˆ 4
существенным.
ˆ Eˆ 
x
24n  n  2  n  3
 n  1  n  3 n  5
2

24  8 8  2 8  3
8  1 8  38  5 
2
 0, 71
Поскольку ˆ Eˆ  3 , то отклонение от нормального распределения считается не
x
существенным.
Находим моду и медиану.
Мода
M o  x0  
ni  ni 1
53  22
 17,3  3 
 19, 2
 ni  ni 1    ni  ni 1 
53  22  53  36
14
Где x0 – начало модального интервала;  – величина интервала; ni – частота,
соответствующая
модальному
интервалу;
ni 1 –
предмодальная
частота;
ni 1 –
послемодальная частота.
Выбираем в качестве начала интервала 17,3, так как именно на этот интервал
приходится наибольшее количество.
Медиана.
Медиана соответствует варианту, стоящему в середине ранжированного ряда.
Медианным является интервал 17,3 – 20,3, т.к. в этом интервале накопленная частота S,
больше медианного номера (медианным называется первый интервал, накопленная
частота S которого превышает половину общей суммы частот).
Me  x0 

   ni
3  180

 
 N me 1   17,3   
 48   19, 7
nme  2
53  2


3.Используя χ2-критерий Пирсона, на уровне значимости α=0,05 проверить
гипотезу о том, что случайная величина ξ – сумма кредитов – распределена по
нормальному закону. Построить на чертеже, содержащем гистограмму эмпирического
распределения, соответствующую нормальную кривую.
Проверим гипотезу о нормальном распределении с помощью критерия согласия
Пирсона. Для этого вычислим значение показателя:

 ni  npi 
npi
2
. Здесь pi – вероятность
попадания в i-й интервал случайной величины, распределенной по гипотетическому
закону. Для вычисления вероятностей pi применим формулу и таблицу функции Лапласа:
x x 
 xi  x 
  i 1
 

 ˆ x 
 ˆ x 
Здесь ˆ х  4, 77 , x  19,88
15
Теоретическая частота равна ni  npi , где n  200 . Вероятность попадания в i-й
интервал: pi    x2     x1 
Интервал
ni
8,3 – 11,3
11,3 – 14,3
14,3 – 17,3
17,3 – 20,3
20,3 – 23,3
23,3 – 26,3
26,3 – 29,3
29,3 – 32,4
Сумма
5
21
22
53
36
25
14
4
180
x1 
xi  x
ˆ х
-2,4246
-1,7967
-1,1688
-0,5409
0,08698
0,7149
1,3428
1,9707
x1 
xi 1  x
ˆ х
-1,7967
-1,1688
-0,5409
0,08698
0,7149
1,3428
1,9707
2,6195
  x1 
  x2 
pi    x2     x1 
ni  pi
-0,4927
-0,4641
-0,379
-0,2088
0,0359
0,2642
0,4115
0,4761
-0,4641
-0,379
-0,2088
0,0359
0,2642
0,4115
0,4761
0,4956
0,0286
0,0851
0,1702
0,2447
0,2283
0,1473
0,0646
0,0195
5,148
15,318
30,636
44,046
41,094
26,514
11,628
3,51
 ni  npi 
npi
0,0042
2,1076
2,4344
1,8202
0,6314
0,0864
0,4838
0,0684
7,6364
Получили выборочное (наблюдаемое) значение статистики:
K набл  
 ni  npi 
npi
2
 7, 6364
Определим границу критической области. Так как статистика Пирсона измеряет
разницу между эмпирическим и теоретическим распределениями, то чем больше ее
наблюдаемое значение K набл , тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя:
 K кp ;   .
Её границу Kкp   2  k  r 1;  находим по таблицам распределения  2 и заданным
значениям ˆ х , k (число интервалов), r  2 (параметры x и ˆ х оценены по выборке).
Kкp   2 8  2 1;0,05  11,07050 ; K набл  7, 6364 .
Наблюдаемое значение статистики Пирсона не попадает в критическую область:
К набл  K кp , поэтому нет оснований отвергать основную гипотезу. Справедливо
предположение о том, что данные выборки имеют нормальное распределение.
Строим на чертеже, содержащем гистограмму эмпирического распределения,
соответствующую нормальную кривую.
16
2
Гистограмма
Нормальная кривая
29,3 − 32,3
26,3 − 29,3
23,3 − 26,3
20,3 − 23,3
17,3 − 20,3
14,3 − 17,3
11,3 − 14,3
8,3 − 11,3
60
50
40
30
20
10
0
Полигон
17
Скачать