Вариант 1 Задание 1. Известны следующие данные по основным показателям деятельности крупнейших банков одной из областей России (данные условные): № п/п Сумма активов Собственный капитал Привлеченные ресурсы Балансовая прибыль Объем вложений в государственные ценные бумаги Ссудная задолженность 1 645,6 12 27,1 8,1 3,5 30,8 2 636,9 70,4 56,3 9,5 12,6 25,7 3 629 41 95,7 38,4 13,3 26,4 4 619,2 120,8 44,8 38,4 4,4 25,3 5 616,4 49,4 108,7 13,4 15 20,9 6 614,4 50,3 108,1 30,1 19,1 47,3 7 608,6 70 76,1 37,8 19,2 43,7 8 601,1 52,4 26,3 41,1 3,7 29,1 9 600,2 42 46 9,3 5,2 56,1 10 600 27,3 24,4 39,3 13,1 24,9 Постройте группировку коммерческих банков по двум признакам: по величине балансовой прибыли и сумме активов. По каждой группе и подгруппе определите число банков, величину балансовой прибыли и сумму активов и другие два – три показателя, взаимосвязанных с группировочными. Результаты группировки оформите в виде таблицы и сформулируйте выводы. Решение 1) Группировочный признак – «Балансовая прибыль». Число групп приближенно определяется по формуле Стэрджесса: n 1 3,322lg n 1 3,322lg 10 4 Ширина интервала тогда будет: h X max X min 41,1 8,1 8,3 , где Х max 41,1 ; X min 8,1 . n 4 Возьмем также показатели – «Собственный капитал» и «Привлеченные ресурсы». По признаку «Балансовая прибыль» получаем границы интервалов. Интервал 8,1 – 16,4 16,4 – 24,7 24,7 − 33 33 – 41,3 Количество банков 4 0 1 5 Группировка банков по величине балансовой прибыли (ден. ед.) Группа I Сумма Среднее II III Сумма Среднее IV Сумма Среднее Всего Балансовая прибыль 8,1 9,3 9,5 13,4 40,3 10,08 Интервал 8,1 – 16,4 Собственный Привлеченные капитал ресурсы 12 42 70,4 49,4 173,8 43,45 27,1 46 56,3 108,7 238,1 59,53 50,3 50,3 50,3 70 41 120,8 27,3 52,4 311,5 62,3 535,6 108,1 108,1 108,1 76,1 95,7 44,8 24,4 26,3 267,3 53,46 613,5 16,4 – 24,7 30,1 30,1 30,1 37,8 38,4 38,4 39,3 41,1 195 39 265,4 24,7 − 33 33 – 41,3 Группировка банков по величине балансовой прибыли (ден. ед.) № I II III IV Группа банков по величине балансовой прибыли 8,1 – 16,4 16,4 – 24,7 24,7 − 33 33 – 41,3 Всего Балансовая прибыль всего в среднем на 1 банк 40,3 0 30,1 195 265,4 10,8 0 30,1 39 26,54 Колво 4 0 1 5 10 Собственный капитал Привлеченные ресурсы всего в среднем на 1 банк всего в среднем на 1 банк 173,8 0 50,3 311,5 10 43,45 0 50,3 62,3 53,56 238,1 0 108,1 267,3 613,5 59,53 0 108,1 53,46 61,35 Вывод: У большинства банков средняя величина балансовой прибыли составляет от 30 до 39 ден.ед. 2) Группировочный признак – «Сумма активов». Число групп определено выше п 4 : Ширина интервала тогда будет: h X max X min 41,1 8,1 8,3 , где Х max 41,1 ; X min 8,1 . n 4 3 Возьмем также показатели – «Объем вложений в государственные ценные бумаги» и «Ссудная задолженность». По признаку «Сумма активов» получаем границы интервалов. Интервал 600 – 611,4 611,4 – 622,8 622,8 – 634,2 634,2 – 645,6 Количество банков 4 3 1 2 Группировка банков по сумме активов (ден. ед.) Группа I Сумма Среднее II Сумма Среднее III Сумма Среднее IV Сумма Среднее Всего Сумма активов 600 600,2 601,1 608,6 2409,9 602,48 614,4 616,4 619,2 1850 616,67 629 629 629 636,9 645,6 1282,5 641,25 6171,4 Интервал 600 − 611.4 611,4 – 622,8 622,8 – 634,2 634,2 – 645,6 Объем вложений в государственные ценные бумаги Ссудная задолженность 13,1 5,2 3,7 19,2 41,2 10,3 19,1 15 4,4 38,5 12,83 13,3 13,3 13,3 12,6 3,5 16,1 8,05 109,1 24,9 56,1 29,1 43,7 153,8 38,45 47,3 20,9 25,3 93,5 31,17 26,4 26,4 26,4 25,7 30,8 56,5 28,25 330,2 4 Группировка банков по сумме активов (ден. ед.) № Группа предприятий по сумме активов I II III IV 600 – 611,4 611,4 – 622,8 622,8 – 634,2 634,2 – 645,6 Всего Сумма активов в среднем на 1 банк 2409,9 602,48 1850 616,67 629 629 1282,5 641,25 6171,4 617,14 Колво всего 4 3 1 2 10 Объем вложений в Ссудная государственные задолженность ценные бумаги в среднем в среднем всего всего на 1 банк на 1 банк 41,2 10,3 153,8 38,45 38,5 12,83 93,5 31,17 13,3 13,3 26,4 26,4 16,1 8,05 56,5 28,25 109,1 10,91 330,2 33,02 Вывод: у всех банков средние суммы активов не намного отличаются друг от друга. Задание 2. При изучении качества семян пшеницы было получено следующее распределение семян по проценту всхожести: Процент 70 75 всхожести Число проб, 2 4 % к итогу Рассчитайте моду и медиану. 80 85 90 92 95 7 29 46 8 3 Свыше Итого 95 1 100 Решение Мода – средняя величина вариационного ряда, соответствующая наиболее часто повторяющейся варианте. Или, если выразиться по другому, это варианта, которой соответствует наибольшая частота. Максимальное значение повторений при x 90 n 46 . Следовательно, мода равна 90. Процент всхожести Число проб, % к итогу S Свыше Итого 95 70 75 80 85 90 92 95 2 4 7 29 46 8 3 1 2 6 13 42 88 96 99 100 100 Медиана – значение варианты, делящей вариационный ряд пополам: по обе стороны от нее находится равное число вариант. Медиана также, как и средняя арифметическая и мода, относится к средним величинам. Находим xi , при котором накопленная частота S будет больше n 51 . 2 5 Это значение xi 90 . Таким образом, медиана равна 90. Задание 3. При помощи столбиковой диаграммы изобразите данные о числе заключенных браков населением России, тыс. чел.: 1990 1991 1992 1993 1994 1320 1277 1054 1107 867 Решение 1400 1200 1000 800 600 400 200 0 1990 1991 1992 1993 1994 Задание 4. Имеются данные о распределении семей сотрудников финансовой корпорации по количеству детей: Число детей в семье 0 1 2 3 Число семей сотрудников по подразделениям первое второе третье 4 7 5 6 10 13 3 3 3 2 1 - Вычислите: а) внутригрупповые дисперсии; б) среднюю из внутригрупповых; в) межгрупповую дисперсию; г) общую дисперсии. Проверьте правильность произведения расчетов с помощью правила сложения дисперсий. 6 Решение Вариация признака обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку. Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучить вариацию для каждой из составляющих ее группы, а также и между этими группами. В простейшем случае, когда совокупность расчленена на группы по одному фактору, изучение вариации достигается посредством исчисления и анализа трех видов дисперсий: общей, межгрупповой и внутригрупповой. Внутригрупповая (частная) дисперсия i2 – отражает случайную вариацию, т.е. часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х от средней арифметической этой группы хi - (групповой средней) и может быть исчислена как простая дисперсия или как взвешенная дисперсия по формулам, соответственно: x x 2 2 i n x x n i i , 2 i 2 n . Определим внутригрупповые дисперсии. Число детей в семье, x Число семей сотрудников по подразделениям, ni первое второе третье первое второе третье третье первое второе третье Вспомогательная таблица 0 4 7 5 0 0 0 -1,2 -0,90 -0,90 1,44 0,82 0,82 5,76 5,73 4,09 1 6 10 13 6 10 13 -0,2 0,10 0,10 0,04 0,01 0,01 0,24 0,09 0,12 2 3 3 3 6 6 6 0,8 1,10 1,10 0,64 1,20 1,20 1,92 3,60 3,60 3 2 15 1 21 0 21 6 18 3 19 0 19 1,8 2,10 2,10 3,24 4,39 4,39 6,48 4,39 14,40 13,81 0,00 7,81 первое третье второе второе x xi x xi первое xi n x xi 2 2 n По первому подразделению: x1 х n 0 4 1 6 2 3 3 2 18 1, 2 4 63 2 15 n 7 12 14, 40 0,960 15 По второму подразделению: х2 19 0,9 21 22 13,81 0, 658 21 По третьему подразделению: х3 19 0,9 21 32 7,81 0,372 21 На основании внутригрупповой дисперсии по каждой группе, т.е. на основании i2 можно определить общую среднюю из внутригрупповых дисперсий (остаточную дисперсию): 2 i 2 i п п 2 ; i 0,960 15 0, 658 21 0,372 21 36, 02 0, 632 15 21 21 57 Межгрупповая дисперсия 2 характеризует систематическую вариацию результативного признака, обусловленную влиянием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних xi от общей средней x : 2 x i 2 x п п , где n – численность единиц в группе. Общая средняя равна: x 2 1, 2 15 0,9 21 0,9 21 56 0,982 15 21 21 57 1, 2 0,982 2 15 0,9 0,982 21 0,9 0,982 21 2 15 21 21 2 0,963 0, 017 57 8 Общая дисперсия 2 измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака х от общей средней х и определяется по формуле: 2 x x n 2 i ni . i Вспомогательная таблица Число детей в семье, x 0 1 2 3 2 Число семей сотрудников по подразделениям, n 4 7 5 6 10 13 3 3 3 2 1 0 15 21 21 ni xi x xi x 16 29 9 3 57 -0,982 0,018 1,018 2,018 0,965 0,000 1,035 4,070 2 xi x 2 ni 15,444 0,009 9,319 12,211 36,982 36,982 0, 649 57 Проверим правильность проведенных расчетов с помощью правила сложения дисперсий. Согласно этому правилу, общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий: 2 2 i 2 0,649 = 0,632 + 0,017. 0,649 = 0,649. Задание 5. По данным любого статистического ежегодника, например, «Россия в цифрах», «Российский статистический ежегодник или периодической печати подобрать соответствующий цифровой материал и проанализировать с помощью описательной статистики. Сделать выводы по полученным результатам. 9 Решение Возьмем выборку из 180 банков по сумме выданных кредитов (млн. руб.) в 2017 году, которая представлено в таблице: 22,9 26,6 18,0 25,2 28,9 30,3 21,1 13,5 15,7 22,2 18,6 28,8 11,5 26,7 31,6 14,1 26,7 22,2 19,9 23,4 16,0 17,9 17,0 20,3 10,5 26,8 13,9 18,1 19,6 12,7 20,7 17,8 19,5 24,4 21,8 23,3 18,6 24,1 19,6 20,8 15,8 14,0 20,5 18,2 17,8 20,7 21,9 28,0 17,5 11,2 12,2 24,7 14,9 19,3 23,6 22,3 20,1 19,1 21,9 25,2 22,2 18,0 16,3 18,3 18,6 13,5 28,0 15,2 22,1 24,7 20,1 14,0 17,3 17,6 18,9 22,4 20,9 15,1 11,9 21,8 23,4 18,2 21,0 22,7 23,2 19,9 26,1 21,3 21,2 16,1 27,6 17,5 18,1 13,0 23,9 11,2 22,5 19,5 19,2 24,2 29,7 22,7 12,7 26,4 16,8 14,7 21,3 18,5 22,3 15,3 14,0 23,1 25,8 27,9 17,5 24,9 25,6 32,4 17,9 19,7 11,9 17,6 15,0 19,0 22,1 14,0 27,5 18,6 19,5 25,5 19,5 25,3 27,9 24,9 15,5 13,8 24,2 23,8 25,8 18,9 8,3 24,6 18,7 24,2 16,3 18,9 22,4 15,6 25,6 16,6 19,6 20,0 20,2 9,9 22,0 19,2 14,5 12,6 13,0 20,1 22,7 20,7 20,2 12,9 21,1 19,0 20,2 28,0 20,2 21,8 14,8 17,3 17,4 14,1 13,8 19,2 17,0 22,0 17,1 17,2 1.Составим интервальный вариационный ряд. Построим гистограмму и полигон частот (на одном графике), эмпирическую функцию распределения (кумуляту). Число групп находим по формуле Стэрджесса: n 1 3,322log n 1 3,322log 180 8 Ширина интервала равна: xmax xmin 32, 4 8,3 3 8 8 Найдем границы интервалов: [8,3 – 11,3); [11,3 – 14,3); [14,3 – 17,3); [17,3 – 20,3); [20,3 – 23,3); [23,3 – 26,3); [26,3 – 29,3); [29,3 – 32,3]. Подсчитаем количество значений в каждом интервале и построим интервальный вариационный ряд. 10 7 12 Гистограмма 17 22 29,3 − 32,3 26,3 − 29,3 23,3 − 26,3 20,3 − 23,3 17,3 − 20,3 14,3 − 17,3 11,3 − 14,3 8,3 − 11,3 Интервалы [8,3 – 11,3) [11,3 – 14,3) [14,3 – 17,3) [17,3 – 20,3) [20,3 – 23,3) [23,3 – 26,3) [26,3 – 29,3) [29,3 – 32,3] Частота, ni 5 21 22 53 36 25 14 4 Строим полигон и гистограмму: 60 50 40 30 20 10 0 Полигон Строим Кумуляту: 200 150 100 50 0 27 32 11 2.По сгруппированным данным вычислим выборочные числовые характеристики: среднее арифметическое, исправленную выборочную дисперсию, среднее квадратичное отклонение, коэффициент вариации, асимметрию, эксцесс, моду и медиану. Строим таблицу промежуточных вычислений Интервал xi Накопленная частота, N xi ni ni xi x ni 8,3 – 11,3 9,8 5 49 5 50,422 11,3 – 14,3 12,8 21 268,8 26 148,773 14,3 – 17,3 15,8 22 347,6 48 89,858 17,3 – 20,3 18,8 53 996,4 101 57,476 20,3 – 23,3 21,8 36 784,8 137 68,96 23,3 – 26,3 24,8 25 620 162 122,889 26,3 – 29,3 27,8 14 389,2 176 110,818 29,3 – 32,4 30,85 4 123,4 180 43,862 Сумма 180 3579,2 693,058 Находим выборочные характеристики размеров вкладов. xi x Относительная 2 ni 508,48 1053,976 367,019 62,329 132,097 604,067 877,184 480,974 4086,126 ni n 0,0278 0,117 0,122 0,294 0,2 0,139 0,0778 0,0222 1 частота, Выборочное среднее: x 1 n 1 xi 2579, 2 19,88 n i 1 180 Исправленная выборочная дисперсия: sx2 1 n 1 2 xi x 4086,126 22,83 n 1 i 1 179 Выборочная дисперсия: ˆ x2 n 1 2 179 sx 22,83 22, 7 n 180 Стандартное отклонение: sx sx2 22,83 4,78 Выборочное среднее квадратичное отклонение: ˆ x ˆ x2 22,7 4,77 Выборочный коэффициент вариации: V ˆ x x 4, 77 100% 23,96% 19,88 Так как V 30% , то совокупность однородна, а вариация слабая. Полученным результатам можно доверять. 12 Для расчета асимметрии и эксцесса строим таблицу промежуточных вычислений: Интервал xi ni xi x ·ni xi x ·ni 8,3 – 11,3 11,3 – 14,3 14,3 – 17,3 17,3 – 20,3 20,3 – 23,3 23,3 – 26,3 26,3 – 29,3 29,3 – 32,4 Сумма 9,8 12,8 15,8 18,8 21,8 24,8 27,8 30,9 5 21 22 53 36 25 14 4 180 -5127,7 -7466,8 -1499,1 -67,6 253 2969,3 6943,4 5274,1 1278,7 51710,4 52898,4 6122,9 73,3 484,7 14595,9 54960,9 57833,9 238680,3 3 4 Коэффициент асимметрии: Aˆ х 33 ˆ х где 3 – центральный момент третьего порядка. ˆ х – среднеквадратическое отклонение. 3 x x n i i 3 ni = 1278, 67 7,1 180 Тогда 7,1 Aˆ х 0, 0657 4, 773 Оценка существенности показателя асимметрии дается с помощью средней квадратической ошибки коэффициента асимметрии ˆ Aˆ . Если выполняется соотношение х Aˆ х ˆ Aˆ 3 , то асимметрия несущественная, ее наличие объясняется влиянием различных х случайных обстоятельств. Если имеет место соотношение Aˆ х ˆ Aˆ 3 , то асимметрия х существенная и распределение признака в генеральной совокупности не является симметричным. ˆ Aˆ х 6 8 2 6n 2 0, 603 n 1 n 3 8 18 3 В анализируемом ряду распределения наблюдается несущественная асимметрия: 0, 0657 0, 603 0,11 3 13 Эксцесс оцениваем с помощью показателя: Еˆ х 44 ˆ х Для распределений более островершинных (вытянутых), чем нормальное, показатель эксцесса положительный Eˆ x 0 , для более плосковершинных (сплюснутых) – отрицательный Eˆ x 0 , т.к. для нормального распределения 44 3 . ˆ 4 x x n 4 i ni i = 238680.34 1326 180 1326 Еˆ х 3 2,5732 3 0, 43 4, 77 4 Число 3 вычитается из отношения распределения 4 потому, что для нормального закона ˆ 4 4 3 . Таким образом, для нормального распределения эксцесс равен ˆ 4 нулю. Островершинные кривые обладают положительным эксцессом, кривые более плосковершинные – отрицательным эксцессом. Eˆ x 0 – плосковершинное распределение. Чтобы оценить существенность эксцесса рассчитывают статистику Eˆ x , где ˆ Eˆ – x ˆ Eˆ x средняя квадратическая ошибка коэффициента эксцесса. Если отношение Eˆ x 3 , то отклонение от нормального распределения считается ˆ 4 существенным. ˆ Eˆ x 24n n 2 n 3 n 1 n 3 n 5 2 24 8 8 2 8 3 8 1 8 38 5 2 0, 71 Поскольку ˆ Eˆ 3 , то отклонение от нормального распределения считается не x существенным. Находим моду и медиану. Мода M o x0 ni ni 1 53 22 17,3 3 19, 2 ni ni 1 ni ni 1 53 22 53 36 14 Где x0 – начало модального интервала; – величина интервала; ni – частота, соответствующая модальному интервалу; ni 1 – предмодальная частота; ni 1 – послемодальная частота. Выбираем в качестве начала интервала 17,3, так как именно на этот интервал приходится наибольшее количество. Медиана. Медиана соответствует варианту, стоящему в середине ранжированного ряда. Медианным является интервал 17,3 – 20,3, т.к. в этом интервале накопленная частота S, больше медианного номера (медианным называется первый интервал, накопленная частота S которого превышает половину общей суммы частот). Me x0 ni 3 180 N me 1 17,3 48 19, 7 nme 2 53 2 3.Используя χ2-критерий Пирсона, на уровне значимости α=0,05 проверить гипотезу о том, что случайная величина ξ – сумма кредитов – распределена по нормальному закону. Построить на чертеже, содержащем гистограмму эмпирического распределения, соответствующую нормальную кривую. Проверим гипотезу о нормальном распределении с помощью критерия согласия Пирсона. Для этого вычислим значение показателя: ni npi npi 2 . Здесь pi – вероятность попадания в i-й интервал случайной величины, распределенной по гипотетическому закону. Для вычисления вероятностей pi применим формулу и таблицу функции Лапласа: x x xi x i 1 ˆ x ˆ x Здесь ˆ х 4, 77 , x 19,88 15 Теоретическая частота равна ni npi , где n 200 . Вероятность попадания в i-й интервал: pi x2 x1 Интервал ni 8,3 – 11,3 11,3 – 14,3 14,3 – 17,3 17,3 – 20,3 20,3 – 23,3 23,3 – 26,3 26,3 – 29,3 29,3 – 32,4 Сумма 5 21 22 53 36 25 14 4 180 x1 xi x ˆ х -2,4246 -1,7967 -1,1688 -0,5409 0,08698 0,7149 1,3428 1,9707 x1 xi 1 x ˆ х -1,7967 -1,1688 -0,5409 0,08698 0,7149 1,3428 1,9707 2,6195 x1 x2 pi x2 x1 ni pi -0,4927 -0,4641 -0,379 -0,2088 0,0359 0,2642 0,4115 0,4761 -0,4641 -0,379 -0,2088 0,0359 0,2642 0,4115 0,4761 0,4956 0,0286 0,0851 0,1702 0,2447 0,2283 0,1473 0,0646 0,0195 5,148 15,318 30,636 44,046 41,094 26,514 11,628 3,51 ni npi npi 0,0042 2,1076 2,4344 1,8202 0,6314 0,0864 0,4838 0,0684 7,6364 Получили выборочное (наблюдаемое) значение статистики: K набл ni npi npi 2 7, 6364 Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение K набл , тем сильнее довод против основной гипотезы. Поэтому критическая область для этой статистики всегда правосторонняя: K кp ; . Её границу Kкp 2 k r 1; находим по таблицам распределения 2 и заданным значениям ˆ х , k (число интервалов), r 2 (параметры x и ˆ х оценены по выборке). Kкp 2 8 2 1;0,05 11,07050 ; K набл 7, 6364 . Наблюдаемое значение статистики Пирсона не попадает в критическую область: К набл K кp , поэтому нет оснований отвергать основную гипотезу. Справедливо предположение о том, что данные выборки имеют нормальное распределение. Строим на чертеже, содержащем гистограмму эмпирического распределения, соответствующую нормальную кривую. 16 2 Гистограмма Нормальная кривая 29,3 − 32,3 26,3 − 29,3 23,3 − 26,3 20,3 − 23,3 17,3 − 20,3 14,3 − 17,3 11,3 − 14,3 8,3 − 11,3 60 50 40 30 20 10 0 Полигон 17