Обобщающие показатели одномерного набора данных Анализ данных

реклама
Обобщающие показатели одномерного набора данных
Статистический пакет Анализ данных включает в себя два инструмента
для анализа одномерного набора данных: Описательная статистика и Ранг и
персентиль. С помощью инструмента Описательная статистика
рассчитываются показатели, характеризующие типические значения,
изменчивость и ассиметрию данных. Инструмент Ранг и персентиль создает
таблицу исходных данных, упорядоченных в соответствии с порядковыми
числами (рангами) и персентилем.
Использование инструмента анализа Описательная статистика
Задание Определить обобщающие характеристики для анализа цен
1.
15 объектов.
В таблице 1 представлены цены 15 объектов.
Таблица 1. Цены объектов
Объект
1
2
3
4
5
Цена, дол.
26,0
31,0
37,4
34,8
39,2
Объект
6
7
8
9
10
Цена, дол.
38,0
39,6
31,2
37,2
38,4
Объект
11
12
13
14
15
Цена, дол.
43,6
44,8
40,6
41,8
45,2
1. Откройте программу Excel. Щелкните на кнопке Сохранить на панели
инструментов Стандартная. В появившемся диалоговом окне откройте папку
Статистика и задайте имя файлу Описательная статистика.xls.
2. На Листе1 в ячейке A1 задайте метку Цена, а в диапазон A2:A16
введите данные из Таблицы 1.
3. Выберите из меню команду: СервисАнализ данныхОписательная
статистика. Щелкните на кнопке OK.
4. В появившемся диалоговом окне в области Входные данные укажите
Входной интервал:, выделяя диапазон данных А1:А16 вместе с меткой.
Параметр Группирование: выберите по столбцам. Установите флажок Метки
в первой строке, т.к. выбранные ячейки включают в себя подписи.
1
5. В области Параметры вывода включите параметр Выходной интервал:.
Для определения места вывода на листе сначала щелкните в текстовом поле
параметра Выходной интервал:, а затем выделите ячейку С1, указывающую
адрес левого верхнего угла области вывода данных. Установите следующие
флажки:
Итоговая статистика Данная опция управляет выводом
выходных данных.
Уровень надежности: Данная опция вычисляет половину длины
доверительного интервала для среднего с заданной значимостью
(в %). В нашем примере установите значимость равной 90%.
Это означает, что вероятность того, что среднее генеральной
совокупности данных находится в пределах доверительного
интервала, равна 0,9.
К-ый наименьший: Эта опция определяет k-ое наименьшее
значение из входных данных. В нашем примере введите K
равным 4.
К-ый наибольший: Эта опция определяет k-ое наибольшее
значение из входных данных. В нашем примере введите K
равным 4.
6. Щелкните на кнопке OK. Excel вычислит обобщающие показатели и
разместит их в виде таблицы в двух столбцах C и D.
Форматирование таблицы с выходными данными
7. Чтобы ширина столбцов была достаточной для отображения самой
длинной ячейки, выделите столбцы C и D, а затем выберите команду:
2
ФорматСтолбец Автоподбор ширины.
8. Некоторые значения в таблице отображаются с девятью десятичными
знаками после запятой. Для удобства чтения выделите одновременно ячейки
D4, D7:D10, D18 и уменьшите разрядность значений до двух знаков после
запятой, используя соответствующую копку на панели инструментов
Форматирование.
9. Измените ширину столбца D, дважды щелкнув на правой границе
заголовка этого столбца. Ниже показан полученный вид таблицы выходных
данных.
Цена
Среднее
Стандартная ошибка
Медиана
Мода
Стандартное
отклонение
Дисперсия выборки
Эксцесс
Асимметричность
Интервал
Минимум
Максимум
Сумма
Счет
Наибольший(4)
Наименьший(4)
Уровень
надежности(90,0%)
37,92
1,39
38,4
#Н/Д
5,38
28,94
0,30
-0,73
19,2
26
45,2
568,8
15
41,8
34,8
2,45
Интерпретация результатов
10.Выходные данные содержат три обобщающих показателя, которые
называются типическими значениями.
 Среднее – это средняя цена объектов, равная $37,92. Получается как
результат деления суммы цен всех объектов (Сумма $568,8) на
количество объектов (Счет 15).
 Медиана – значение, расположенное посередине упорядоченного
набора данных. В нашем примере значение медианы равно $38,4.
 Мода – наиболее часто встречающееся значение. Если встречается
несколько часто встречающихся значений, то Excel выводит первое
из них. Если каждое значение встречается один раз, то Excel
выводит запись #Н/Д. В таком случае надо получить таблицу
распределения частот, в которой интервал с наибольшей частотой
3
называется модальным интервалом. Для определения модального
интервала рекомендуется использовать гистограммы.
Задание
2.
Определить модальный интервал.
По данным Таблицы 1 в файле Описательная статистика.xls на Листе1
постройте гистограмму для диапазона данных A1:A16, включая метку.
Интервал входных значений задайте явно равным 5. Нижнюю границу
диапазона входных значений примите равной 25, а верхнюю границу равной
50. Значения карманов вместе с меткой Карман расположите в ячейках
F1:F7. Выведите гистограмму вместе с таблицей распределения частот в
область H1:O10. Укажите величину модального интервала.
11.В таблице описательной статистики имеется несколько показателей,
характеризующих изменчивость (разброс) данных.
 Интервал – размах значений, равный ($19,2). Определяется как
разность между Максимумом ($45,2) и Минимумом ($26).
 Дисперсия выборки (28,94). Вычисляется как результат деления
суммы квадратов отклонений каждого значения от Среднего на n-1.
Выражается в единицах в квадрате ($2).
 Стандартное отклонение ($5,38) – корень квадратный из Дисперсии
выборки. Стандартное отклонение приближенно показывает,
насколько отдельные значения выборки отличаются от их Среднего.
Измеряется в тех же единицах, что и входные данные.
 Стандартная
ошибка
($1,39)
является
характеристикой
достоверности Среднего. Вычисляется как Стандартное отклонение,
поделенное на n . Данная характеристика показывает, насколько
Среднее
выборки
отличается
от
среднего
генеральной
совокупности.
 Нибольший(4) и Наименьший(4) являются соответственно
четвертым наибольшим ($41,8) и четвертым наименьшим ($34,8)
значениями входных данных.
 Уровень надежности(90,0%), равный $2,45, определяет половину
длины 90%-го доверительного интервала для Среднего.
Следовательно, 90%-й доверительный интервал равен (37,92-2,45;
37,92+2,45), т.е. (35,47; 40,37).
12.Третья группа показателей характеризует степень симметричности
данных.
 Эксцесс
(0,3)
является
показателем
островершинности
симметричных распределений. Если распределение более плоское,
чем нормальное (т.е. имеет более «тяжелые» хвосты), то Эксцесс
будет положительным. Если же распределение имеет более
выраженный пик, чем нормальное (т.е. имеет более «легкие»
хвосты), то Эксцесс отрицательный. В нашем примере (см.
4
гистограмму) распределение примерно симметричное с небольшим
положительным Эксцессом.
 Ассиметричность (К=–0,73) определяет степень симметрии данных.
Если большинство экстремальных значений расположено в
положительном направлении от центра распределения (скошено
вправо), то Ассиметричность положительна. В этом случае Среднее
больше Медианы. Если же большинство экстремальных значений
расположено
в
отрицательном
направлении
от
центра
распределения (скошено влево), то Ассиметричность отрицательна
и Среднее меньше Медианы. Ниже приведена интерпретация
показателя Ассиметричности (К) для Excel.
K < –0,5
скошено влево
–1  K  1 приблизительно симметрично
K>1
скошено вправо
В нашем примере (см. гистограмму) данные приблизительно
симметричны с небольшим отрицательным отклонением (скос
влево).
Среднее: типическое значение для количественных данных
Среднее можно интерпретировать как равномерное распределение суммы
всех значений между элементарными единицами совокупности. Таким
образом, если каждое значение из набора данных заменить средним, то
общая сумма не изменится. Это свойство среднего полезно в тех ситуациях,
когда необходимо планировать общую сумму для большой группы. В этом
случае сначала вычисляют среднее для выборки данных из этой группы.
Затем полученное среднее умножают на количество элементов в большой
группе. В результате получают оценку или прогноз суммы для большей по
размеру совокупности.
Задание Определить количество бракованных изделий в дневном
3.
выпуске.
Каждая партия изделий компании содержит 1000 изделий. В дневном
выпуске произведено 253 партии. Для проведения контроля качества изделий
была случайным образом взята выборка, включающая 10 партий. Число
бракованных изделий в каждой партии составило: 3, 8, 2, 5, 0, 7, 14, 7, 4, 1.
Определить, какое количество бракованных изделий можно ожидать в
дневном выпуске, состоящем из 253 000 изделий.
1. Откройте файл Описательная статистика.xls.
2. На Листе2 в ячейке А1 задайте метку Брак, а в диапазон A2:A11
введите исходные данные.
3. В ячейке С1 задайте метку Среднее, а в ячейке С2 вычислите Среднее
(уровень брака) для бракованных изделий из заданной выборки данных.
Замечание. При расчете среднего воспользуйтесь статистической
функцией СРЗНАЧ.
5
4. В ячейке А13 задайте метку Количество бракованных изделий. В
ячейке А14 вычислите ожидаемое количество бракованных изделий в
дневном выпуске.
Задание Определить средний балл результатов обучения.
4.
Предположим, что в университете каждой дисциплине, в зависимости от ее
важности, присваивается определенное количество очков. Система оценок
включает оценки от 1,0 (незачет) до 5,0 (отлично). Студент в конце семестра
имеет результаты, указанные в таблице 2. Определить средний балл студента.
Таблица 2. Оценки студента за семестр
Дисципли
Очки
Оценка
на
Статистик
5
а
4,7
Экономика 5
4,3
Маркетинг 4
4,5
Спецкурс 1
3,8
В данном задании элементы данных (дисциплины) нельзя рассматривать
как равноценные. В этом случае целесообразно не просто усреднить оценки,
а вычислить взвешенное среднее, которое позволяет учесть степень важности
(вес) каждой дисциплины. Веса обычно представляют собой положительные
числа, сумма которых равна 1. Формула для вычисления взвешенного
среднего с учетом весов имеет следующий вид.
n
Взвешенное среднее =  ωi xi
i 1
где 1, 2,…, n – соответствующие веса, сумма которых равна 1. Для
нашего примера веса определяются делением количества очков по каждой
дисциплине на общее количество очков (n=15).
1. Откройте файл Описательная статистика.xls.
2. На Листе2 в ячейках F1 и G1 задайте метки Очки и Оценка
соответственно. В диапазон F2:G5 введите данные Таблицы 2.
3. В ячейке F7 задайте метку Взвешенное среднее.
4. Чтобы найти взвешенное среднее, вначале дайте имена каждой
колонке чисел. Для этого выделите обе колонки вместе с метками и выберите
команду:
ВставкаИмяСоздать
В появившемся диалоговом окне включите опцию в строке выше и щелкните
на кнопке ОК. Теперь выделите ячейку F8 и вычислите взвешенное среднее,
используя из категории Полный алфавитный перечень функции Excel
СУММПРОИЗВ и СУММ. Формула вычисления имеет следующий вид:
=СУММПРОИЗВ(Очки;Оценка)/СУММ(Очки). Уменьшите разрядность
результата до двух десятичных знаков после запятой. Вы получите
средневзвешенное значение, равное 4,45.
6
5. Вычислите средний балл студента, просто усреднив оценки. Для этого
в ячейке F10 задайте метку Среднее, а в ячейке F11 получите среднее (4,33),
используя функцию СРЗНАЧ.
Как видите, результат среднего ниже средневзвешенного, т.к. не
учитывает важность дисциплин. Тем не менее, низкая оценка за Спецкурс
незначительно повлияла на средний балл студента, потому что вес этой
дисциплины мал (всего 1 очко). Средний балл мог оказаться существенно
малым, если бы студент получил низкие оценки по экономическим
дисциплинам!
Медиана: типическое значение для количественных и порядковых
данных
Медиана располагается в центре данных и дает представление о списке
значений. Чтобы найти медиану, надо предварительно упорядочить данные в
порядке возрастания, а затем определить среднюю точку. Тогда половина
элементов в наборе будет меньше значения в средней точке, а вторая
половина – больше.
Медиану можно также определить, проставив соответствующие ранги.
Ранги связывают числа (номера) 1, 2, 3, …, n со значениями данных таким
образом, что наименьшее значение имеет ранг 1, следующее по величине
значение – ранг 2 и т.д. до наибольшего значения, которое имеет ранг n.
Если все n значений были отсортированы и проставлены ранги, то при
определении медианы возможны два варианта.
1). Если n – нечетное число, то медианой является значение с рангом
(n+1)/2.
2). Если n – четное число, то медианой является среднее двух значений,
расположенных в середине ряда и имеющих ранги (n/2) и (n/2+1).
Замечание 1. Значениями порядковых (нечисловых) данных являются
категории, которые можно упорядочивать. При четном числе категорий
медиана, в зависимости от двух расположенных в середине ряда значений,
вычисляется по-разному.
Если два средних значения представляют различные категории, то обе эти
категории будут медианами. Например, для списка рейтингов облигаций А,
ААА, В, АА, ААА, В медиана вычисляется следующим образом:
медиана (А, ААА, В, АА, ААА, В) = медиана (ААА, ААА, АА, А, В, В) = АА
и А.
Если два средних значения представляют одну и ту же категорию, то эта
категория является медианой. Например, для списка рейтингов облигаций А,
В, АА, А медиана равна:
медиана (А, В, АА, А) = медиана (АА, А, А, В) = А.
Замечание 2. Поясним отличие медианы от среднего. При нормальном
распределении данных значения медианы и среднего близки между собой,
поскольку нормальное распределение симметрично и имеет четко
выраженную среднюю точку. Однако для реальных нормально
распределенных данных, поскольку всегда присутствует некоторая
7
случайность, медиана и среднее несколько отличаются друг от друга, т.к.
определяются по-разному. Для нормально распределенных данных среднее
является наиболее эффективной характеристикой.
Если набор данных имеет ассиметричное распределение, то медиана и
среднее могут существенно различаться. Обычно среднее по отношению к
медиане сдвинуто в направлении более длинного хвоста или в направлении
выброса, т.к. среднее учитывает такие экстремальные наблюдения, в то время
как для медианы важно, по какую сторону от нее лежит то или иное
значение. Медиана является хорошей характеристикой ассиметричного
распределения. Кроме того, медиана полезна при наличии выбросов, т.к. она
устойчива к их влиянию.
Задание
5.
Определить медиану процентного изменения стоимости
акций на момент открытия торгов в день обвала фондового
рынка.
В таблице 3 приведены данные о падении стоимости акций 29
промышленных компаний в первый день кризиса биржи в октябре 1987 года.
Таблица 3. Падение акций при открытии торгов
Изменение
Изменение
Фирма
стоимости, Фирма
стоимости,
%
%
1
-4,1
11
-0,9
2
-5,1
12
-3,5
3
-4,5
13
-10,5
4
-5,4
14
-7,2
5
-4,0
15
-8,9
6
-11,6
16
-6,8
7
-4,0
17
-2,1
8
-3,0
18
-17,2
9
-4,4
19
-15,7
10
-9,3
20
-8,9
Фирма
21
22
23
24
25
26
27
28
29
Изменение
стоимости,
%
-15,7
-12,3
-9,6
-12,0
-12,4
-8,6
-11,4
-10,8
-8,6
1. В файле Описательная статистика.xls на Листе3 в ячейке A1 задайте
метку Изменение стоимости. В диапазон A2:A30 введите данные Таблицы
3. Увеличьте ширину столбца, дважды щелкнув на правой границе заголовка
столбца A.
2. Выделите диапазон A1:A30 и выполните упорядочивание данных с
помощью команды:
ДанныеСортировка…
Параметры сортировки задайте, как указано ниже на рисунке.
8
3. В ячейку B1 введите метку Ранг, а в ячейку B2 введите число 1.
Выделите
диапазон
B2:B30
и
выберите
команду
ПравкаЗаполнитьПрогрессия …В диалоговом окне установите опцию
Шаг: равной 1 и щелкните на кнопке ОК.
4. Теперь определите значение медианы. Для этого сначала присвойте
имя переменной n ячейке B30. В ячейке D1 задайте метку Ранг, а в ячейку
D2 введите формулу =(n+1)/2. В ячейке D5 задайте метку Медиана. В ячейку
D6 скопируйте из столбца процентного изменения стоимости акций
значение, соответствующее вычисленному рангу медианы.
5. Постройте гистограмму процентных изменений стоимости акций для
диапазона данных A1:A30, включая метку. Интервал входных значений
задайте явно равным 2. Нижнюю границу диапазона входных значений
примите равной –20, а верхнюю границу равной 0. Значения карманов вместе
с меткой Карман расположите в ячейках F1:F12. Выведите гистограмму
вместе с таблицей распределения частот в область H1:Р20. Можно ли
считать, что распределение данных близко к нормальному?
6. В ячейке D9 задайте метку Среднее, а в ячейке D10 рассчитайте
среднее значение процентного изменения. Уменьшите разрядность
полученного значения до одного знака после запятой. Существенно ли
отличаются друг от друга значения среднего и медианы?
Задание Определить медиану и среднее для
служащих сферы
6.
общественного питания.
В таблице 4 содержатся данные о количестве служащих в 10 фирмах
общественного питания.
Таблица 4. Количество служащих в фирмах общественного питания
Количество
Количество
Фирма
Фирма
служащих
служащих
1
471000
6
33000
2
183000
7
30000
3
133000
8
51700
4
90000
9
26170
9
5
44000
10
38000
1. В файле Описательная статистика.xls добавьте Лист4.
2. На Листе4 в ячейке A1 задайте метку Количество служащих, а в
диапазон A2:A11 введите данные из Таблицы 4.
3. Постройте гистограмму для диапазона данных A1:A11, включая метку.
Интервал входных значений задайте явно равным 20000. Нижнюю границу
диапазона входных значений примите равной 26000, а верхнюю границу
равной 486000. Значения карманов вместе с меткой Карман расположите в
ячейках D1:D25. Расположите таблицу распределения частот в диапазоне
F1:G26, а гистограмму – в диапазоне I1:M20. Какой характер распределения
имеют данные?
4. В ячейку J25 введите метку Медиана. В ячейке J26 вычислите
медиану, используя статистическую функцию МЕДИАНА.
5. В ячейку L25 введите метку Среднее. В ячейке L26 вычислите
среднее, используя статистическую функцию СРЗНАЧ. Объясните причину
отличия значений медианы и среднего.
Использование инструмента анализа Ранг и персентиль
Персентили – это характеристики набора данных, которые определяют
ранги элементов в виде процентов таким образом, что наименьшему
значению элемента данных соответствует персентиль, равный 0%,
наибольшему – 100%, медиане – 50% и т.д. Промежуточные значения имеют
персентили, расположенные с шагом 100/(n–1). Персентиль выражается в тех
же единицах, что и набор данных. Например, 60-й персентиль эффективности
продаж равен $385000 и характеризует деятельность определенного агента по
продажам. Это означает, что приблизительно 60% других агентов имеют
результаты ниже, чем у данного агента, а 40% агентов имеют более высокие
результаты.
Персентили играют важную роль в качестве опорных характеристик
данных. Чтобы обобщить основные черты распределения, достаточно знать
пять базовых значений персентилей.
 Наименьшее значение данных (0-персентиль).
 Нижний квартиль (25-й персентиль, расположенный на расстоянии
одной четверти от наименьшего значения).
 Медиана (50-персентиль).
 Верхний квартиль (75-й персентиль, расположенный на расстоянии
одной четверти от наибольшего значения).
 Наибольшее значение данных (100-персентиль).
Нижний и верхний квартили определяют границы половины данных,
расположенных в центре, а положение медианы относительно квартилей дает
грубое представление о наличии или отсутствии ассиметрии. В инструменте
Описательная статистика, как правило, опции К-ый наименьший задается
10
ранг нижнего квартиля, а опции К-ый нибольший – ранг верхнего квартиля.
Ранги квартилей определяются по следующим формулам:
Ранг нижнего квартиля = (1+ЦЕЛОЕ((n+1)/2))/2;
Ранг верхнего квартиля = (n+1) – Ранг нижнего квартиля,
где ЦЕЛОЕ означает функцию выделения целой части.
Задание Определить пять базовых показателей для набора данных о
7.
размерах выплат руководителям финансовых фирм.
В таблице 5 содержится список о размере выплат (заработная плата и
премия) руководителям финансовых компаний (n=30).
Таблица 5. Выплаты руководителям финансовых компаний
Фирма
1
2
3
4
5
6
7
8
9
10
Зарплата и
Фирма
премия, дол.
1723000
1294000
1119000
6910000
1960000
896000
746000
3273000
2101000
1384000
11
12
13
14
15
16
17
18
19
20
Зарплата и
Фирма
премия, дол.
1075000
1000000
901000
1936000
1458000
3077000
4840000
1190000
481000
1040000
21
22
23
24
25
26
27
28
29
30
Зарплата и
премия,
дол.
1937000
3200000
2063000
1726000
1393000
1877000
1674000
1537000
743000
1242000
1. В файле Описательная статистика.xls добавьте Лист5.
2. На Листе5 в ячейке A1 задайте метку Выплаты, а в диапазон A2:A31
введите данные из Таблицы 5.
3. Выберите команду СервисАнализ данныхРанг и персентиль и
задайте параметры как указано ниже на рисунке. Щелкните на кнопке ОК.
В полученной таблице выделите столбец со значениями персентилей
(диапазон F2:F31) и уменьшите разрядность до одного знака после запятой.
11
4. Объедините диапазон ячеек H1:N1 и введите метку Базовые
показатели.
5. В ячейку H2 введите метку Наименьшее значение, а в ячейку H3
скопируйте значение из ячейки D31.
6. В ячейку K2 введите метку Наибольшее значение, а в ячейку K3
скопируйте значение из ячейки D2.
7. В ячейке N2 задайте метку Медиана. В ячейке N3, используя функцию
СРЗНАЧ, вычислите медиану как среднее двух значений с рангами 15 и 16
(ячейки D16:D17).
8. В ячейках H6 и L6 задайте метки Нижний квартиль и Верхний
квартиль соответственно.
9. В ячейку H7 скопируйте значение из ячейки D24, что соответствует
нижнему 24,1-персентилю (это число самое близкое к 25%) с рангом 23.
10.В ячейку L7 скопируйте значение из ячейки D9, что соответствует
верхнему 75,8-персентилю (это число самое близкое к 75%) с рангом 8.
11.Чтобы сделать выводы о симметричности распределения, надо
сравнить три значения: медиану и квартили. Проведем визуальное сравнение.
Для этого постройте для соответствующих значений (выделив ячейки N3, H7,
L7) точечную диаграмму, проставьте значения точек и удалите все надписи.
Вид диаграммы показан на рисунке.
1960000
1497500
1075000
Как видим из диаграммы, значение медианы находится приблизительно
посередине между квартилями, что соответствует симметричному
распределению данных.
Контрольные вопросы
1. Перечислите обобщающие показатели, характеризующие типические
значения набора данных.
2. Перечислите показатели, характеризующие разброс данных.
3. Перечислите и кратко опишите показатели, характеризующие степень
симметричности данных.
4. Что такое среднее? Объясните среднее с точки зрения суммы всех
значений набора данных.
12
5. Что такое взвешенное среднее? В каких случаях этот показатель
используется вместо обычного среднего?
6. Что такое медиана? Как найти медиану для набора данных:
а) С четным количеством значений?
б) С нечетным количеством значений?
7. Как вычислить медиану для порядковых категорийных данных?
8. Что такое мода? В каком случае вычисляется модальный интервал?
9. Какой типический показатель (или показатели) можно использовать
для:
а) Количественных данных?
б) Порядковых категорийных данных?
в) Категорийных данных, которые нельзя содержательно упорядочить?
10.Какие показатели лучше использовать:
а) При нормальном распределении данных?
б) При планировании общей суммы?
в) При ассиметричном распределении, когда общая сумма не важна?
11.Что такое персентиль? В каких единицах он выражается?
12.Что такое квартили?
13.Назовите пять базовых характеристик распределения.
Контрольные задания
Добавьте Лист6 и выполните задание с использованием базы данных
служащих (файл База данных служащих.xls находится в папке Мои
документы).
Замечание. Для выполнения некоторых заданий потребуется фильтрация
списка, т.е. отбор из базы данных отдельных записей по условиям фильтра. В
этом случае необходимо установить курсор на любой ячейке списка и
включить фильтрацию с помощью команды:
ДанныеФильтрАвтофильтр
В строке заголовков таблицы появятся кнопки со стрелкой. При щелчке
на стрелке соответствующего заголовка откроется меню, содержащее
условия отбора. Например, если необходимо отобрать записи, содержащие
данные только для мужчин, то надо щелкнуть на стрелке заголовка Пол и
выбрать в меню критерий М. В результате база данных будет отфильтрована,
и в списке останутся только записи, соответствующие заданному критерию
(записи мужчин). Теперь нужные данные можно скопировать в другой файл
и провести анализ.
После окончания анализа необходимо в файле База данных служащих.xls
отменить действие фильтра. Для этого сначала выполните команду:
ДанныеФильтрОтобразить все, чтобы вывести все записи базы, а затем
выключите автофильтр, повторно выполнив команду:
ДанныеФильтрАвтофильтр.
Вариант Задание
13
1
2
3
4
5
6
7
8
9
10
Для заработной платы служащих, используя инструмент анализа
Описательная статистика, определите среднее, медиану и моду.
Постройте гистограмму и покажите эти показатели на
гистограмме. Сравните показатели. Что вы можете сказать о
типическом значении заработной платы?
Для возраста служащих, используя инструмент анализа
Описательная статистика, определите среднее, медиану и моду.
Постройте гистограмму и покажите эти показатели на
гистограмме. Сравните показатели. Что вы можете сказать о
типическом значении возраста?
Для стажа работы служащих, используя инструмент анализа
Описательная статистика, определите среднее, медиану и моду.
Постройте гистограмму и покажите эти показатели на
гистограмме. Сравните показатели. Что вы можете сказать о
типическом значении стажа работы?
Для заработной платы служащих, используя инструмент анализа
Ранг и персентиль, найдите медиану, квартили и экстремумы.
Определите 10-й и 90-й персентили. Чему равен персентиль
служащего, имеющего в базе данных номер 6?
Для возраста служащих, используя инструмент анализа Ранг и
персентиль, найдите медиану, квартили и экстремумы.
Определите 10-й и 90-й персентили. Чему равен персентиль
служащего, имеющего в базе данных номер 6?
Для стажа работы служащих, используя инструмент анализа Ранг
и персентиль, найдите медиану, квартили и экстремумы.
Определите 10-й и 90-й персентили. Чему равен персентиль
служащего, имеющего в базе данных номер 6?
Рассматривая пол служащих, проведите сортировку и вычислите
ранги (см. Задание 5, пункты 1, 2, 3). Найдите моду. О чем она
свидетельствует?
Рассматривая уровень подготовки служащих, проведите
сортировку и вычислите ранги (см. Задание 5, пункты 1, 2, 3).
Найдите моду. О чем она свидетельствует?
Для заработной платы мужчин, используя инструмент анализа
Описательная статистика, определите среднее и медиану.
Постройте гистограмму и определите приблизительное значение
моды. Сравните эти три показателя. Что вы можете сказать о
типическом значении заработной платы среди мужчин?
Для заработной платы женщин, используя инструмент анализа
Описательная статистика, определите среднее, медиану и моду.
Постройте гистограмму и покажите эти показатели на
гистограмме. Сравните показатели. Что вы можете сказать о
типическом значении заработной платы женщин?
14
11
12
13
14
Для заработной платы служащих с уровнем подготовки А,
используя инструмент анализа Описательная статистика,
определите среднее, медиану и моду. Постройте гистограмму и
покажите эти показатели на гистограмме. Сравните показатели.
Что вы можете сказать о типическом значении заработной платы?
Для заработной платы служащих со стажем от 5 и более лет,
используя инструмент анализа Описательная статистика,
определите среднее, медиану и моду. Постройте гистограмму и
покажите эти показатели на гистограмме. Сравните показатели.
Что вы можете сказать о типическом значении заработной платы?
Для заработной платы служащих с возрастом от 40 и более лет,
используя инструмент анализа Описательная статистика,
определите среднее, медиану и моду. Постройте гистограмму и
покажите эти показатели на гистограмме. Сравните показатели.
Что вы можете сказать о типическом значении заработной платы?
Для заработной платы мужчин, используя инструмент анализа
Ранг и персентиль, найдите медиану, квартили и экстремумы.
Определите 10-й и 90-й персентили. Найдите в базе данных номер
мужчины, получающего самую высокую зарплату, и прочтите его
данные: возраст, стаж, уровень подготовки.
15
Скачать