Практическое занятие будем работать с выборкой.

advertisement
Практическое занятие
Прежде всего, необходимо упорядочить данные по возрастанию. В нашем случае мы
будем работать с выборкой.
Генеральная совокупность состоит из всех объектов, которые подлежат изучению.
Выборка - множество случаев (испытуемых, объектов, событий, образцов), с помощью
определённой процедуры выбранных из генеральной совокупности для участия в
исследовании. Основные обозначения: N - объем генеральной совокупности, n - объем
выборочной совокупности.
Работа с исходными данными (с точечным вариационным рядом)
Для исходного ряда находим основные описательные статистики:
 Мода — значение во множестве наблюдений, которое встречается наиболее часто.
Иногда в совокупности встречается более чем одна мода. В этом случае можно
сказать, что совокупность мультимодальна.
 Медиана – возможное значение признака, которое делит ранжированную
совокупность (вариационный ряд выборки) на две равные части: 50% «нижних»
единиц ряда данных будут иметь значение признака не больше, чем медиана, а
«верхние» 50% – значения признака не меньше, чем медиана. Если количество
наблюдений нечетное, то медиана – это наблюдение, которое расположено
посередине. Если количество наблюдений четное, то медиана – это среднее
значение 2-х наблюдений, расположенных по середине упорядоченного ряда
наблюдений.
 Среднее значение: сумма всех наблюдений, деленная на их количество. Среднее
 Хi ,
значение выборки обозначается X и находится по формуле Х 
n
 Хi .
генеральной совокупности -  , где  
N
 Дисперсия и стандартное отклонение: Дисперсия и квадратный корень из
дисперсии, называемый стандартным отклонением, характеризуют среднее
отклонение от среднего значения. Среди этих двух величин большее значение
имеет стандартное отклонение. Это значение можно представить как среднее
расстояние, на котором находятся элементы от среднего элемента выборки. 2 –
дисперсия генеральной совокупности,  - стандартное отклонение генеральной
совокупности, S2 – дисперсия выборки, S – стандартное отклонение выборки.
N
2 
(X
i 1
i
N
 X )2
N
, 
(X
i 1
i
 X )2
(в большинстве учебников в формуле
N
n
пишут именно Х , а не ), S 2 
(X
i 1
i
n
 X )2
n 1
, S
(X
i 1
i
 X )2
n 1
.
 Стандартная ошибка - это теоретическое стандартное отклонение всех средних
выборки размера n, извлекаемое из генеральной совокупности. S X 
S2
.
n 1
 Эксцесс – мера остроты пика распределения случайной величины. Если эксцесс
(показывающий "остроту пика" распределения) существенно отличен от 0, то
распределение имеет или более закругленный пик, чем нормальное, или, напротив,
имеет более острый пик (возможно, имеется несколько пиков). Обычно, если
эксцесс положителен, то пик заострен, если отрицательный, то пик закруглен.
Эксцесс нормального распределения равен 0. Формула для генеральной
N
совокупности - Ex 
4
 3 , где  4 
4
(X
i 1
i
 X )4
N
n
Xi  X 4
n(n  1)
3(n  1) 2
Ex 
(
)

 S
(n  1)( n  2)( n  3) i 1
(n  2)( n  3)
, для выборки -
 Асимметрия - мера несимметричности распределения. Например, если
асимметрия (показывающая отклонение распределения от симметричного)
существенно отличается от 0, то распределение несимметрично, в то время как
нормальное распределение абсолютно симметрично. Итак, у симметричного
распределения асимметрия равна 0. Асимметрия распределения с длинным правым
хвостом положительна. Если распределение имеет длинный левый хвост, то его
асимметрия отрицательна. Формула для генеральной совокупности - As 
N
3 
(X
i 1
i
 X )3
N
, для выборки As 
n
X X 3
n
( i
)

(n  1)( n  2) i 1
S
3
, где
3
 Интервал – разница между максимальным и минимальным значением.
 Минимум – первое наблюдение в упорядоченном по возрастанию ряду данных.
 Максимум – последнее наблюдение в упорядоченном по возрастанию ряду
данных.
 Сумма – сложение значений всех наблюдений.
 Счет – количество наблюдений.
 Коэффициент вариации – относительная мера дисперсии. Наиболее часто
используется, чтобы сравнить количество вариаций в двух выборках. Считается
как стандартное отклонение, деленное на среднее значение.
Работа с интервальным вариационным рядом
Необходимо точечный вариационный ряд преобразовать в интервальный вариационный
ряд. Число интервалов определяется по одной из формул: k = 1 +3,4421lg(n) или 1 +
log2(n). С учетом округления у нас получилось 7 интервалов.
Шаг группировки = (максимум – минимум)/k. У нас шаг группировки равен 51,61714286.
В результате получаем следующие данные:
Начало
Конец
частота накопленная
интервала
интервала
n(i)
частота
835,23
886,85
4
4
886,85
938,46
7
11
938,46
990,08
14
25
990,08
1041,70
14
39
1041,70
1093,32
19
58
1093,32
1144,93
10
68
1144,93
1196,55
6
74
Затем вновь переходим к точечному ряду, распределив значения по частотам,
относительным частотам в виде долей и в виде процентов. x*(i) находится как сумма
значений концов интервала, деленная пополам. w(i) = n(i)/n. Получаем:
w(i) в
x*(i)
n(i)
долях
w(i) в %
861,04
4
0,05
5,41
912,66
7
0,09
9,46
964,27
14
0,19
18,92
1015,89
14
0,19
18,92
1067,51
19
0,26
25,68
1119,12
10
0,14
13,51
1170,74
6
0,08
8,11
Строим:
 гистограмму частот ряда
Гистограмма
частоты
20
835,23-886,85
886,85-938,46
15
938,46-990,08
10
990,08-1041,7
5
1041,7-1093,32
0
1093,32-1144,93
1144,93-1196,55
интервалы
 полигон относительных частот
w(i)
Полигон относительных частот
0,30
0,25
0,20
0,15
0,10
0,05
0,00
861,039
912,656
964,273
1015,890
1067,507
1119,124
1170,741
x*(i)
 кумуляту
Кумулята
120,00
100,00
m(i)
80,00
60,00
40,00
20,00
0,00
861,04
912,66
964,27
1015,89
1067,51
1119,12
1170,74
x*(i)
Находим среднее значение, моду и медиану для интервального ряда:
Начало
Конец
частота накопленная
интервала
интервала
n(i)
частота
835,23
886,85
4
4
886,85
938,46
7
11
938,46
990,08
14
25
990,08
1041,70
14
39
1041,70
1093,32
19
58
1093,32
1144,93
10
68
1144,93
1196,55
6
74
Среднее значение - сумма произведений средних точек интервалов и соответствующих
 X i* ni
частот, деленная на количество наблюдений. X 
n
Мода
,
где xMo
iMo
fMo
fMo-1
fMo+1
- нижняя граница модального интервала (интервала с наибольшей частотой);
- величина модального интервала (шаг группировки);
- частота модального интервала;
- частота интервала, предшествующего модальному;
- частота интервала, следующего за модальным.
Медиана
,
где xMе - нижняя граница медианного интервала (интервала, в котором накопленная
частота превышает 50% от всех наблюдений);
iMе
- величина медианного интервала (шаг группировки);
f
- сумма частот ряда (количество наблюдений);
SMе-1
- сумма накопленных частот ряда, предшествующих медианному интервалу;
fMе
- частота медианного интервала.
Download