CH-7

advertisement
Глава 7. Основы выборочного метода.
7.1. Генеральная совокупность и выборочный метод.
Математическая статистика – наука, изучающая методы сбора, систематизации и
обработки результатов наблюдений массовых случайных явлений с целью выявления
статистических закономерностей. Выборочный метод является одним из методов
математической статистики.
Вся подлежащая изучению совокупность объектов (наблюдений) называется генеральной
совокупностью (ГС). Объекты, входящие в генеральную совокупность, называются
элементами, а их общее число – её объёмом N. В практике статистических наблюдений
различают 2 вида наблюдений: сплошное, когда изучаются все элементы совокупности, и
несплошное, выборочное, когда изучается часть элементов. Примером сплошного
наблюдения является перепись населения, охватывающее всё население страны.
Изучение всей совокупности чаще всего невозможно или нецелесообразно из-за
значительных материальных затрат.
Основная задача математической статистики заключается в исследовании всей
совокупности по выборочным данным.
Та часть объектов, которая отобрана для непосредственного изучения из генеральной
совокупности, называется выборочной совокупностью или выборкой объёма n.
Чтобы по данной выборке иметь возможность судить о генеральной совокупности, она
должна быть отобрана случайно. Случайность отбора элементов в выборку достигается
соблюдением принципа равной возможности всем элементам генеральной совокупности
быть отобранными в выборку.
Выборка называется репрезентативной, или представительной, если она достаточно
хорошо воспроизводит генеральную совокупность, т.е. вероятностные свойства выборки
совпадают или близки к свойствам самой генеральной совокупности.
Применяют два способа образования выборки:
1. Повторный отбор (по схеме возвращённого шара), когда каждый элемент, случайно
отобранный и обследованный, возвращается в общую совокупность и может быть
повторно отобран;
2. Безповторный отбор (по схеме невозвращённого шара), когда отобранный элемент
не возвращается в общую совокупность.
7.2. Вариационные ряды.
Пусть из генеральной совокупности извлекается выборка. При этом значение x1
наблюдалось n1 раз, x2 наблюдалось n2 раз и т.д. …, xk наблюдалось nk раз. Общий
k
объём выборки равен n   ni .
i 1
1
Наблюдаемое значение xi называется вариантой. Например, если изучаемым признаком
является успеваемость студентов, то вариантами показателя успеваемости будут оценки
студентов: 2, 3, 4, 5.
Число ni , показывающее, сколько раз появилось значение xi в n наблюдениях, называют
частотой данного значения, а отношение wi 
ni
- относительной частотой или частостью.
n
Число k различных значений в n наблюдениях всегда конечно и k  n . Очевидно,
k
w
i 1
i
 1.
Вариационным рядом называется ранжированный в порядке возрастания (или убывания)
ряд вариантов с соответствующими им весами (частотами или частостями).
Различают дискретные и интервальные вариационные ряды.
Вариационный ряд называется дискретным, если любые его варианты отличаются на
постоянную величину. В дискретных вариационных рядах задаются точечные значения
признака.
Точечный вариационный ряд частот может быть представлен таблицей:
Значения
признака ( xi )
x1
x2
…
xk
Частоты ( ni )
n1
n2
…
nk
k
причём
n
i 1
,
 n.
i
Точечный вариационный ряд относительных частот представляют таблицей:
Значения
признака ( xi )
Относительные
частоты ( wi )
k
причём
w
i 1
i
x1
x2
…
xk
w1
w2
…
wk
,
 1.
Вариационный ряд называется интервальным (непрерывным), если варианты могут
отличаться один от другого на сколько угодно малую величину.
Интервальные вариационные ряды содержат не конкретные значения вариантов
изучаемого признака, а интервалы, в которые попадают эти значения.
2
Интервальный ряд частот может быть представлен таблицей
Интервалы
a1  a2
a 2  a3
…
ak  ak 1
Частоты ( ni )
n1
n2
…
nk
Разности a2  a1 , a3  a2 , …, ak 1  ak называют интервальными разностями, или длинами
интервалов (они могут быть одинаковыми). В общем виде длину интервала ki можно
представить как ki  xi (max)  xi (min) .
Абсолютная плотность i-го интервала
f (a )i определяется как отношение частоты
интервала ni к его длине ki :
f ( a )i 
ni
(7.2.1).
ki
Относительная плотность i-го интервала f ( )i определяется как отношение частости
интервала wi к длине интервала ki :
f ( )i 
wi
(7.2.2).
ki
7.3. Графическое изображение вариационных рядов.
В целях наглядности вариационные ряды изображают графически.
Полигон частот, как правило, служит для изображения дискретного вариационного ряда
и представляет собой ломаную, в которой концы отрезков прямой имеют координаты
( xi ; ni ) , i  1, k .
Пример 7.3.1.
Построить полигон частот по данному распределению выборки:
xi
2
3
5
6
ni
10
15
5
20
Решение: Отложим на оси абсцисс варианты xi , а на оси ординат – соответствующие им
частоты ni . Соединяя точки ( xi ; ni ) отрезками прямых, получим искомый полигон.
ni
20
15
10
5
xi
2
3
3
5 6
При непрерывном распределении признака весь интервал, в котором заключены все
наблюдаемые значения признака, разбивают на ряд частичных интервалов длины h и
находят ni - сумму частот вариант, попавших в i -й интервал. Гистограммой частот
называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых
n
служат частичные интервалы длины h , а высоты равны отношению i (плотность
h
частоты).
Площадь гистограммы частот равна сумме всех частот, т.е. объёму выборки n .
Гистограммой относительных частот называют ступенчатую фигуру, состоящую из
прямоугольников, основаниями которых служат частичные интервалы длины h , а высоты
w
равны отношению i (плотность относительной частоты).
h
Площадь гистограммы относительных частот равна сумме всех относительных частот, т.е.
единице.
Пример 7.3.2.
Построить гистограмму частот по данному распределению выборки:
1
2–7
Число
наблюдений,
попавших в интервал ( ni )
5
2
7 – 12
10
3
12 – 17
25
4
17 – 22
6
5
22 – 27
4
Номер интервала i
Частичный интервал
Решение: Вначале найдём плотность частот, т.е. вычислим
ni
, где h  5 .
h
Таким образом, получаем
Номер интервала i
Плотность частоты
1
1
2
2
3
5
4
1,2
5
0,8
ni
h
4
Построим гистограмму
ni
h
5
2
1,2
1
0,8
x
2
7
12
17 22
27
7.4. Эмпирическая функция распределения.
Эмпирической функцией распределения (функцией распределения выборки) называют
функцию F * ( x ) , определяющую для каждого значения x относительную частоту события
X x.
Таким образом, по определению
F * ( x) 
nx
, где
n
n x - число вариантов, меньших x ; n - объём выборки.
Следовательно, для того чтобы найти, например, F * ( xk ) , нужно число вариант, меньших
xk , разделить на объём выборки:
F * ( xk ) 
nxk
n
.
Эмпирическая функция распределения выборки служит для оценки теоретической
функции распределения F ( x ) генеральной совокупности.
Главное различие функций F ( x ) и F * ( x ) состоит в том, что теоретическая функция
распределения F ( x ) определяет вероятность события X  x , а выборочная функция –
относительную частоту этого события.
График для дискретного признака X имеет ступенчатый вид. Величина скачка равна
относительной частоте варианты.
Если признак X - непрерывная случайная величина, то при увеличении числа
наблюдений число скачков увеличивается, их величина уменьшается и F * ( x ) как бы
сглаживается, теряя ступенчатый вид, и приближается к теоретическому закону F ( x ) .
5
Свойства эмпирической функции:
1. Значения эмпирической функции принадлежат отрезку 0;1 .
2. F * ( x ) - неубывающая функция.
3. Если x1 - наименьшая варианта, а xk - наибольшая, то F * ( x )  0 при x  x1 и
F * ( x)  1 при x  xk .
Пример 7.4.1.
Найти эмпирическую функцию по данному распределению выборки и построить её
график.
xi
2
6
8
10
ni
6
16
18
20
Решение: Объём выборки n  6  16  18  20  60 . Наименьшая варианта равна 2,
следовательно, F * ( x )  0 при x  2 .
Так как x  10 - наибольшая варианта, то F * ( x )  1 при x  10 .
Значение x  6 наблюдалось 6 раз, следовательно, F * ( x ) 
6
1

при 2  x  6 .
60 10
Значение x  8 наблюдалось 22 раза, следовательно, F * ( x ) 
22 11

при 6  x  8 .
60 30
Значение x  10 наблюдалось 40 раз, следовательно, F * ( x ) 
40 2
 при 8  x  10 .
60 3
Напишем искомую эмпирическую функцию.
0
 1

10
 11

F * ( x)  
 30
2
3

 1
при x  2 ,
при 2  x  6 ,
при 6  x  8 ,
при 8  x  10 ,
при x  10 .
Построим график этой функции.
6
F * ( x)
1
0,7
0,4
0,1
x
2
6
8
10
7.5. Числовые характеристики вариационного ряда.
Основными числовыми характеристиками вариационного ряда являются: выборочное
среднее, выборочная дисперсия, выборочное среднее квадратическое отклонение,
медиана, мода. Очевидно, что выборочные характеристики являются случайными
величинами.
Пусть распределение выборки объёма n имеет вид
xi
x1
x2
…
xk
ni
n1
n2
…
nk
Средней арифметической выборки называют отношение суммы произведений значений
вариантов на соответствующие частоты к сумме всех частот
k
xв 
xn
i i
i 1
n
, где n  n1  n2  ...  nk . (7.5.1)
Если же варианты x1 , x2 ,..., xk различны, то
k
xв 
x
i 1
n
i
.
Средняя арифметическая имеет те же единицы измерения, что и варианты.
В случае интервального вариационного ряда в формуле (7.5.1) в качестве xi берут
середины его интервалов, а ni - соответствующие им частоты.
Рассмотрим основные свойства средней арифметической:
7
1. Средняя арифметическая постоянной равна самой постоянной c  c .
2. Если все результаты наблюдений умножить на одно и то же число, то имеет место
равенство: cx  cx .
3. Если все результаты наблюдений увеличить (уменьшить) на одно и то же число, то
средняя арифметическая увеличиться (уменьшится) на то же число, т.е.
z  x  c  x  c.
4. Средняя арифметическая алгебраической суммы нескольких признаков равна такой
же сумме средних арифметических этих признаков: x  y  x  y .
5. Сумма отклонений результатов наблюдений от их средней арифметической равна
нулю, т.е.
k
 ( x  x)n
i 1
i
i
 0.
Пример 7.5.1.
Данные об оценках группы студентов по дисциплине «Теория вероятностей и
математическая статистика» выбраны случайным образом. Закон распределения выборки
задан вариационным рядом абсолютных частот:
Оценки
2
3
4
5
Количество
студентов
3
12
20
15
Найти выборочную среднюю арифметическую.
Решение: xв 
1
 ni xi
n
В данном примере n  3  12  20  15  50 .
xв 
1
197
(2  3  3  12  4  20  5  15) 
 3,94 .
50
50
Если первоначальные варианты xi - большие числа, то для упрощения расчёта
целесообразно перейти к условным вариантам ui  xi  c , где c - одно и то же число. В
качестве числа c обычно выбирается варианта, стоящая в середине ряда, либо та, для
которой частота максимальна (выборочная мода).
Тогда xв  c 
1
  niui  .
n
Пример 7.5.2.
Найти выборочную среднюю по данному распределению выборки объёма n  20 .
8
xi
2620
2640
2650
2660
ni
2
3
10
5
Решение: Так как первоначальные варианты – большие числа, перейдём к условным
вариантам ui  xi  2650 .
Распределение условных вариант имеет вид
ui
-30
-10
0
10
ni
2
3
10
5
Найдём
1
1
( 40)
ni ui  (2  ( 30)  3  ( 10)  10  0  5  10) 
 2 .

n
20
20
Искомая выборочная средняя арифметическая равна xв  2650  2  2648 .
Дисперсией  2 вариационного ряда называется средняя арифметическая квадратов
отклонений вариантов от их средней арифметической:
 x  x
k
Dв 
i 1
i
n
2
 ni
.
Можно показать, что дисперсия может быть подсчитана также по формуле:
Dв 
 

2
2
1 k 2
xi ni  xв , т.е. Dв  x 2  x .

n n 1
Выборочное среднее квадратическое отклонение выборки определяется формулой
 в  Dв .
Среднее квадратическое отклонение с.к.о.
 в  измеряется
в тех же единицах, что и
изучаемый признак.
Пример 7.5.3.
Для вариационного ряда из примера 7.5.1 вычислить дисперсию и с.к.о.
Решение: Вариационный ряд имеет вид
xi
2
3
4
5
ni
3
12
20
15
9
xв  3,94 .
 
2
Вычислим дисперсию по формуле Dв  xв2  xв .
xв2 
1 k
1
1
ni xi2  (3  4  12  9  20  16  15  25)   815  16,30 .

n n 1
50
50
Dв  16,30  15,52  0,78 .
 2  0,78  0,88 .
Модой M 0 вариационного ряда называется варианта, имеющая наибольшую частоту.
Пример 7.5.4.
Найти моду по данному распределению выборки.
xi
2
4
6
7
ni
5
12
24
10
Решение: По определению M 0  6 .
7.5. Задачи для самостоятельного решения.
7.5.1. Найти эмпирическую функцию по данному распределению выборки:
xi
2
5
7
8
10
ni
1
2
3
1
3
7.5.2. Найти выборочную среднюю по данному распределению выборки объёма n  20 .
xi
2230
2240
2250
2255
2270
ni
1
2
10
4
3
7.5.3. Найти выборочную дисперсию по данному распределению выборки объёма n  20 .
xi
2
6
12
ni
3
10
7
10
Ответы:
0 при 𝑥 ≤ 2,
0,1 при 2 < 𝑥 ≤ 5,
0,3 при 5 < 𝑥 ≤ 7,
7.5.1. 𝐹 ∗ (𝑥) =
0,6 при 7 < 𝑥 ≤ 8,
0,7 при 8 < 𝑥 ≤ 10,
{ 1 при 𝑥 > 10.
7.5.2. xв  2252 .
7.5.3. Dв  12,75 .
11
Related documents
Download