Лекция 25 Генеральная дисперсия. Выборочная дисперсия. Вычисление дисперсии.

advertisement
Лекция 25
Генеральная дисперсия. Выборочная дисперсия. Вычисление дисперсии.
Оценка генеральной дисперсии. Доверительная вероятность.
Доверительный интервал.
Цель: Изучение различных дисперсий, доверительных вероятностей и
интервалов.
Задачи:
1. Дать понятие генеральной дисперсии.
2. Привести понятие выборочной дисперсии.
3. Рассмотреть формулу для вычисления дисперсий.
4. Дать понятия групповой, внутригрупповой, межгрупповой и общей
дисперсий.
5. Рассмотреть оценку генеральной дисперсии по исправленной выборочной.
6. Рассмотреть точечные и интервальные оценки, доверительную вероятность, доверительный интервал.
Желаемый результат: Студенты должны знать дисперсии, доверительные оценки и интервалы.
Учебные вопросы:
1. Генеральная дисперсия.
2. Выборочная дисперсия.
3. Формула для вычисления дисперсии.
4. Групповая, внутригрупповая, межгрупповая и общая дисперсии.
5. Оценка генеральной дисперсии по исправленной выборочной.
6. Точечные и интервальные оценки, доверительная вероятность, доверительный интервал.
Генеральная дисперсия.
Для того чтобы охарактеризовать рассеяние значений количественного признака Х генеральной совокупности вокруг своего среднего значения, вводят
сводную характеристику - генеральную дисперсию.
Определение. Генеральной дисперсией Dg называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности
от их среднего значения xг .
Если все значения х1х2,…,хn признака генеральной совокупности объема N
различны, то:
1
n
Dг
i 1
( хi
х2 )2
.
N
Если же значения признака х1х2,…,хn имеют соответственно частоты
N1,N2,…,Nk, причем N1+N2+…+Nk=N, то:
n
i 1
Dг
N i ( хi
х2 )2
,
N
т.е. генеральная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам. Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой - средним квадратичным
отклонением.
Определение. Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии:
2
Dг
Выборочная дисперсия.
Для того чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения xb , вводят сводную характеристику – выборочную дисперсию.
Определение. Выборочной дисперсией Dв называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения xb .
Если все значения признака х1х2,…,хn выборки объема n различны, то
n
Db
i 1
( хi
хb )2
n
Если же значения признака х1х2,…,хn имеют соответственно частоты n1,n2,…,nn,
причем n1+n2+…+nn=n
Db
ni ( xi
n
xb )2
,
2
т.е. выборочная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам.
Кроме дисперсии для характеристики рассеяния значений признака выборочной совокупности вокруг своего среднего значения пользуются сводной характеристикой - средним квадратическим отклонением.
Определение. Выборочным средним квадратически отклонением (стандартом) называется квадратный корень из выборочной дисперсии
b
Db .
Формула для вычисления дисперсии.
Вычисление дисперсии, безразлично - выборочной или генеральной - можно
упростить, используя теорему:
Дисперсия равна среднему квадратов значений признака минус квадрат общей средней:
D
n
где x
i 1
n
ni x i
n
i 1
, x2
x2
x 2,
ni xi 2
n
.
Пример. Найти дисперсию по данному распределению:
=1
2 3 4
=20 15 10 5
Решение.
Найдем:
х
2
20 12 15 2 2 10 32 5 4 2
20 15 10 5
5
Искомая дисперсия D= x 2-[ x ]2=5-22=1.
3
Групповая, внутригрупповая, межгрупповая и общая дисперсии
Допустим, что все значения количественного признака Х совокупности
безразлично-генеральной или выборочной, разбиты на группы.
Определение. Групповой дисперсией называют дисперсию значений признака, принадлежащих группе, относительно групповой средней
x j )2
n i ( xi
Diг
Nj
где ni - частота значения xi; j - номер группы; x j - групповая средняя группы j;
Nj - объем группы j, причем
ni
Nj .
i 1
Зная дисперсию каждой группы, можно найти их среднюю арифметическую.
Определение. Внутригрупповой дисперсией называют среднюю арифметическую дисперсий взвешенную по объемам групп:
Diгг
где Nj - объем группы j, n=
x j )2
n i ( xi
Nj
,
N j - объем всей совокупности.
i 1
Зная групповые средние и общую среднюю, можно найти дисперсию групповых средних относительно общей средней.
Определение. Межгрупповой дисперсией называют дисперсию групповых
средних относительно общей средней:
D межгр
x)2
N j (x j
n
где хj - групповая средняя группы j, Nj- объем группы j, x - общая средняя;
N j объем всей совокупности.
n=
i 1
Теперь введем определение для дисперсии всей совокупности.
Определение. Общей дисперсией называют дисперсию значений признака
всей совокупности относительно общей средней
Dобщ
n i ( xi
x)2
n
где ni - частота значения xi; x — общая средняя, n - объем всей совокупности.
4
Теорема. Если совокупность состоит из нескольких групп, то общая дисперсия
равна сумме внутригрупповой и межгрупповой дисперсий:
Dобщ=Dвн гр +Dмеж гр
Данная теорема имеет не только теоретическое, но и важное практическое
значение, а именно, непосредственно вычисление общей дисперсии можно заменить вычислением дисперсий отдельных групп, что облегчает расчеты.
Оценка генеральной дисперсии по исправленной выборочной
Пусть из генеральной совокупности в результате n независимых наблюдений над количественным признаком Х извлечена повторная выборка:
значения признака х1х2,…,хn
частоты n1,n2,…,nk
при этом n1+n2+…+nk=n.
Если в качестве оценки генеральной дисперсии принять выборочную
дисперсию, то эта оценка будет приводить к систематическим ошибкам, давая
заниженное значение генеральной дисперсии. Объясняется это тем, что как
можно доказать выборочная дисперсия является смещенной оценкой Dг, другими словами, математическое ожидание выборочной дисперсии не равно
оцениваемой генеральной дисперсии, а равно:
M Db
n 1
Dг
n
Легко "исправить" выборочную дисперсию так, чтобы её математическое
ожидание было равно генеральной дисперсии. Достаточно для этого умножить
Dв на дробь n/(n -1). Сделав это, получим исправленную дисперсию, которую
обычно обозначают через s2
s2
n
n 1
Db
n
n 1
ni ( x xb ) 2
n
ni ( x xb ) 2
n 1
Исправленная дисперсия является, конечно, несмешанной оценкой генеральной дисперсии. Действительно,
,
т.е. M[s2]=Dг.
5
Итак, в качестве оценки генеральной дисперсии примем исправленную дисперсию
n
s2
i 1
ni ( x i
xb ) 2
n 1
Для оценки среднего квадратического отклонения генеральной совокупности использует "исправленное" среднее квадратическое отклонение,
которое
равно корню квадратному из исправленной дисперсии
s
ni ( xi
xb ) 2
(n 1)
Подчеркнем, что s не является несмещенной оценкой, чтобы отразить этот факт,
мы будем писать так: "исправленное" среднее квадратическое отклонение.
Точечные и интервальные оценки, доверительная вероятность,
доверительный интервал.
Точечной называет оценку, которая определяется одним числом. Все
оценки рассмотренные нами ранее - точечные. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т.е.
приводить к грубым ошибкам. По этой причине при небольшом объеме выборки
следует пользоваться интервальными оценками.
Интервальной называют оценку, которая определяется двумя числами концами интервала.
Пусть найденная по данным выборки статистическая характеристика θ*
служит оценкой неизвестного параметра θ. Будем считать θ постоянным числом,
она (θ) может быть и случайной величиной. Ясно, что θ* тем точнее определяет
параметр θ, чем меньше абсолютная величина разности |θ – θ*|. Другими словами, если δ>0 и |θ – θ*|<δ, то чем меньше δ, тем точнее оценка. Таким образом,
число δ характеризует точность оценки.
Однако статистические методы не позволяют утверждать, что оценка θ*
удовлетворяет неравенству |θ – θ*| <δ, можно лишь говорить о вероятности γ с
которой это неравенство осуществляется.
6
Определение. Надежностью (доверительной вероятностью) оценки θ по θ*
называют вероятность γ, с которой осуществляется неравенство |θ - θ*|<δ.
Обычно надежность оценки задается наперед, причем в качестве γ берут число,
близкое к единице. Наиболее часто задают надежность равную 0,95; 0,99; и
0,999.
Пусть вероятность того, что |θ - θ*|<δ равна γ:
Р[|θ - θ*|<δ]= γ.
Заменив неравенство |θ - θ*|<δ равносильным ему двойным неравенством
-δ< θ -θ*<δ или θ*-δ< θ < θ*+δ.
Тогда имеем:
P[θ*-δ< θ < θ*+δ]=γ.
Это соотношение следует понимать так: вероятность того, что интервал
(θ*-δ, θ*+δ) заключает в себе (покрывает) неизвестный параметр θ, равна γ. Доверительным называют интервал (θ*-δ, θ*+δ), который покрывает неизвестный
параметр с заданной надежностью γ.
Метод доверительных интервалов разработал американский статистик
Ю.Нейман исходя из идеи английского статистика Р.Фишера.
Выбор доверительной вероятности не является математической задачей,
а определяется конкретно решаемой проблемой.
Покажем это на примере:
Пусть на двух предприятиях вероятность выпуска годных изделий γ=0,92,
т.е. вероятность выпуска бракованных изделий α=0,01.
Пусть одно предприятие выпускает электролампы, а другое - парашюты.
Если на 100 ламп встретится одна бракованная, то с этим мириться можно при
условии, что выбросить 1% ламп дешевле, чем перестроить технологический
процесс. Если же на 100 парашютов встретится 1 бракованный, что может повлечь за собой серьезные последствия, то с таким положением мириться нельзя.
Следовательно, в первом случае вероятность брака α приемлема, во втором нет,
поэтому выбор доверительной вероятности γ следует производить исходя из
конкретных условий задачи.
7
Доверительные интервалы для оценки математического
ожидания при известном σ
Пусть случайная величина Х распределена нормально, причем среднее
квадратическое отклонение σ этого распределения известно. Требуется оценить
неизвестное математическое ожидание. Наилучшей оценкой математического
ожидания в смысле несмещенности, состоятельности и эффективности, как было
указано ранее, является выборочное среднее.
Известно, что выборочное среднее Х распределено нормально с параметx
рами M[ x ]=μ, D( x )=σ2/n, нормированное отклонение
2
распределено
n
также нормально с параметрами μ=0, σ2 =1, поэтому вероятность любого отклонения | x -μ| может быть вычислена по формуле:
где t
n
.
Найдя из последнего равенства
t
n
можно записать
.
Приняв во внимание, что вероятность Р задана и равна γ, окончательно имеем:
P
t
x
n
x
t
2Ф(t )
n
.
Смысл полученного соотношения таков: с надежностью γ можно утверждать, что доверительный интервал x
метр μ точность оценки
t
n
t
n
, x
t
n
покрывает неизвестный пара-
.
8
Итак, поставленная задача полностью решена. Укажем, что число t определяется
из равенства 2Ф(t)=γ или Ф(t)=γ/2 по таблице находят аргумент t, которому соответствует значение функции Лапласа, равное γ/2.
Замечание 1. Оценку | x -μ|<tσ/√n называют классической. Из формулы δ=tσ/√n
определяющей точность классической оценки, можно сделать следующие выводы:
1) При возрастании объема выборки n число δ убывает и следовательно точность оценки увеличивается.
2) Увеличение надежности оценки γ=2Ф(t) приводит к увеличению t (Ф(t) возрастающая функция), следовательно, и к возрастанию δ, другими словами,
увеличение надежности классической оценки влечет за собой уменьшение её
точности.
Доверительные интервалы для оценки математического ожидания
нормального распределения при неизвестном σ
Пусть количественный признак Х генеральной совокупности распределен
нормально, причем среднее квадратичное отклонение σ неизвестно. Требуется
оценить неизвестное математическое ожидание с помощью доверительных интервалов.
Оказывается, что по данным выборки можно построить случайную величину
(её возможные значения будем обозначать через t):
T
x
s
n
,
которая имеет распределение Стьюдента с k=n-1 степенями свободы, где x - выборочная средняя; s - "исправленное" среднее квадратическое отклонение; n объем выборки.
Плотность распределения Стьюдента:
s (t , n)
t2
Bn 1
n 1
n
2
,
9
n
2
.
(n 1) Г (n 1) / 2
Г
где
Bn
Мы видим, что распределение Стьюдента определяется параметром n - объемом выборки, число степеней свободы n и не зависит от неизвестных параметров μ и σ, эта особенность является его большим достоинством.
Вероятность определяется так:
Р
x
.
1
n
Заменив неравенство в скобках равносильным ему двойным неравенством,
получим:
t s
P x
n
t s
x
n
.
Итак, пользуясь распределением Стьюдента, мы нашли доверительный интервал
x
t s
n
; x
t s
n
, покрывающий неизвестный параметр μ с надежностью γ. По
таблице по заданным n и γ можно найти γ. Таким образом, для оценки математического ожидания случайной величины, распределенной нормально, по малым
выборкам при неизвестных σ следует пользоваться t распределением Стьюдента.
Учебные вопросы:
1. Дать определение генеральной и выборочной дисперсий.
2. Какова формула для вычисления дисперсий?
3. Дать определения групповой, внутригрупповой, межгрупповой и общей дисперсий.
4. Привести формулу оценки генеральной дисперсии по исправленной
выборочной.
5. Чем отличаются точечные и интервальные оценки?
6. Рассказать о доверительной вероятности и о доверительном интервале?
10
Download