Статистическое оценивание числовых характеристик случайной

реклама
СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ
ЧИСЛОВЫХ ХАРАКТЕРИСТИК
СЛУЧАЙНОЙ ВЕЛИЧИНЫ
Точечное оценивание
Как уже говорилось, наиболее полной и исчерпывающей
характеристикой для случайной величины является закон
распределения: функция распределения, ряд распределения,
плотность. Некоторые законы распределения имеют параметры,
которые однозначно их определяют. Естественно, возникает
задача оценки этих параметров.
В общем случае задача оценки параметров распределения
сводится к нахождению статистик.ЛСтатистики – это функции
от выборочных значений. Статистики могут быть использованы
для приближенного определения значений параметров, по
которым судят о виде распределения.
Существуют два метода оценки параметров распределения
случайных величин: точечный и интервальный.
Точечными называют оценку, которая определяется одним
числом. Интервальная определяется двумя числами (концами
интервала).
Рассмотрим точечные оценки: обозначим через θ
оцениваемый параметр теоретической функции распределеня, а
через θ оценку этого параметра. Для точечных оценок
сформулирован
ряд
требований.
Они
должны
быть
состоятельными, несмещенными и эффективными.
СостоятельностьЛХЛэто сходимость по вероятности оценки
к оцениваемому параметру при неограниченном возрастании
объема наблюдения


~
lim P θ  θ  ε 1 ε>0.
n
133
Другими словами, чем больше объем выборки, тем ближе
мы к истине.
НесмещенностьЛ – это отсутствие систематической
погрешности. Математическое ожидание несмещенной оценки
должно быть равно оцениваемому параметру:
~
M [θ ] θ .
Вообще говоря, не всякая состоятельная оценка будет
несмещенной. Требование несмещенности особенно важно при
малом объеме выборки.
ЭффективнойЛ называется
оценка,
которая
имеет
минимальную дисперсию в классе несмещенных оценок.
Эффективная оценка всегда состоятельна.
Приведем примеры точечных оценок для математического
ожидания и дисперсии.
Пусть x1,x2,x3,…,xn – это n независимых наблюдений
величины Х, тогда для оценки математического ожидания
случайной величины используют статистику X :
n
Xi
i 1 .
X 
n
Эта оценка является состоятельной, несмещенной и
эффективной.
Приведем три статистики для оценки дисперсии случайной
величины:
n
2
 (X i  X )
,
DX  i 1
n
эта оценка является состоятельной, но смещенной;
n
2
 (X i  X )
,
2 i 1
s 
n1
эта оценка является состоятельной, несмещенной, но она не
является эффективной;
134
n
2
 (X i  µ )
,
2 i 1
s0 
n
эта оценка является состоятельной, несмещенной и
эффективной, однако эта оценка практически не используется так
как в нее входит математическое ожидание µ, которое, как
правило, заранее не известно.
Для получения точечных оценок используют метод
максимального правдоподобия и метод наименьших квадратов.
Также по выборочным данным можно оценить моду,
медиану и другие характеристики случайной величины.
Отличие медианы и моды от средней арифметической
заключается в том, что эти величины не зависят от крайних
вариант и степени рассеяния ряда.
Медиана
–
это
серединная
варианта,
делящая
вариационный ряд пополам, на две равные части. Таким образом,
медиана находится на центральном месте, от которого отстоит
одинаковое число и больших, и меньших, чем медиана вариант. В
ряду с четным числом наблюдений в центре находятся две
варианты, тогда за медиану принимается их полусумма.
Мода – чаще всего встречающаяся или наиболее часто
повторяющаяся величина.
В симметричном ряду (т.е. теоретически правильном,
имеющем одинаковое число вариант, отличающихся от средней в
большую и меньшую сторону, чаще применяются в санитарной
статистике) средняя арифметическая, мода и медиана совпадают,
поэтому нет необходимости вычислять все три, достаточно
вычислить среднюю арифметическую. Прибегать к медиане и
моде приходится при наличии асимметричных рядов (чаще
встречаются
в
экспериментальных
и
клинических
исследованиях).
На рисунке изображена резко асимметричная кривая
распределения по длительности болезни умерших от рака прямой
кишки. У подавляющего числа больных летальные исходы
наступили в ранние сроки, но в отдельных случаях
продолжительность болезни составила 96 – 104 и более месяцев.
Эти нетипичные случаи «отягощают» среднюю арифметическую,
которая равняется 25,6 мес., в то время как мода составила 10,4, а
135
медиана 20,7 мес. Очевидно, что наиболее характерной для
данного явления средней величиной служит мода.
Рис. 36. Асимметричное распределение
Таким образом, различия в применяемых средних могут
быть отражены в следующих определениях: средняя
арифметическая является результативной суммой всех влияний, в
ее формировании принимают участие все варианты, без
исключения, в том числе и крайние варианты, имеющие
нетипичный характер. Медиана и мода в отличие от средней
арифметической не зависят от величины всех индивидуальных
значений,
т.е.
всех
членов
вариационного
ряда,
а
обусловливаются
относительным
расположением
или
распределением вариант. Поэтому, медиану и моду даже
называют описательными или позиционными средними, так как
они характеризуют главнейшие свойства данного распределения.
136
Средняя арифметическая характеризует всю массу наблюдений,
без исключений; медиана и мода – основную массу, без учета
воздействия крайних вариант, зависящих иногда от случайных
причин.
В примере нас интересует не столько средний срок
длительности течения болезни, сколько тот срок, до которого
практически остается в живых наибольшее число больных, т.е.
модальный срок.
Бимодальный ряд распределения внушает подозрение в его
неоднородности, в том, что две вершины ряда образовались в
результате смешения качественно различных совокупностей. Так,
например, две моды могут быть получены при изучении
признаков физического развития школьников без учета их пола
(одна мода характеризует мальчиков, другая – девочек).
Интервальное оценивание параметров
распределений
Интервальная оценка определяется двумя числами
(концами интервала).
Теория точечных оценок не дает возможности сделать
заключение об их точности. В этом отношении оценки
неизвестных параметров существенно дополняются результатами
интервального
оценивания
с
помощью
доверительных
интервалов.
Всякая статистическая оценка параметров, определенная по
данным выборки с помощью выбранной статистической
характеристики, может быть только приближенной. Поэтому она
может иметь определенный смысл лишь в том случае, когда
указываются границы возможной погрешности оценки или, иначе
говоря, указывается интервал, который с известной вероятностью
(надежностью) покрывает оцениваемое постоянное значение
параметра.
Интервальные оценки в основном используются для
выборок небольшого объема.
б цу лкюцз Лфучьцулто Лотьлцйз с тупЛу лтроТ
137
Обозначим через θ оцениваемый параметр, θ - точечная оценка
для θ.
1. По сделанной выборке находится точечная оценка θ
неизвестной характеристики θ.
2. Затем задаются вероятностью γ (обычно 0,95; 0,99 и т.д.),
которая отражает надежность нашей оценки.
3. По определенным правилам находят такое положительное
число ε, чтобы выполнялось соотношение
P (θ  ε  θ  θ  ε ) γ
или
.
Число ε называется точностью оценки, γ – доверительной
вероятностью, а интервал (θ  ε ;θ  ε ) - интервальной оценкой.
Соотношение P (θ  ε  θ  θ  ε ) γ следует читать так:
«Вероятность того, что доверительный интервал (θ  ε ;θ  ε ) накроет
характеристику θ, равна γ».
Поскольку довольно часто встречаются нормально
распределенные случайные величины, построим интервальные
оценки
для
параметров
нормального
распределения:
математического ожидания и среднего квадратического
отклонения.
Обозначим через Х случайную величину, имеющую
нормальный закон распределения с параметрами µ и σ
(Х=N(µ,σ)). Будем предполагать, что наблюдения этой величины
не зависимы и проводятся в одинаковых условиях.
P (| θ  θ | ε ) γ
Интервальная оценка математического
ожидания нормального распределения при
известной дисперсии
По наблюдениям найдем точечную оценку математического
ожидания
n
 Xi
.
X  i 1
n
138
Зададимся вероятностью γ.
Найдем такое число ε, чтобы выполнялось соотношение
P ( X  ε  µ  X  ε ) γ .
Из-за сложности выкладки опускаются. Приведем готовый
результат
ε 
здесь
uγ
uγ σ
,
n
находится из соотношения
Φ( uγ ) 
γ
2
,
где Φ(uγ ) – функция Лапласа,
z2
x 
Φ( x )  e 2 dz .
0
д зис о з Лнтз лтопЛя ютр ооЛа зфс зчзС
γ
uγ
0,9
1,65
0,91
1,7
0,92
1,76
0,93
1,81
0,94
1,88
γ
uγ
0,95
1,96
0,96
2,06
0,97
2,18
0,98
2,34
0,99
2,58
Интервальная оценка математического
ожидания нормального распределения при
неизвестной дисперсии
По наблюдениям найдем точечные оценки математического
ожидания и дисперсии
n
n
2
 Xi
 (X i  X )
и
.
X  i 1
s 2  i 1
n
n1
Зададимся вероятностью γ.
139
Найдем такое число ε, чтобы выполнялось соотношение
P ( X  ε  µ  X  ε ) γ .
Снова приведем готовый результат
ε 
здесь
tγ находится
tγ s
n
,
из соотношения
t n 1(t γ ) γ
, где
– распределение Стьюдента с n – 1 степенями свободы.
д зис о з Лнтз лтопЛя ютр ооЛцзчфцлклс лто Лв ь клтьзС
tn1(tγ )
n
5
10
15
γ
0,95
2,78
2,26
2,15
0,99
4,60
3,25
2,98
n
γ
0,95
2,045
1,984
1,96
30
100

0,99
2,756
2,627
2,57
Интервальная оценка квадратического
отклонения и дисперсии нормального
распределения
По наблюдениям найдем точечную оценку математического
ожидания и дисперсии
n
n
2
 Xi
 (X i  X )
и 2 i 1
,
X  i 1
s 
n
n1
за оценку среднего квадратического отклонения примем
s  s .
2
Зададимся вероятностью γ.
Найдем такое число ε, чтобы выполнялось соотношение
P ( s  ε  σ  s  ε ) γ .
Среднее квадратическое отклонение всегда положительно,
поэтому ε разумнее находить из условия
P[max( 0; s  ε )  σ  s  ε ] γ .
Снова приведем готовый результат
140
ε  s qγ ,
здесь
2
χn1(qγ
)
qγ
находится из соотношения
2
χ n 1(qγ ) γ
, где
– хи-квадрат распределение с n-1 степенями свободы.
д зис о з Лнтз лтопЛя ютр ооЛцзчфцлклс лто Ле оПрйзкцзьС
n
5
10
15
γ
0,95
1,37
0,65
0,46
0,99
2,67
1,08
0,73
n
30
100
250
γ
0,95
0,28
0,143
0,089
0,99
0,43
0,198
0,1200
141
Скачать