Лабораторная работа №2. Проверка

advertisement
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Лабораторная работа № 1. Проверка статистической
гипотезы о виде распределения
Цель работы. Изучение критериев для проверки гипотезы о виде
распределения. Исследование распределений статистик критериев согласия
Исследование мощности критериев для ряда фиксированных альтернатив.
В практике статистического анализа с необходимостью использования
критериев согласия приходится сталкиваться при проверке простой гипотезы
H 0: f ( x )  f ( x , и ) , где f () - плотность распределения наблюдаемого закона,  и - известное истинное значение параметра (вектора параметров) закона,
или при проверке сложной гипотезы, когда по этой же выборке оцениваются
параметры предполагаемого закона распределения H 0: f ( x )  f ( x ,  ) , где  оценка параметра, вычисленная по выборке.
Рассмотрим критерии, которые обычно применяются для проверки
гипотез о виде распределения. Для проверки гипотезы H 0: можно
использовать критерии согласия и критерии проверки нормальности.
1. Критерии типа 
2
1.1. Критерий согласия  Пирсона
2
Статистика
соотношением
2
[1,2]
Пирсона
вычисляется
(ni / N  Pi ( ))2
,
X  N
P
(

)
i 1
i
в
соответствии
с
k
2
(1)
где ni – количество наблюдений, попавших в интервал, Pi ( ) - вероятность
попадания наблюдения в i -й интервал. При справедливой (простой) гипотезе
H 0 ее предельное распределение g ( S H 0 ) есть 2r -распределение с числом
степеней свободы r  k  1. Если по выборке оценивалось p параметров
закона в результате минимизации статистики X 2 , статистика подчиняется 2r распределению с r  k  p  1 степеней свободы. При справедливой
альтернативной гипотезе H 1 предельное распределение g ( S H 1 ) представляет
собой нецентральное 2r -распределение с тем же числом степеней свободы и
параметром нецентральности
1
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
k
( Pi ( 1 )  Pi (  ))2
,
n
P
(

)
i
i 1

где Pi ( 1 ) - вероятности попадания наблюдения в i -й интервал при
альтернативной гипотезе.
В случае проверки сложных гипотез и оценивании по выборке
параметров распределений использование в качестве предельных 2k  p1 распределений справедливо лишь при определении оценок параметров по
сгруппированным данным и использовании для оценивания статистики X 2 :
ˆ  arg min X 2 .

При использовании критериев согласия конкурирующая гипотеза H1
(альтернатива) обычно не задается. Задавая конкретную альтернативу и имея
возможность построить распределения статистик при истинности нулевой
гипотезы H 0 ( g ( S H 0 ) ) и истинности альтернативы H1 ( g ( S H1 ) ), можно при
заданном уровне значимости  (  - вероятность ошибки первого рода)
вычислить мощность критерия 1  , которая определяет способность
различения этих гипотез (  - вероятность ошибки второго рода).
1.2. Критерий Рао-Робсона-Никулина
Никулиным [3] предложено такое видоизменение стандартной статистики
(1), при котором предельное распределение есть обычное распределение  2k 1
(количество степеней свободы не зависит от числа оцениваемых параметров).
Неизвестные параметры распределения F ( x ,  ) в этом случае должны
оцениваться по негруппированным данным методом максимального
правдоподобия. При этом вектор вероятностей попадания в интервал
p  ( p1 , , pk )  предполагается заданным и граничные точки интервалов
определяются соотношениями xi ()  F 1 ( p1    pi ) , i  1,( k  1) .
Предложенная статистика отличается от X n2 только при сложных гипотезах и имеет вид
Y n2 (  )  X n2  n 1a (  )(  )a(  ) ,
где X n2 вычисляется в соответствии с (1). Элементы и размерность матрицы
1
k w w

 i  i
()   J ( l ,  j )   l j 
pi  mm
i 1

2
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
определяются оцениваемыми компонентами вектора параметров  , J ( l ,  j ) элементы информационной матрицы J() , a ( l )  wl 1n1 / p1    wl k nk / pk элементы вектора a(  ) , величины wli определяются соотношением
wli   f  xi (), 
xi ()
x ()
 f  xi 1 (),  i 1 .
l
l
2. Непараметрические критерии
2.1. В критерии Колмогорова измеряемое расстояние между эмпирическим
Fn(x) и теоретическим F(x, θ) распределениями имеет вид
Dn  sup | Fn ( x)  F ( x,  ) |,
(2)
| x|
где n – объем выборки.
Наиболее часто в критерии
используют статистику вида [1]
Колмогорова
Sk 
(Колмогорова-Смирнова)
6nDn  1
6 n
(3)
,
где
Dn  max( Dn , Dn ), Dn  max   F ( xi ,  )  , Dn  max F ( xi ,  )  i  1 , (4)
i
1in  n

1in 
n 
и x1 , x2 ,..., xn – упорядоченные по возрастанию выборочные значения.
Распределение статистики S k при простой гипотезе в пределе подчиняется
закону Колмогорова, а в случае сложной гипотезы – различным законам, в
зависимости от вида распределения, оцениваемых параметров. Статистические
модели распределений статистик G(Sk H0 ) для наиболее распространенных
семейств законов распределений приведены в [4].
Если для вычисленного по выборке значения статистики S k выполняется
неравенство P S  Sk   1  G (Sk H 0 )   , то нет оснований для отклонения
гипотезы H 0 .
2.2. Критерии типа  2 . В критериях типа  2 расстояние между
гипотетическим и истинным распределениями рассматривают в квадратичной
метрике. Статистика критерия [1] выражается соотношением
3
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
n2

 ( F )   E  Fn ( x)  F ( x)
2
 ( F ( x ))dF ( x ) 

1
2 n 
2i  1

   g  F ( xi ) 
f  F ( xi )   (1  t )2 (t )dt ,
n i 1 
2n
 0
(5)
где
1
1
0
0
f (t )   ( s )ds, g (t )   s ( s )ds .
При выборе  (t )  1 получается статистика критерия Крамера-МизесаСмирнова:
S  nn2
n
1
2i  1 


   F ( xi , ) 

12n i 1 
2n 
2
.
(6)
При выборе  (t )  1 / t (1  t ) получается статистика критерия АндерсонаДарлинга:
n  2i  1

 2i  1 
S  n2n  n  2  
ln F ( xi ,  )  1 
 ln(1  F ( xi ,  ))  . (7)
2n 


i 1  2n
Распределение статистик S и S  при простой гипотезе в пределе
подчиняется законам a1 и a2, а в случае сложной гипотезы – различным
законам, в зависимости от вида распределения и оцениваемых параметров.
Статистические модели распределений статистик G(S H0 ) и G(S H0 ) для
наиболее распространенных семейств законов распределений приведены в [4].
3. Критерии проверки нормальности
3.1. Критерий симметричности предназначен для проверки гипотез о
симметричности наблюдаемого закона (против наличия асимметрии) при
объемах выборки 8  n  5000 . Статистика критерия имеет вид

3
1   3 ,

Проверяется гипотеза H 0 :
жительная асимметрия) или
1 =0 против альтернативы
(8)
1 >0
(поло-
1 <0 (отрицательная асимметрия).
3.2. Критерий проверки на эксцесс рассматривается при объемах выборок
8  n  5000 . Статистика критерия проверки на значение эксцесса имеет вид
4
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум


4
2   4 .

(9)
Проверяется гипотеза вида H 0 :  2 =3 против альтернативы  2 >3 (больший
эксцесс) или  2 <3 (меньший эксцесс).
критерии
Шапиро-Уилка
для
вариационного
ряда
X (1)  X ( 2 )  ...  X ( n ) , полученного по наблюдаемой выборке X1, X 2 ,..., X n ,
вычисляют величину
3.3.
В
S
 a X
k
( n 1 k )
 X (k )  ,
k
где индекс k изменяется от 1 до n / 2 или от 1 до ( n  1) / 2 при четном и нечетном n соответственно. Коэффициенты a k приведены в стандарте и
первоисточниках. Статистика критерия имеет вид
W S
n
2
 X
 X .
2
i
(10)
i 1
Гипотеза о нормальности отвергается при малых значениях статистики W .
Статистика критерия
X1, X 2 ,..., X n имеет вид
3.4.
TEP
Эппса-Палли
для
наблюдаемой
выборки
2
2
n


n 2 n k 1
 X j  X k  

 X j  X  

1
  exp 


  2  exp 
 , (11)
3 n k 2 j 1
2

4





j 1
2
2




1 n

1 n
2
где X   X i ,  2    X i  X  . Выборка может быть неупорядочена,
n i 1
n i 1
порядок наблюдений произволен, но он должен быть неизменным в течение
всех проводимых вычислений. Гипотезу о нормальности отвергают при
больших значениях статистики.
3.5. Модификация D’Agostino критерия проверки на симметричность. В
данной модификации на основании следующих соотношений статистика (8)
преобразуется в статистику z1 , приближенно подчиняющуюся стандартному
нормальному закону:
3(n 2  27n  70)(n  1)(n  3)
,
b
(n  2)(n  5)(n  7)(n  9)
2  1  2(b  1) ,
1/ 2
5
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум

log(
1

 )
2
1/ 2
,
  2  1 (n  1)(n  3) 1/ 2
y  1 

 ,
2
6
(
n

2
)


z1   logy  ( y 2  1)1 / 2 .
(12).
3.6. Модификация D’Agostino критерия одновременной проверки на
симметричность и значение эксцесса. Здесь предложено преобразование
статистик (8) и (9) к статистике z 2 , приближенно распределенной в
соответствии со стандартным нормальным законом. Преобразование
осуществляется с помощью следующих соотношений:
  (n  3)(n  1)(n  15n  4),
2
c
(n  2)(n  5)(n  7)(n2  27n  70)
a
6
(n  7)(n  5)(n  7)(n2  2n  5)
(n  5)(n  7)(n3  37n2  11n  313)
, k
,
6
12



  a  1c,
  (2  1  1 )2k ,
1/ 3

1
  

1/ 2
z 2     1  9  .
9 

 2 

(13)
4. Применение программы ISW для проверки гипотез о согласии
Проверку гипотез о согласии проиллюстрируем на примере программы
ISW 4.4. Специальную версию, подготовленную для молодежной школы можно
скачать с сайта http://postovalov.net.
Для запуска системы нужно запустить на выполнение файл isw.exe. После
запуска открывается окно, как показано на рис. 1.1.
6
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
/
Рис. 1.1. Главное окно системы ISW
Для выполнения основных функций системы нужно выбрать пункт меню
системы, либо нажать на кнопку панели инструментов. Поясним назначение
отдельных кнопок.
Открыть из файла: выборку (*.dat) или список законов
распределений (*.dst) или инициализационный файл (*.ini)
Открыть форму статистического анализа, которая позволяет
провести оценивание параметров и проверку гипотезы о согласии,
выявить аномальные наблюдения.
Группирование выборки
Отображение в одном окне всех графиков: для законов
распределения – это либо функция распределения, либо функция
плотности; а для выборок – это эмпирическая функция
распределения либо гистограмма.
Отображение в одном окне графиков для законов распределения –
это либо функция распределения, либо функция плотности.
Отображение в одном окне всех графиков для выборок – это либо
эмпирическая функция распределения, либо гистограмма.
Настройка параметров системы
Чтение параметров системы из файла is.ini
7
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Очистка окна сообщений
4.1. Открытие выборки из файла
Система работает только с одномерными выборками, хранящимися в
файлах с расширением “dat”. Файл можно создать с помощью любого
текстового редактора, либо сгенерировать программно по заданному формату.
4.1.1. Формат входных данных
Первая строка файла содержит название выборки, в этой строке может
быть произвольная информация, но мы рекомендуем вводить в этой строке
источник этой выборки, информацию о случайной величине, условия
проведения эксперимента. Информация из этой строки используется при
построении графиков.
Во второй строке файла содержится информация о типе выборки.
Остальные строки содержат информацию в зависимости от типа выборки.
 Тип выборки 0. Точечная выборка
Точечная выборка объемом n наблюдений имеет следующий формат:
<название выборки>
0n
<наблюдение 1>
<наблюдение 2>
...
<наблюдение n>
 Тип выборки 1. Интервальная выборка с абсолютной и относительной
погрешностью
Интервальная выборка объемом n наблюдений с абсолютной погрешностью a
и относительной погрешностью r имеет следующий формат:
<название выборки>
1nar
<наблюдение 1>
<наблюдение 2>
...
<наблюдение n>
 Тип выборки 2. Частично группированная выборка
Частично группированная выборка из
интервальных наблюдений имеет формат:
<название выборки>
2kn
n
точечных
наблюдений
и
k
8
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
<n_1> <n_2> ... <n_k>
<x_1> <x_2> ... <x_k-1>
<наблюдение 1>
<наблюдение 2>
...
<наблюдение n>
где <n_i> - количество наблюдений в i-м интервале
и <x_i> - i-я граничная точка
 Тип выборки 3. Группированная выборка
Группированная выборка k интервальных наблюдений имеет формат:
<название выборки>
3k
<n_1> <n_2> ... <n_k>
<x_1> <x_2> ... <x_k-1>
где <n_i> - количество наблюдений в i-м интервале и <x_i> - i-я граничная
точка
 Тип выборки 4. Цензурированная слева выборка I-го типа
Цензурированная выборка из n точечных наблюдений и
цензурирования слева имеет формат:
<название выборки>
4n
<n_с>
<x_с>
<наблюдение 1>
<наблюдение 2>
...
<наблюдение n>
где <n_с> - количество наблюдений в интервале цензурирования
и <x_c> - точка цензурирования
интервала
 Тип выборки 5. Цензурированная справа выборка I-го типа
Цензурированная выборка из n точечных
цензурирования справа имеет формат:
<название выборки>
5n
<n_с>
<x_с>
<наблюдение 1>
<наблюдение 2>
...
<наблюдение n>
наблюдений
и
интервала
9
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
где <n_с> - количество наблюдений в интервале цензурирования
и <x_c> - точка цензурирования

Тип выборки 6. Цензурированная с двух сторон выборка I-го типа
Цензурированная выборка из n точечных наблюдений и интервалов
цензурирования слева и справа имеет формат:
<название выборки>
6n
<n_l><n_r>
<x_l><x_r>
<наблюдение 1>
<наблюдение 2>
...
<наблюдение n>
где <n_l> - количество наблюдений в интервале цензурирования слева
и <n_r> - количество наблюдений в интервале цензурирования справа
и <x_l> - точка цензурирования слева
и <x_r> - точка цензурирования справа
 Тип выборки 10. Интервальная выборка
Интервальная выборка из n интервальных наблюдений
<название выборки>
10 n
<a_1> <b_1>
<a_2> <b_2>
<a_3> <b_3>
….
<a_n> <b_n>
где <a_i> - левая граница интервального наблюдения
и <b_i> - правая граница интервального наблюдения.
4.1.2. Создание выборки в текстовом редакторе
Рассмотрим пример, как можно создать выборку с использованием текстового
редактора, например Notepad (Блокнот).
Практикум 1.1.
А) Время ремиссии (в неделях) 42 пациентов с острой лейкемией было
приведено в отчете [5] о клинических испытаниях препарата 6-mercaptopurine
(6-MP). Каждый пациент случайным образом получал 6-MP или плацебо.
Изучение было закончено через один год.
10
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Были получены следующие выборки, в неделях:
Выборка с применением плацебо (21 пациент) содержит следующие
наблюдения: 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23.
Выборка с применением препарата 6-MP (21 пациент): 6, 6, 6, 7, 10, 13, 16, 22,
23, 7, 10, 11, 13, 19, 20, 24, 27, 33, 35, 37, 42.
Создать выборки «Выборка плацебо.dat» и «Выборка 6-MP.dat» в текстовом
редакторе Notepad.
Б) В таблице приведено распределение толщины 12 000 бобов.
Толщина,
мм
Количество
бобов
Толщина,
мм
Количество
бобов
До 7.00 7.00-7.25 7.25-7.5 7.5-7.75
32
103
239
8.75-9.00 9.00-9.25 9.25-9.5
1638
1130
737
8.008.25
1650
8.25-8.5
624
7.758.00
1187
1883
8.58.75
1930
9.259.75
427
9.7510.00
221
10.0010.25
110
10.2510.5
57
Свыше
10.5
32
Создать выборку «Толщина бобов.dat» в текстовом редакторе Notepad.
Так как все наблюдения выборки с применением плацебо являются точками, то
тип первой выборки – точечный. Чтобы ввести эту выборку, открываем в
программе Notepad новый файл и вводим в него данные, как показано на рис.
1.2. Затем сохраняем этот файл, например, с именем “Выборка плацебо.dat”.
Аналогично вводим вторую выборку “Выборка 6-MP.dat”.
Выборка с толщиной бобов является группированной, поэтому вводим
граничные точки и количества по формату «3» (рис. 1.3).
Теперь можно открыть эти выборки в системе. Для этого выбираем в меню
Файл пункт Открыть. Открывается стандартное окно Windows выбора файла.
Допускается выбрать не один файл, а несколько, используя клавиши <Ctrl> или
<Shift> (рис. 1.4). Список открытых выборок можно посмотреть по кнопке
на вкладке Выборки (рис. 1.5).
11
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 1.2. Создание выборки «Выборка плацебо» в текстовом редакторе
Рис. 1.3. Создание группированной выборки
12
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 1.4. Открытие выборки из файла
13
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 1.5.Список открытых выборок
4.2. Открытие списка распределений
В системе встроено большое количество законов распределений, а также есть
возможность создавать новые распределения, используя различные операции
над распределениями. Но для того, чтобы работать с законами, мы должны
либо описать их файле is.ini, либо открыть список распределений, который
находится в файле с расширением “dst”.
В дистрибутиве системы уже имеется несколько готовых списков
распределений:
 Стандартные
 Симметричные
 Положительные
 Специальные
При желании пользователь системы может создать свой список распределений.
Откроем, например, список положительных распределений. Для этого в меню
Файл выбираем пункт Открыть. Далее указываем, что мы хотим открыть
список распределений (рис. 1.6) и выбираем файл «Положительные.dst» (рис.
1.7). После чего нажимаем кнопку Открыть. Список открытых законов
распределения можно увидеть в параметрах системы по кнопке
на вкладке
Распределения (рис. 1.8).
Рис. 1.6.Открытие списка законов распределения
14
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 1.7.Открытие списка положительных законов распределения
15
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 1.8. Список открытых законов распределения
4.3. Построение графиков
На один рисунок можно вывести:
 графики эмпирических функций распределения по всем выборкам,
перечисленным в разделе [Samples] инициализационного файла «is.ini» –
кнопка
на панели инструментов (или в меню “Графики” выбрать “Все
выборки”).
 графики всех функций распределения, перечисленных в разделе
[Distributions] файла is.ini – кнопка
на панели инструментов (или в меню
“Графики” выбрать “Все распределения”).
 графики эмпирических функций распределения по всем выборкам,
перечисленным в разделе [Samples] и графики всех функций распределения,
перечисленных в разделе [Distributions] файла is.ini – кнопка
на панели
инструментов (или в меню “Графики” выбрать “Все графики”).
На рис. 1.9 показаны графики функций распределения положительных
случайных величин.
16
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 1.9. Функции распределения положительных случайных величин
В окне “График” можно менять настройки графика:
– выводить/не выводить сетку
– изменить палитру
– задать границы по X и Y
– сжать график по горизонтали
– растянуть по горизонтали
– растянуть по вертикали
– сжать по вертикали
– сохранить рисунок в формате bmp или jpg
– отобразить график(и) функции распределения
– отобразить график(и) функции плотности
– ядерная оценка плотности распределения
На что следует обратить внимание при построении графиков функций? Для
того чтобы график хорошо выглядел, был удобен для анализа, для подготовки
отчетов, надо задать область построения. Делается это с помощью кнопки на
панели инструментов окна графика (рис. 1.10).
На графике, на этом рисунке выведены функции распределения положительных
случайных величин. В этом случае имеет смысл отображать только значения по
оси ординат в интервале от 0 до 1. Поэтому устанавливаем, как показано на рис.
13.10 нижнюю границу выводимой области в 0, а верхнюю границу в 1.
Далее задаем границы области слева и справа. Если посмотреть на рис. 13.10,
то мы увидим, что правая граница установлена равной 3.81, а область разбита
на 6 интервалов. В этом случае цена деления равна 0.635. Поскольку в шкале
отображается только 2 знака после запятой (но это можно изменить, см. ниже),
то у пользователя создается иллюзия, что цена деления неодинакова!
В нашем примере график будет выглядеть лучше, если левую границу задать
равной 0 (положительные случайные величины не могут быть меньше нуля!), а
правую задать равной 5, т.к. в этом случае будут лучше видны «хвосты»
распределений.
17
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 1.10. Настройка области построения графика
Однако в этом случае цена деления будет равна 5/6 = 0.8(3), что также будет не
очень наглядно. Лучше увеличить число интервалов до 10, нажав на кнопку
в панели инструментов (рис. 1.10). В этом случае цена деления будет равна 5/10
= 0.5, и график будет выглядеть как на рис. 1.9.
18
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 13.10. Настройка параметров сетки
Если количество графиков достаточно большое, то удобно выводить подписи
графиков к легенде в несколько столбцов, как это показано на рис.1.9. Задать
эти параметры можно на вкладке Область легенды (рис. 1.11).
Рис. 13.11. Настройка области легенды
Практикум 1.2. Построить графики эмпирических функций распределения по
выборкам «Выборка плацебо.dat» и «Выборка 6-MP.dat».
19
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Чтобы просмотреть в одном окне графики эмпирических функций
распределения по выборкам, приведенным в практикуме 1.1, нужно в главном
меню Графики выбрать пункт Все выборки (рис. 1.12).
Рис. 1.12. Эмпирическая функция распределения
4.4. Проведение статистического анализа
4.4.1. Оценивание параметров и проверка согласия
Статистический анализ выборки производится в
форме "Оценивание
параметров и проверка согласия" (кнопка
на панели инструментов), как
показано на рис. 1.13. Необходимо выбрать выборку, закон распределения,
метод оценивания и критерии согласия.
20
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 1.13. Оценивание параметров и проверка согласия
 Выборка
Выборку можно выбрать из списка, либо открыть файл с выборкой. В списке
отображаются только те выборки, которые перечислены в разделе [Samples] в
файле инициализации «is.ini». Здесь можно просмотреть саму выборку ,
эмпирическую функцию распределения по этой выборке , гистограмму
(если выборка группированная), ядерную оценку плотности
; а также
вычислить выборочные квантили по заданным вероятностям - кнопка Q или по
заданным точкам вычислить частоты (т.е. отношение количества наблюдений,
попавших левее точки к объему выборки) – кнопка P.
 Закон распределения
В системе заложено более 30 стандартных распределений и возможность
добавлять новые распределения, получаемые из стандартных с помощью
операций сдвига, масштабирования, смеси, произведения, зеркального
отображения, усечения.
В списке отображаются те распределения, которые перечислены в
разделе [Distributions] в файле инициализации «is.ini». Можно открыть другой
(подготовленный ранее) список распределений
, он задается в файле с
расширением «dst». В форме "Параметры распределений" (кнопка ) выдается
информация о распределениях списка: идентификатор, наименование, тип,
область определения, граница слева, граница справа, число параметров,
параметры и их значения. Здесь также предусмотрена возможность просмотра
графиков функции распределения
и функции плотности
, а также
возможность вычисления квантилей распределения по заданным вероятностям
21
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
- кнопка Q и по заданным точкам x вычисления вероятностей P{x<X} – кнопка
P.
Кнопка "График" выводит функцию распределения выбранного закона и
эмпирическую функцию распределения выбранной выборки на одном рисунке.
Чтобы отметить, какие параметры выбранного закона распределения
требуется оценить, нужно поставить флажки рядом с оцениваемыми
параметрами (рис. 1.14). Если, наоборот, параметр оценивать не надо, то
флажок надо снять и с помощью кнопки Изменить задать значение параметра
вручную.
Рис. 13.14. Установка признака оценивания параметров
 Оценка параметров и проверка гипотез
При нажатии кнопки "Оценить и проверить" производится поиск оценок
параметров закона распределения выбранным методом оценивания и
выполняется проверка согласия выбранной выборки с выбранным законом
распределения. При этом вычисляются оценки тех параметров, напротив
которых стоит флажок. Если не выбран ни один из критериев согласия, то
производится только оценивание параметров. Проверяется простая гипотеза,
если ни один из параметров не оценивается.
Если стоит флажок "По всем выборкам", то действия будут выполняться
последовательно по каждой выборке. Если стоит флажок "Идентификация", то
по совокупности критериев согласия будет найден наилучший закон (из тех
распределений, которые представлены в списке), описывающий конкретную
выборку.
 Аномальные наблюдения
При нажатии кнопки "Аномальные наблюдения" производится
отбраковка аномальных наблюдений по выбранному закону распределения.
22
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Практикум 1.3. Оценить параметры экспоненциального распределения по
выборкам «Выборка плацебо.dat» и «Выборка 6-MP.dat» и проверить их
согласие с законами распределения:
 экспоненциальный;
 нормальный;
 Вейбулла-Гнеденко.
Зададим параметры оценивания и проверки гипотез как показано на рис. 1.13. В
результате оценивания параметров по методу максимального правдоподобия
мы получаем, что оценка максимального правдоподобия параметра масштаба
равна 9.3601.
Рис. 1.15. Оценивание параметров экспоненциального распределения
Результаты проверки гипотезы о согласии выводятся в окне сообщений
(рис. 1.16). Так мы выбрали использование нескольких критериев согласия, то
система вычисляет достигаемый уровень значимости для каждого критерия, а
затем вычисляет средний достигаемый уровень значимости. В нашем примере
он получился равным 0.4 и при заданном уровне значимости (вероятности
ошибки первого рода) 0.1 гипотеза о согласии не отвергается.
23
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 1.16. Результаты оценивания и проверки гипотез о согласии
4.4.2. Проверка на нормальность
Проверка выборки на принадлежность семейству нормальных распределений
является достаточно частой задачей на практике. Для проверки нормальности
можно использовать и универсальные критерии согласия, доступные в форме
Оценивание параметров и проверка согласия. Вместе с тем известно
множество критериев, проверяющих именно гипотезу о нормальности, часть из
которых реализована в системе.
Чтобы вызвать форму для проверки нормальности нужно в главном меню
Действия выбрать пункт Проверка на нормальность (рис. 1.17). Далее
флажками нужно выбрать критерии, которые будут использоваться, после чего
нужно нажать на кнопку Проверить!
Результаты проверки гипотезы нормальности выводятся в окно сообщений
(рис. 1.18).
Практикум 1.4. Проверьте гипотезу о нормальности закона распределения по
выборке «Выборка плацебо.dat».
24
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 1.17. Форма для проверки гипотезы нормальности
Рис. 1.18. Результаты проверки гипотезы о нормальности
5. Исследование свойств критериев согласия
Для исследования свойств критериев согласия также будем использовать
программу ISW.
25
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
5.1. Моделирование распределений статистик критериев согласия
Форма "Моделирование распределений статистик критериев согласия" (для
запуска в главном меню Моделирование выбрать пункт Распределения
статистик критериев) позволяет сгенерировать распределения статистик
критериев согласия (рис. 1.19). Для моделирования задается закон
распределения при верной нулевой гипотезе, закон распределения при верной
альтернативной гипотезе. Флажками отмечаются параметры, которые нужно
оценивать, количество выборок, объемы выборок, начальное значение
генератора случайных чисел, верная гипотеза (т.е. закон, в соответствии с
которым моделируются выборки). Для критериев типа  2 задается число
интервалов группирования и тип группирования. Кнопка "H–>H0" находит
параметры распределения H1, наиболее близкие к распределению H0. Кнопка
"H–>H1" находит параметры распределения H0, наиболее близкие к
распределению H1.
Рис. 1.19. Моделирование распределений статистик критериев согласия
Практикум 1.4. Определить мощность критерия согласия Колмогорова при
проверке сложной гипотезы о нормальном распределении против простой
гипотезы о логистическом распределении.
Для решения данной задачи открываем форму Моделирование распределений
статистик критериев согласия и заполняем параметры, как задано на рис.
1.19. Далее нажимаем на кнопку Моделировать.
26
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
В результате моделирования создаются два файла: распределение статистики
при верной гипотезе H0, и при верной гипотезе H1 (рис. 1.20).
Эти выборки нужно открыть.
Рис. 1.20. Сообщение системы о создании файлов с выборами статистики
Колмогорова
Для вычисления мощности критерия необходимо знать распределения
статистики критерия при верной основной гипотезе, а также распределение
статистики при верной альтернативной гипотезе.
Если распределения статистик получены с помощью моделирования и
сохранены в виде выборок, то можно воспользоваться функцией Вычисление
мощности (рис. 1.21).
Возможно два варианта задания критической области:
 односторонний, когда основная гипотеза отвергается при больших
положительных значениях статистики;
 двусторонний, когда основная гипотеза отвергается при больших
значениях модуля статистики.
Рис. 11.21. Вычисление мощности
Результаты вычисления мощности можно проверить графически. Для этого
нужно открыть графики эмпирических функций распределений на одном
рисунке и визуально определить критическую область и вероятность попадания
27
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
в критическую область при верной альтернативной гипотезе (рис. 1.22).
Визуально мощность критерия при вероятности ошибки первого рода равна
0.15, что примерно совпадает с результатами на рис. 1.21.
Рис. 1.22. Вычисление мощности графически критерия Колмогорова
Практикум 1.5. Определить мощность критериев согласия:
 Крамера-Мизеса-Смиронова
 Андерсона-Дарлинга
 Хи-квадрат Пирсона при 9 интервалах группирования (АОГ)
 Рао-Робсона-Никулина при 9 интервалах группирования (РВГ)
при проверке сложной гипотезы о нормальном распределении против простой
гипотезы о логистическом распределении. Сравнить мощности критериев и
сделать вывод о более мощном критерии.
28
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Лабораторная работа №2. Проверка статистических
гипотез об однородности
Цель работы. Исследовать распределения статистик критериев однородности
выборок
Смирнова
и
Лемана-Розенблатта;
параметрического
и
непараметрического критериев (критерия сравнения двух выборочных средних
при неизвестных, но равных дисперсиях и критерия Манна-Уитни),
используемых для проверки гипотез об однородности средних; критерия
Бартлетта, используемого для проверки гипотез об однородности дисперсий.
1. Критерии однородности выборок. Задача проверки однородности двух
выборок формулируется следующим образом. Пусть имеется две
упорядоченные по возрастанию выборки размера m и n :
x1  x2  ...  xm и y1  y2  ...  yn .
Для определенности обычно полагают, что m  n . Проверяется гипотеза о том,
что две выборки извлечены из одной и той же генеральной совокупности, т.е.
H 0 : F ( x)  G ( x) при любом x .
1.1 Критерий однородности Смирнова. Предполагается, что функции
распределения F  x  и G  x  являются непрерывными. Статистика критерия
Смирнова
измеряет
различие
между
эмпирическими
функциями
распределения, построенными по выборкам
Dm,n  sup Gm ( x)  Fn ( x) .
x
При практическом использовании критерия значение статистики Dm ,n рекомендуется вычислять в соответствии с соотношениями
s  1
r


,
Dm , n  max   Fn ( xr )  max Gm ( ys ) 
1 r  m  m
n 
 1 s  n 
r  1

s

Dm ,n  max  Fn ( xr ) 

max

G
(
y
)
m
s
 ,
1r m 
m  1sn  n
Dm, n  max( Dm , n , Dm , n ) .
Если гипотеза H 0 справедлива, то при неограниченном увеличении объемов


mn
Dm,n  s   K ( s) , т.е. статистика
 mn

mn
SC 
Dm ,n
mn
выборок lim P 
m
(1)
в пределе подчиняется распределению Колмогорова K (s ) .
29
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
1.2. Критерий однородности Лемана-Розенблатта. Критерий однородности
Лемана-Розенблатта представляет собой критерий типа 2 . Критерий был
предложен в работе Леманом (Lehmann E.L.) и подробно исследован в
розенблаттом (Rosenblatt M.). Статистика критерия имеет вид

mn
Gm ( x)  Fn ( x)2 dH mn ( x) ,
T
m  n 
m
n
Gm ( x) 
Fn ( x) – эмпирическая функция распредегде H m n ( x) 
mn
mn

ления, построенная по вариационному ряду объединения двух выборок. Как
правило, статистика T используется в форме
T
m
1
 n
2


si  j 2   4mn  1 ,
n
r

i

m


i

mn(m  n)  i 1
i 1
 6(m  n)
(2)
где ri – порядковый номер (ранг) yi , s j – порядковый номер (ранг) x j в объединенном вариационном ряде.
Розенблаттом было показано, что статистика (2) в пределе распределена
как a1(t ) :
lim PT  t  a1(t ) .
m
n
Это то же распределение, которому подчинена статистика критерия согласия
2 Крамера-Мизеса-Смирнова при проверке простых гипотез.
В отличие от статистики критерия Смирнова распределение статистики
T быстро сходится к предельному закону a1(T ) .
2. Критерии однородности средних. Проверяемая гипотеза о равенстве
математических ожиданий (об однородности математических ожиданий)
случайных величин, соответствующих двум выборкам, задается в виде
H 0 : 1   2 ,
а конкурирующая –
H1 : 1   2 .
В общем случае, гипотеза о равенстве математических ожиданий имеет
вид
H 0 : 1   2     m ,
при конкурирующей
H 1 :  i1   i2 .
Для проверки гипотезы H 0 может использоваться целый ряд критериев.
Условием применения параметрических критериев является принадлежность
наблюдений нормальному закону. К ним, например, относятся: критерий
сравнения двух выборочных средних при известных дисперсиях; сравнения
двух выборочных средних при неизвестных, но равных дисперсиях (критерий
Стьюдента); сравнения двух выборочных средних при неизвестных и неравных
30
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
дисперсиях (проблема Беренса-Фишера). Для этих же целей предназначена
целая совокупность непараметрических критериев: U –критерий Уилкоксона,
критерий Манна–Уитни, H –критерий Краскела–Уаллиса.
2.1. Сравнение двух выборочных средних при неизвестных, но равных
дисперсиях. Применение критерия сравнения двух выборочных средних при
неизвестных, но равных дисперсиях предусматривает вычисление статистики
t:
t
x1  x2
 n1  n2   Q1  Q2 
 n n n  n  2
 1 2  1

2
,
(3)
где ni – объем i -й выборки,
Qi 
 x
ni
j 1
 xi 
2
ij
1
, xi 
ni
ni
x
ij
.
j 1
В случае принадлежности выборок нормальному закону эта статистика
при справедливости гипотезы H 0 подчиняется распределению Стьюдента с
числом степеней свободы   n1  n2  2 .
2.2. U –критерий Уилкоксона, Манна и Уитни. Ранговый критерий Манна и
Уитни основан на критерии Уилкоксона для независимых выборок. Он является
непараметрическим аналогом t-критерия для сравнения двух средних значений
непрерывных распределений. Для вычисления статистики упорядочивают m + n
значений объединенной выборки, определяют сумму рангов
R1 ,
соответствующую элементам первой выборки, и сумму рангов второй R2 .
Вычисляются
m(m  1)
U1  mn 
 R1 ,
2
n(n  1)
U 2  mn 
 R2 .
2
Статистика критерия имеет вид: U  min U1 ,U 2 .
Для достаточно больших выборок ( m  n  60 ), когда объемы выборок не
слишком малы ( m  8, n  8 ) используется статистика
mn
U
~
2
,
(4)
z
mnm  n  1
12
которая приближенно распределена в соответствии со стандартным
нормальным законом.
3. Критерии однородности дисперсий. Проверяемая гипотеза о постоянстве
дисперсии m выборок имеет вид:
31
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
H 0 : 12   22     2m ,
а конкурирующая с ней гипотеза –
H 1 :  i21   i22 ,
где неравенство выполняется, по крайней мере, для одной пары индексов i1 , i2 .
Для проверки такого вида гипотез применяются критерий Бартлетта и
множество других критериев.
3.1. Критерий Бартлетта. Статистика критерия Бартлетта вычисляется в
соответствии с соотношением:
1

1  m 1 1 
   
(5)
  M 1 
3
(
m

1
)

N
 i 1 i


где ni – объемы выборок,  i  ni , если математическое ожидание известно, и
2
m
 i  ni  1 , если неизвестно, N    i ,
i 1
m
m
1
2
M  N ln   i S i     i ln S i2 ,
 N i 1
 i 1
S i2 – оценки выборочных дисперсий. При неизвестном математическом ожида-
1
нии оценки S 
ni  1
2
i
 X
ni
j 1
 Xi
2
ji
1
, где X i 
ni
ni
X
ji
и  i  ni  1 . Если
j 1
гипотеза H 0 верна, все  i  3 и выборки извлекаются из нормальной генеральной совокупности, то статистика (5) приближенно подчиняется
распределению.
 2m 1 -
4. Проверка гипотезы однородности с помощью программы ISW
4.1. Проверка гипотезы однородности двух выборок
Чтобы проверить гипотезу однородности двух выборок нужно выбрать в
главном меню Действия пункт Проверка однородности (рис. 2.1).
Практикум 2.1. Проверьте однородность выборок «Выборка плацебо.dat» и
«Выборка 6-MP.dat».
32
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Практикум 2.2. Исходные данные представляют результаты 100 измерений
диаметра отверстий.
Первая выборка
33
33
29
34
31
35
32
33
33
34
28
33
35
36
43
27
32
34
35
37
35
34
34
30
32
31
35
37
31
35
37
39
40
38
30
33
32
35
32
28
33
35
37
36
35
33
30
30
33
25
Вторая выборка
33
38
33
32
34
34
36
31
30
29
38
28
32
31
31
33
32
35
39
33
32
34
27
28
35
37
31
33
34
33
31
39
38
39
39
30
35
35
35
34
37
33
27
31
30
27
35
36
33
30
Проверьте гипотезу однородности.
Для решения этой задачи создадим два файла, содержащих наблюдения в
первой и второй выборке, и откроем форму Проверка однородности (рис. 2.1).
После нажатия на кнопку Проверить! В окно сообщений будут выданы
результаты проверки гипотезы (рис. 2.2). По результатам проверки гипотезы
можно сделать вывод, что у нас нет оснований для отвержения гипотезы
однородности двух выборок диаметров отверстий, при заданной вероятности
ошибки первого рода равной 0.1.
Рис. 2.1. Проверка однородности двух выборок
33
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 2.2. Результаты проверки гипотезы однородности
4.2. Проверка гипотезы об однородности дисперсий
На рис. 2.3 приведен вид главной формы для проверки гипотез об
однородности дисперсий. Для проверки гипотезы об однородности дисперсий
необходимо загрузить анализируемые выборки. Минимальное количество
выборок равно двум. Также необходимо выбрать из списка критерии для
проверки гипотезы.
Если предполагаемый закон распределения, которому принадлежат
выборки, отличен от нормального, его необходимо задать в меню «Параметры».
По умолчанию задан нормальный закон распределения выборок. Также в этом
же меню можно задать уровень значимости для проверки гипотезы
(вероятность ошибки 1-го рода). По умолчанию уровень значимости равен 0,01.
34
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 2.3. Форма «Однородность дисперсий»
Если заданный закон распределения анализируемых выборок отличен от
нормального, или не были найдены процентные точки в хранимых таблицах, то
пользователь имеет возможность смоделировать распределение статистики
выбранного критерия. На рис. 2.4 приведен пример проверки гипотезы, когда
не по всем выбранным критериям гипотезы была проверена. В нижнем окне
выводится список критериев, для которых необходимо смоделировать
распределение статистики. При необходимости в специальном меню можно
задать объем выборок статистик в соответствии с желаемой точностью
моделирования (по умолчанию равен 1000). Процесс моделирования может
быть распараллелен, при этом по умолчанию число потоков устанавливается
равным числу ядер процессора. Также при необходимости можно сохранить
файлы со смоделированными выборками статистик.
35
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 2.4 – Результат проверки гипотезы до моделирования распределений статистик
критериев
Результат проверки гипотезы выводится в виде таблицы, содержащей поля
– название критерия, результат проверки гипотезы (отклонить гипотезу или нет
оснований для её отклонения), значение статистики критерия и величина
достигнутого уровня значимости. Вид формы с результатами проверки
гипотезы об однородности дисперсий приведён на рисунке 2.5. В
результирующую таблицу выводятся данные по проверке гипотезы по всем
критериям – те, для которых не требовалось моделирование статистик
критериев и те, по которым гипотеза была проверена по смоделированному
распределению статистики.
36
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 2.5 – Результат проверки гипотезы после моделирования
распределений статистик критериев
Практикум 2.3. Проверьте гипотезу об однородности дисперсий выборок
«Диаметры отверстий 1.dat» и «Диаметры отверстий 2.dat» .
5. Исследование свойств критериев однородности
Форма «Моделирование статистик критериев», приведенная на рисунке
2.6, позволяет сгенерировать распределения статистик критериев (на рисунке в
качестве примера выбрана группа критериев однородности дисперсий) при
произвольных законах распределения выборок. В соответствующих полях
формы задаётся закон распределения, объёмы выборок, количество выборок и
начальное значение генератора случайных чисел.
37
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
Рис. 2.6 Форма «Моделирование статистик критериев»
Практикум 2.4.
1. Исследовать сходимость к предельным распределениям, для чего
смоделировать распределения статистик критериев при различных
объемах выборок ( n = 20, 50, 100). Объем выборок статистик выбрать
10 000 наблюдений. Убедиться в близости полученных распределений
статистик соответствующим теоретическим законам визуально.
Проверить согласие полученных эмпирических распределений статистик с
соответствующим теоретическим, для чего использовать все доступные
критерии согласия. Провести данные исследования отдельно для всех
критериев.
2. Исследовать (оценить) мощность всех критериев относительно заданных
конкурирующих гипотез и заданных объемов выборок в случае нормального
закона.
38
Молодежная школа. Прикладные методы статистического анализа. Лабораторный практикум
a. Для
критериев
однородности
конкурирующую гипотезу:
распределений
рассмотреть
H 1 : F (x) = F ( x, ) ; G( x)  F1 ( x, )
F ( x, )
F1 ( x, 1 )
Нормальное (0, 1)
Двустороннее экспоненциальное с
параметром формы 3
b. Для расчета значений мощности критериев однородности средних
рассмотреть конкурирующую гипотезу, для которой величина
математического ожидания одной из выборок отличается на
величину 0.3   .
c. Для расчета значений мощности критерия однородности дисперсий
рассмотреть конкурирующую гипотезу: H1 :  2  1.2 1 .
3. Проверить гипотезу об однородности дисперсий, для чего смоделировать
две выборки при n  50 и соответствующих законах распределения:
Нормальное(0,1) и Нормальное(0,3). Проверить гипотезу, используя
программу ISW.
Литература
1. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.:
Наука, 1983. - 416 с.
2. Денисов В.И., Лемешко Б.Ю., Постовалов С.Н. Прикладная статистика.
Правила проверки согласия опытного распределения с теоретическим.
Методические рекомендации. Часть I. Критерии типа  2 . - Новосибирск:
Изд-во НГТУ, 1998. - 126 c.
3. Мирвалиев М., Никулин М.С. Критерии согласия типа хи-квадрат / Заводская лаборатория. 1992. Т. 58. № 3. С.52-58.
4. Lemeshko B.Yu. Lemeshko S.B. and Postovalov S.N. Statistic Distribution
Models for Some Nonparametric Goodness-of-Fit Tests in Testing Composite
Hypotheses // Communications in Statistics - Theory and Methods, 2010. Vol. 39,
No. 3. – P. 460-471.
5. Freireich, E. J., Gehan, E. A., Frei, E. The Effect of 6-Mercaptopurine on the
Duration of Steroid-Induced Remissions in Acute Leukemia: A Model for
Evaluation of Other Potential Useful Therapy. // Blood, 1963. V. 21 No. 6. — P.
699-716.
39
Download