3.3. Эмпирическая функция распределения.

advertisement
Глава 3. Выборочный метод в статистике
3.1. Выборка. Выборочный метод
X n   X1 ,..., X n  - выборка объема n, полученная в результате наблюдения случайной величины  , имеющей
Пусть
распределение
F  x .
Будем считать, что
 наблюдения
X 1 ,..., X n
независимы
и
имеют
одно
и
то
же
распределение
F  x  . Следовательно
FX n  x1 ,...xn   F  x1  F  x2   ...  F  xn  , и нам не важен порядок следования наблюдений.
 Множество возможных значений
принадлежит выборка

[с распределениями F ] образуют генеральную совокупность
L   , которой
X n.
F  F  F  x,  ,  – параметрическая статическая модель. Параметр  может быть как скалярным, так и

векторным.
3.2. Порядковые статистики и вариационный ряд
Упорядочим все наблюдения в выборке и произведем их перенумерацию:
X 1  X  2  X 3  ...  X  n – вариационный
ряд.
Опр ед еле ни е
Величина
X i 
называется
i -ой порядковой статистикой.
Опр ед еле н и е
Статистикой называется любая измеримая функция от выборки, которая, в свою очередь, также является случайной величиной или
случайной функцией.
Найдем распределение i -ой порядковой статистики.
Введем вспомогательную случайную функцию:
Найдем
P n  x   k .
x
Xi
Рис. Нахождение вероятности
Событие
Число
n  x   k
способов,
P n  x   k
означает, что в интервал
которыми
можно
P n  x   k  Cnk F k  x  1  F  x  

n  x  - количество наблюдений не превосходящих x .
 , x  попало k
выбрать
k
наблюдений, а в
элементов
из
n
 x,   –  n  k  .
равно
Cnk .в
результате
получаем:
n k

P X i   x  P n  x   i  P n  x   i  n  x   i  1  ...  n  x   n 
n
  P n  x   k    Cnk F  x  1  F  x  
k
nk
.
k i
1
3.3. Эмпирическая функция распределения.
Функция
Fn  x  
n  x 
n
называется эмпирической функцией распределения. По определению эмпирическая функция
x  R , Fn  x  – дискретная случайная величина, принимающая значения
распределения является случайной функцией;
0 1 2
n 1 n
0  , , ,...,
, 1
n n n
n n


при этом P  Fn  x  
Если все
nk
k
k
k
  P n  x   k   Cn F  x  1  F  x   .
n
X i (наблюдения в выборке) различны, то
0, x  X 1

k
Fn  x    , X  k   x  X  k 1 , k  1,..., n  1
n
1, x  X  n 

или Fn  x  
0, x  0
1 n
h  x  xi  , где h  x   
– функция Хевисайда (единичного скачка).

n i 1
1, x  0
Тео р ема 3 .1 .
Fn  x 
Пусть
–
эмпирическая
функция

распределения
случайной
величины

  F .
Тогда
 x  ,   0 lim P Fn  x   F  x     1
n 
Доказательство:
З.Б.Ч. (теорема Бернулли)
i
– независимы, одинаково распределенные,
Mi  a
то
1
P
i 
a , при n  

n
 1


 P  n i  a     1;   0, n   

 

Введем
случайную
величину
0, xi  x
,
1, xi  x
i  h  x  xi   
Mi  Mh  x  xi   1 P xi  x  0  P xi  x  F  x 
Таким образом, при
распределения
n 
найдем
ее
математическое
ожидание
подставим в З.Б.Ч. получим условия теоремы. 
эмпирическая функция распределения
Fn  x  является оценкой теоретической функции
F  x .
Введем статистику Dn  sup | Fn ( x)  F ( x) |
| x|
Тео р ема 3 .2 . ( Гл иве н к о - Ка нт ел л и)




P lim sup | Fn ( x)  F ( x) | 0   1 или P lim Dn  0  1
n 
n  | x|


Тео р ема 3 .3 . ( Ко л мо г о р о в)
lim P
n 


nDn  t  K (t ) 

 (1) e
j
2 j 2t 2
j 
2
K (t )
– распределение Колмогорова.
t 

P  Dn 
  K (t )
n

Используя теорему Колмогорова можно построить доверительный интервал для теоретической функции распределения.
t
t 

 | x |  : P  Fn ( x)    F ( x)  Fn ( x)      [0,1] n   , n  20 .
n
n

K (t )   (  – квантиль распределения Колмогорова)
И для эмпирической функции распределения:
t
t 

 | x |  : P  F0 ( x)    Fn ( x)  F 0( x)     
n
n

3.4. Непараметрическое оценивание плотности распределения
3.4.1. Гистограмма
Разобьем область определения на
n интервалов.
  x0  x1  x2  ...  xk  
ni – количество наблюдений на  xi , xi 1 
xi 1
xi
n
i
n
x
Рис. Гистограмма
Высота определяется из условия нормировки:
 nx
ni
i 1
i
 xi 
 xi 1  xi  
n
i
i
n

n
1
n
Гистограмма довольно грубый способ оценивания плотности распределения, связанный с неопределенностью выбора
границ интервалов, потерей информации при группировании.
k,
3.4.2. Ядерные оценки плотности и эмпирической функции
распределения.
Пусть
g (t ) – колоколообразная (ядерная) функция, удовлетворяющая условиям:
g (t )  g (t )

 g (t )dt  1


t
2
g (t )dt  1

3

t
m
g (t )dt  ;0  m  

и lim n  0 ; lim nn   тогда функцию плотности можно оценить:
n 
n 
1
fˆn ( x) 
nn
при
 x  xi 

 n 
n
g
i 1
n   ; fˆn ( x)  f ( x)
функцию распределения:
1
Fˆn ( x) 
n
n
 x  xi 

 n 
n
G 
i 1
– параметр размытости ядерной функции.
Основное преимущество «ядерных» оценок состоит в том, что они непрерывны, в отличии от эмпирической функции
распределения и гистограмм.
x
G ( x)   g ( x)dt

3.5. Задачи
Пусть X1 , X 2 ,..., X n - выборка из равномерного распределения на отрезке [a, b] , a  b , причем значение параметра a
известно. Какие из перечисленных ниже функций являются статистиками?
а) 2 X ,
г) X ,
ж) 199,
б) X ( n )  a n ,
д) X1 (b  a) ,
з) X1  X 3  1 ,
в) (a  b) 2 ,
е)
n
 Xi ,
и) X (1) .
i 1
Пусть X1 , X 2 ,..., X n – выборка из нормального распределения с параметрами a и 2 .
а) Вычислить математическое ожидание и дисперсию статистики
X.
б) Вычислить математическое ожидание статистик S 2 и S02 .
Пусть
X1 , X 2 ,..., X n – выборка из распределения Пуассона с параметром  . Вычислить математическое ожидание и
дисперсию статистики X . Имеет ли статистика X распределение Пуассона? Нормальное распределение?
Пусть X1 , X 2 ,..., X n – выборка из равномерного распределения на отрезке [a, b] , a  b . Вычислить математическое
ожидание и дисперсию статистики X . Имеет ли статистика X равномерное распределение? Нормальное распределение?
Для выборки из распределения F с плотностью f найти функцию распределения
а) максимального члена вариационного ряда X ( n ) ,
б) минимального члена вариационного ряда X (1) ,
в) k -й порядковой статистики X ( k ) .
Для выборки из распределения F с плотностью f найти плотность распределения
а) максимального члена вариационного ряда X ( n ) ,
б) минимального члена вариационного ряда X (1) ,
в) k -й порядковой статистики X ( k ) .
Для выборки из равномерного распределения на [0, ] найти математическое ожидание и дисперсию
а) максимального члена вариационного ряда X ( n ) ,
б) минимального члена вариационного ряда X (1) ,
4
в) k -й порядковой статистики X ( k ) .
Пусть
3;
0; 4; 3; 6; 0; 3; 1; 2; 1 – наблюдавшиеся значения выборки. Построить эмпирическую функцию
распределения.
Решение: Объем выборки равен n  10 .
Упорядочим выборочные значения по возрастанию:
 0;
0; 1; 1; 2; 3; 3; 3; 4; 6  .
Рис. Название? (Эмпирическая функция распределения
Пусть
 0,8;
2,9; 4,3;  5,7; 1,1;  3, 2  – наблюдавшиеся значения выборки. Построить эмпирическую функцию
распределения и проверить, что Fn (5)  1 6 , Fn (0)  1 2 , Fn (4)  5 6 .
Найти, по крайней мере, две выборки разных объемов, которым соответствует следующая эмпирическая функция
распределения:
Рис. Название?(Эмпирическая функция распределения)
Пусть a  0 и b – два фиксированных действительных числа. Пусть Fn ( x) – эмпирическая функция распределения,
построенная по выборке X1 , X 2 ,..., X n , а Gn ( x) – эмпирическая функция распределения, построенная по выборке Y1 , Y2 ,..., Yn ,
 x b 
где Yi  aX i  b . Доказать, что при всех x имеет место равенство Gn ( x)  Fn 
.
 a 
Пусть Fn ( x) – эмпирическая функция распределения, построенная по выборке X1 , X 2 ,..., X n , а Gn ( x) – эмпирическая
функция распределения, построенная по выборке Y1 , Y2 ,..., Yn того же объема. Является ли эмпирической функцией
распределения функция ( Fn ( x)  Gn ( x)) / 2 ? Если «да», то какой выборке она соответствует?
Для выборки из распределения F найти математическое ожидание и дисперсию статистики Fn ( y) .
Указание:

P  Fn ( y) 

задачу можно решить двумя способами. Первым способом – воспользоваться равенством
nk
k
k k
  Cn F  y  1  F  y   , вторым способом – воспользоваться определением эмпирического распределения.
n
5
3.6. Лабораторный практикум
П р им ер 1 .
Восстановление плотности распределения с помощью ядерных функций (оценок Розенблата-Парзена). Экспериментальный подбор
параметра размытости.
Используя программу isw:
Сгенеририруем выборку объема
n
из распределения минимального значения.
Построим ядерную оценку плотности при разных значениях параметра размытости.
(формат?)Сгенерированы выборки n
Для
n  100
 100, 500, 1000, 5000 .
лучшее значение параметра размытости
  0.37
Картинки выходят за границы документа!!!
Для
n  500
лучшее значение параметра размытости
  0.32
6
Для
n  1000
лучшее значение параметра размытости
  0.28
7
Для n  5000 лучшее значение параметра размытости
  0.22
8
Вы во ды :
При изменении параметра размытости для выборки одного объема выявлена следующая закономерность: при увеличении
график ядерной оценки становится более гладким.

9
Download