Математическая статистика

реклама
Математическая
статистика
1. Статистическая обработка одномерной
выборки. Одияко Н.Н., Бажанова Н.А.
2. Математическая статистика.
Теория корреляции в расчетах . Часть 2.
Голодная Н.Ю., Одияко Н.Н.
• Математической статистикой наз.
наука, занимающаяся разработкой
методов получения, описания и
обработки опытных данных с целью
изучения закономерностей случайных
массовых явлений.
Задачи
математической
статистики
• Оценка неизвестной функции
распределения.
• Оценка неизвестных
параметров распределения.
• Статистическая проверка
гипотез.
Выборочный метод.
Генеральная
совокупность.
Выборка.
• Опр. Исследуемая
совокупность N объектов наз.
генеральной совокупностью
( N - очень велико, в некоторых
случаях количество значений,
образующих генеральную
совокупность, можно считать и
бесконечным).
• Опр. Совокупность n объектов,
отобранных случайным образом
из генеральной совокупности наз.
выборочной совокупностью
(выборкой), где n  N .
• Число
n
наз. объемом выборки.
• Метод основанный на том,
что по выборочной
совокупности выделенной из
данной генеральной
совокупности делается
заключение о всей
генеральной совокупности
наз. выборочным методом
Виды выборок.
Собственнослучайная
• Выборка образованная
случайным выбором элементов
без расчленения на части или
группы.
Механическая
• Выборка, в которую элементы из
генеральной
совокупности
отбираются через определенный
интервал. Например, если объем
выборки должен составлять 10%
(10%-я выборка), то отбирается
каждый 10-й элемент.
Типическая
• Выборка, в которую случайным
образом отбираются элементы из
типических групп, на которые по
некоторому признаку разбивается
генеральная совокупность.
Серийная
• Выборка, в которую случайным
образом отбираются не элементы, а
целые группы совокупности(серии), а
сами серии подвергаются сплошному
наблюдению.
Способы
образования
выборки.
Повторный отбор
• Каждый
элемент,
случайно
отобранный и обследованный,
возвращается
в
общую
совокупность и может быть
повторно отобран.
Бесповторный
• Отобранный элемент не
возвращается в общую
совокупность
Статистический ряд.
• Варианты:
x1 , x2 , x3 ,..., xn .
• Вариационный ряд:
x1  x2  x3  ...  xn
или
x1  x2  x3  ...  xn .
Статистическое
распределение.
• Из генеральной совокупности извлечена
выборка объема n :
• x1 наблюдалась n1 раз;
•
x2
наблюдалась
n 2 раза;
• x3 наблюдалась n3 раза;
• …………………………………
•
наблюдалась
раз.
k
k
n
x
k
• Причем
.
n

n
 i
i 1
• Числа
n , n ,...., n
1
2
k
называются частотами.
• Числа
ni
wi 
n
, где
i  1,2,..., k
наз. относительными частотами.
• Статистическим распределением
выборки наз. соответствие между
наблюдаемыми вариантами и их
частотами или относительными
частотами.
Статистическое
распределение выборки
x1
n1
x3
n3
x2
n2
k
n
i 1
i
n
…………
xk
…………
nk
x1
x2
x3
…………
w1
w2 w3
…………
k
 wi  1
i 1
xk
wk
Полигон частот.
nk
n3
n1
n2
x1 x 2 x3
..........
xk
Полигон относительных
частот.
wk
w3
w1
w2
x1 x 2 x3 ..........
xk
Эмпирическая
функция
распределения.
• Эмпирическая функция распределения
это функция равная отношению числа
вариант, меньших x , к объему
выборки:
.
n( x )
F ( x) 
n

Свойства эмпирической
функции распределения.
• 1)
• 2)
0  F ( x)  1;


F (x ) - неубывающая;
• 3) если x1 наименьшая варианта,

то F ( x)  0, при x  x1 ;
4) если x k наибольшая варианта,

то F ( x )  1, при
k
xx.
Пример.
По данному распределению выборки
построить эмпирическую функцию.
xi
2
6
10
ni
12
18
30
3
n   ni  60
i 1
0,
12
 ,
 60

F ( x)  
12

18

,
 60
1,

x  2;
2  x  6;
6  x  10;.
x  10.
0,
0,2 ,


F ( x)  
0
,
5
,

1,
x  2;
2 x  6;
6  x  10 ;
x  10 .
F  (x)
1
0,5
0,2
0 2
6
10
x
Статистическая
совокупность.
x0 ; x1   x ; x  x2 ; x3 
1
n1
n2
2
n3
…………
…………
xk 1 ; xk 
nk
h  x1  x0  x2  x1  ....  xk  xk 1
• Число интервалов определяется по
формуле Стерджеса
k  1  3,22  lg n
Гистограмма частот.
• Ступенчатая фигура, состоящая из
прямоугольников, основаниями которых
служат частичные интервалы длиною
высоты равны отношению
(плотность частот).
ni
h
h
,а
ni
h
n2
h
n1
h
nk
h
x1 x 2 x3
xk 1x k
• Площадь гистограммы частот
k
S   S i ,
i 1
тогда
ni
S i   h  ni ,
h
k
S   ni  n.
i 1
Гистограмма
относительных
частот.
• Ступенчатая фигура, состоящая из
прямоугольников, основаниями которых
служат частичные интервалы длиною
высоты равны отношению
wi
h
(плотность относительных частот).
h,а
wi
h
w2
h
w1
h
wk
h
x1 x 2 x3
xk 1x k
Площадь гистограммы
относительных частот.
k
S   S i ,
i 1
wi
Si   h  wi ,
h
тогда
k
k
k
n
i
ni i 1
n
S   wi   
  1.
n
n
i 1
i 1 n
Статистические оценки
параметров распределения.
Точечные оценки
• Оценка, которая определяется
одним число, наз. точечной.
Интервальные оценки
• Оценка, которая определяется двумя
числами, являющимися концами
интервала, содержащего неизвестный
параметр, называется интервальной.
Свойства точечных
оценок.
Несмещенность
• Статистическая оценка
наз.

несмещенной, если её математическое
ожидание
равно
оцениваемому
параметру
при любом объеме
выборки:



M ( )   .
Эффективность
• Статистическая оценка
наз.

эффективной,
если
она
имеет
наименьшую возможную дисперсию.

Состоятельность
• Статистическая оценка  
наз.
состоятельной, которая при n  
стремится по вероятности к
оцениваемому параметру  :


lim P   
n

 1.
• Теорема. Если дисперсия несмещенной
оценки при n   стремится к нулю, то
такая оценка состоятельна.

• Док-во: Оценка  параметра 
несмещенная, т.е. M    , поэтому при 
из неравенства Чебышева


D
P   M    1  2

следует





D
P      1 2 .




Но
D  0 при n  .
Значит при n   , для каждого
фиксированного
:

D
а
Но тогда
1


2

2
D


 0,
 1.

P     1

при
n  .
Генеральная средняя
N
или
xг 
x
i 1
i
N
k
xг 
 xi  N i
i 1
N
.
Выборочная средняя.
n
или
xв 
 xi
i 1
n
k
xв 
 xi  ni
i 1
n
.
Генеральная дисперсия.
N
Dг 
или
 (x
i 1
i
 xг )
N
k
Dг 
2
 ( xi  x г )  N i
2
i 1
N
.
Выборочная дисперсия.
 x
n
Dв 
i 1
i
 xв
n

2
 xi  x в   ni
k
Dв 
2
i 1
n
,



 

2
2
1
1
Dв   xi  xв   xi  xг  xв  xг 
n i
n i
2
2
1
   xi  xг  2 xв  xг  xi  xг   xв  xг  
i
i

n i

 
 
 

x



i
2
2
1
2
1
i


  xi  xг  xв  xг  n
 xг   n  xв  xг 
 n
 n
n i
n


2
2
2
1
  xi  xг  2 xв  xг  xв  xг
n i

 


 
 



n

 

2
2
1
Dв    xi  x г  x в  x г .
n i 1
Оценка генеральной
средней по выборочной
средней.
• Выборочная
средняя
является несмещенной
и состоятельной.
1.Рассмотрим выборочную среднюю, как
случайную величину
n
Xв 
X
i 1
n
i
M ( X1 )  M ( X 2 )  ...  M ( X n )  M ( X )  xг ,
D( X 1 )  D( X 2 )  ...  D( X n )  D( X )   .
2
г
X 
n
 i 1 i  1


M (Xв)  M 
   M  Xi  

i 1

n
n




1 n
1
  M ( X i )   n  M ( X )  M ( X )  xг ,
n i 1
n
n
т.е.
M ( xв )  x г .
X 
n
 i 1 i  1


D ( X в )  D
  2  D  X i  

i 1

n
n




1 n
1
 2  D( X i )  2  n  D( X ) 
n i 1
n
2
1
г
  D( X ) 
.
n
n
n
2.Используем неравенство Чебышева:
P X  m     1 

D

.
2

D( X в )
P X в  M (X в )    1 2 ;




P X в  xг    1 
.
2
n 
2
г


Пусть
n   тогда P X в  x г    1,
т.е.
lim P X
n 
в

 xг    1.
• Значит выборочная средняя является
статистической оценкой генеральной
средней.
Оценка генеральной
дисперсии по выборочной
исправленной дисперсии.
• Выборочная дисперсия является
смещенной оценкой:
1

2
2
M ( Dв )  M    ( X i  x г )  ( X в  x г )  
n

1
2
2
   M ( X i  xг )  M ( X в  xг ) 
n
1
2
2
   M ( X i  M ( X i ))  M ( X в  M ( X в )) 
n
1

n 1 2
2
  n  D( X )  D( X в )   г 

 г 
n
n
n
n 1

 Dг  Dг .
n
2
г
M ( Dв )  Dг .
• Несмещенная оценка генеральной
дисперсии - исправленная выборочная
дисперсия:
n
S 
 Dв .
n 1
2
Статистические
характеристики.
Мода
(nk  nk 1 )  h
M 0  xk 
(nk  nk 1 )  (nk  nk 1 )
Медиана
n
 Ti 1
2
M e  xi  h 
.
ni
Асимметрия
• Асимметрия распределения
характеризуется тем, что вариант,
меньших и больших моды неодинаковое
число.
3
A 3 ,
в
3
n  (x  x )


i
i
n
в
3
.
• При
M0  x  A  0 
асимметрия положительная;
При
M0  x  A  0 
асимметрия отрицательная.
• Если A  0,1 , то распределение
почти симметрично;
если A  0,5 , то распределение
сильно асимметрично.
Эксцесс
• Эксцесс характеризует крутовершинность
кривой распределения.
4
E  4  3,
в
4
n  (x  x )


i
i
n
в
4
.
• Если E  0,1, то распределение считается
близким к нормальному;
• если E  0,5, то распределение
значительно отклоняется от нормального.
Метод произведений
u i-условные варианты,
xi  C
ui 
, C
h
-условный нуль.
xi  u i  h  C ,
k
xв 
 xi  ni
i 1
n
1 k
   ni  (C  ui  h) 
n i 1
k
C
 ni
i 1
n
k
 h

1
 C  hМ ,
 ni  ui
i 1
n

n

k
М 
n
i 1
i
u
k
i
.
n
xв  C  h  М

1

2
 2
1
Dв  ( М  ( М ) )  h
2
 3  h  ( М  3М  М  2( М ) ),

3
3

1

2
 3
1
 4  h  ( М  4М  М  6М  ( М )  3( М ) ).
4

4

1

3

2
 2
1
 4
1
• Доверительная вероятность
(надежность)- вероятность с которой
осуществляется неравенство       , т.е.


P       .

• Доверительный интервал – интервал,
который покрывает неизвестный параметр 
с заданной надежностью  .
Доверительный интервал для
оценки математического
ожидания нормального
распределения при известном  .
xв 
Число
t
t 
n
 a  xв 
t 
n
определяется из равенства
Ф (t ) 

2
.
Доверительный интервал для оценки
математического ожидания
нормального распределения при
неизвестном  .
xв 
Число
t  S
n
 a  xв 
t  S
n
t  определяется по таблице
t  t ( , n).
Статистическая
проверка
статистических
гипотез.
• Нулевая гипотеза ( H 0 ) - выдвинутая
гипотеза.
• Конкурирующая гипотеза ( H 1 ) - гипотеза, которая противоречит нулевой
гипотезе.
Простая гипотеза – гипотеза,
содержащая одно предположение:
H :
0
  5,
где   параметр распределения Пуассона.
Сложная гипотеза – гипотеза, которая
состоит из конечного или бесконечного
числа простых гипотез:
H :
0
  5,
где   параметр распределения Пуассона.
• Ошибка первого рода состоит в том, что
будет отвергнута правильная гипотеза, когда
она верна.
• Ошибка второго рода состоит в том, что
будет принята неправильная гипотеза, когда
она неверна.
• Уровень значимости ( ) – вероятность
совершить ошибку первого рода.
• Статистический критерий (K ) случайная величина, которая служит
для проверки нулевой гипотезы.
• Наблюдаемым значением ( K набл ) значение критерия, вычисленное по
выборке.
• Критическая область – совокупность
значений критерия, при которых
нулевую гипотезу отвергают.
• Область принятия гипотезы совокупность значений критерия, при
которых нулевую гипотезу принимают.
• Критические точки ( K кр ) - точки,
отделяющие критическую область от
области принятия гипотезы.
• Правосторонняя критическая
область – критическая область
определяющаяся неравенством:
K  K кр , K кр  0
0
K кр
K кр ищут, исходя из требования чтобы
P( K  K кр )   .
• Левосторонняя критическая область –
критическая область, определяющаяся
неравенством: K  K кр , K кр  0.
K кр
0
K кр ищут, исходя из требования чтобы
P( K  K кр )   .
• Двусторонняя критическая область –
критическая область, определяющаяся
неравенством: K  K1 , K  K 2 .
K1
0
K2
K1 , K 2 ищут, исходя из требования чтобы
P( K  K1 )  P( K  K 2 )  .
• Если распределение критерия симметрично
относительно 0 и имеются основания
выбрать симметричные относительно нуля
точки:  K кр и K кр ( K кр  0), то
P( K   K кр )  P( K  K кр ).
Тогда P( K
заменится
 K1 )  P(K  K 2 )  
P( K   K кр )  P( K  K кр )  
или
P( K  K кр )   / 2.
• Критерий согласия – критерий
проверки гипотезы о предполагаемом
законе неизвестного распределения.
• Критерии согласия:  ( хи квадрат)
Пирсона, Колмогорова, Смирнова и др.
2
Проверка гипотезы о
нормальном распределении
генеральной совокупности
Критерий Пирсона.
• В качестве критерия проверки H 0
примем случайную величину
(ni  ni)
 
,
ni
2
2
где
ni -эмпирические частоты;
ni
-теоретические частоты.
• Строим правостороннюю критическую
область, исходя из требования, что
P(    ( ; k ))  
2
2
кр
в предположении справедливости H 0 ,
где  - уровень значимости;
k - число степеней свободы.
• Число степеней свободы находят по
формуле k  s  r  1,
где s - число групп(частичных интервалов)
выборки;
r - число параметров предполагаемого
распределения, которые оценены по
данным выборки.
Если предполагаемое распределение
нормальное, то оценивают два параметра и
тогда k  s  2  1, k  s  3.
• Если обозначить 
2
набл
при


2
набл
при


2
кр
2
кр
2
набл
(ni  ni ) 2

, то
ni
гипотезу H 0 принимают;
гипотезу H 0 отвергают.
Критерий согласия
Колмогорова.
• Если функция распределения
F (x )
случайной величины X непрерывна, то
практически ее эмпирическая функция
F  (x)
распределения при
n 
F ( x)
сходится к
.
• Если F (x) непрерывна, то функция
распределения величины
Dn ( Dn  max Fn ( x)  F ( x)  n )
при n   имеет пределом функцию
k
 2 k 2 2
K ( )    1  e
,
которая не зависит от вида функции
F (x)
• По таблице найдем значение функции K ( )
и затем значение функции
P ( )  1  K ( )   .
Если   1 , то расхождение между
эмпирическими и теоретическими
функциями распределения несущественно,
если   0
, то расхождение
существенно.
Сравнение двух дисперсий
нормальных генеральных
совокупностей.
• В качестве критерия проверки нулевой
гипотезы о равенстве генеральных
дисперсий примем случайную величину ,
причем отношение большей исправленной
дисперсии к меньшей:
2
б
2
м
S
F
.
S
F
• Величина
при условии
справедливости H 0 имеет
распределение Фишера-Снедекора со
степенями свободы k1  n1  1 и k 2  n2  1,
где n1 - объем выборки, по которой
вычислена большая исправленная
дисперсия.
Элементы теории
корреляции.
Основные задачи
теории корреляции.
О форме корреляционной связи между X и
Y в виде некоторой функциональной
зависимости, которая хотя бы приближенно
изображала расплывчатую корреляционную
зависимость.
Об оценке тесноты корреляционной связи
между X и Y , т.е. о степени близости
корреляционной
зависимости
к
функциональной.
Регрессии
• Регрессией Y от X называется
функциональная зависимость между
значениями x и соответствующими
условными средними значениями y ( x ) .
• Регрессии можно представить
геометрически в виде ломанных линий,
соединяющих или точки A ( x ; y ( x )), или
точки B (x ( y ) ; y ).
• Эти линии называются эмпирическими
(полученными из опыта) ломаными линиями
регрессии.
• Плавную кривую можно получить и иначе, –
если ломаную линию регрессии “сгладить”
посредством какой-либо известной линии
(прямой, параболы, гиперболы и т.п.).
• Уравнение сглаживающей линии даст хотя и
приближенно, но аналитическое – в виде
формулы – выражение регрессии. Подобные
формулы называют эмпирическими
Задача отыскания эмпирической
формулы распадается на две
• 1. Выбор типа линии, выравнивающей
ломанную регрессии, т.е. типа линии,
около которой группируются
экспериментальные точки A ( x ; y ( x ) )
или B ( x ( y ) ; y ).
• 2. Определение параметров, входящих
в уравнение линии выбранного типа,
таким образом, чтобы из множества
линий этого типа взять ту, которая
наиболее близко проходит около точек
ломаной регрессии.
Выбор типа линии,
выравнивающей ломаную
линию регрессии
• Для
выбора
типа
линии,
выравнивающей
ломаную
линию
регрессии, необходимо хорошо знать
простейшие
виды
линий
и
их
уравнения.
Определения параметров в
уравнении выравнивающей
линии выбранного типа
• Метод средних применяют в тех
случаях, когда выбранный тип
уравнения выравнивающей линии
содержит лишь один параметр.
• Метод проб используют, когда
выбранная формула содержит
несколько параметров .
• Метод выровненных (или выбранных)
точек состоит в выборе по чертежу
нескольких точек (не обязательно
совпадающих с точками линии регрессии),
через которые проводят выравнивающую
линию и определяют ее уравнение по
координатам этих выбранных точек.
• Метод наименьших квадратов служит для
оценки неизвестных величин по
результатам измерений, содержащим
случайные погрешности.
Метод наименьших
квадратов.
• Необходимо минимизировать сумму
S 
n
2
(
y
(
x
)

y
)

i
i
i 1
где x i , yi – значения опытных данных;
y( xi ) – значение функции, взятое из
эмпирической зависимости в точке x i ;
n– число опытов.
• В случае линейной эмпирической
формулы сумма принимает вид
n
S (a; b)   (axi  b  yi ) ,
2
i 1
а в случае квадратической зависимости –
следующий вид:
n
S (a; b; c)  
i 1
2
(axi
2
 bxi  c  yi ) .

2
a  xi  b xi   xi yi ,
i 1
i 1
i 1

n
n
 a  xi  bn   yi .

i 1
i 1
n
n
n
n
n
n
 n 4
3
2
2
a  xi  b xi  c xi   xi yi ,
i 1
i 1
i 1
 i n1
n
n
n
a x 3  b x 2  c x  x y ,
 i  i  i i
  i
i 1
i 1
i 1
 i 1
n
n
 n 2
 a  xi  b xi  cn   yi .
i 1
i 1
 i 1
Оценка тесноты
корреляционной
зависимости.
• Для оценки тесноты корреляционной
зависимости служит корреляционное
отношение:
 ( yx )

2
 ( y)
2
где  ( y ) – выборочная дисперсия
случайной величины Y , вычисленная по
всей таблице;
2
 ( y x ) – дисперсия условных средних
относительно общей средней, так
называемая внешняя дисперсия.
2
Критерий Фишера.
Fэмп 


2
ост
2
воспр. ср
,
•
2

где ост
1 n
2


(
y

y
)

i –
n  l i 1 i
остаточная дисперсия;
l – число коэффициентов в уравнении
регрессии;
y i – ордината линии регрессии в точке xi ;
2
 воспр.
ср – дисперсия воспроизводимости
средних, равная исправленной внутренней
дисперсии, деленной на число m
экспериментов , по которым вычислялись
условные средние y i :

2
в оспр. ср .
1 m
1
2
2
 
  в нутр. 
  в нутр.
m m 1
m 1
• Величина Fэм п имеет распределение
Фишера с k1  n  l и k2  n(m  1) числами
степеней свободы ( n – число задаваемых
экспериментатором значений величины X ,
m – число проводимых опытов, l – число
коэффициентов в уравнении регрессии).
Из таблицы критических точек распределения
Фишера находим .
• Если Fэм п< Fкрит , уравнение регрессии
адекватно.
• Если Fэм п > Fкрит расхождение между
теоретической и эмпирической линиями
регрессии значимо, уравнение не
адекватно, следует взять многочлен
более высокого порядка.
Линейная корреляция.
• Из всех корреляционных зависимостей
надо
особо
выделить
линейную
корреляцию, т.е. такую, когда точки
регрессии
располагаются
вблизи
некоторой прямой линии.
Виды регрессии
• 1) регрессия Y на X в виде
функциональной зависимости
y x   yx x  b ;
• 2) регрессия X на Y в виде
функциональной зависимости
x y   xy y  d .
Выборочный коэффициент
корреляции
rв
n


xy
xy  n  x  y
n x y
Выборочное уравнение прямой
линии регрессии Y на X
y
y x  y  rв
( x  x)
x
 1  rв  1
Выборочное уравнение прямой
линии регрессии X на Y
x
x y  x  rв
( y  y)
y
 1  rв  1
• Если данные наблюдений над признаками
X и Y заданы в виде корреляционной
таблицы с равноотстоящими вариантами,
то целесообразно перейти к условным
вариантам :
xi  C1
Ui 
h1
,
Vj 
y j  C2
h2
Выборочный коэффициент
корреляции
rв
n


uv  n  u  v
n  u  v
uv
nu
nv


u
, v
,
u
v
n
n
 u  u  ( u) ,  v  v  ( v) .
2
2
2
2
x  u  h1  C1 , y  v  h2  C2
 x   u  h1 ,  y   v  h2 .
Скачать