Глава 3 МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

advertisement
Глава 3 МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Изучая теорию вероятностей, мы предполагали, что вероятности некоторых
событий, законы распределения случайных величин, их числовые характеристики
и другая информация как качественного, так и количественного характера
известна. Возникает вопрос, откуда вся эта информация берётся. Ответ естественен
– в основы всех этих данных лежит эксперимент. Любое исследование случайных
явлений прямо или косвенно опирается на статистический эксперимент. Разработка методов сбора, регистрации и анализа экспериментальных данных, полученных в результате наблюдения массовых явлений, представляет предмет математической статистики. Среди многообразия задач математической статистики
мы ограничимся рассмотрением двух: определение неизвестных параметров закона распределения случайной величины и сглаживание экспериментальных зависимостей. Но в начале введём ряд новых понятий и определений.
3.1. Основные понятия
Пусть требуется изучить некоторую совокупность однородных объектов относительно качественного или количественного признака, характеризующего эти
объекты. В большинстве случаев обследование каждого из объектов совокупности
относительно интересующего нас признака не проводится; совокупность может
содержать слишком много элементов и поэтому сплошное обследование невозможно. В некоторых случаях обследование связано с уничтожением объекта – в
этом случае сплошное обследование бессмысленно. В подобной ситуации пользуются выборочным методом, при котором из совокупности выбирают ограниченное число объектов и их подвергают изучению. Сразу же возникает вопрос,
насколько результаты такого обследования будут справедливы для всей совокупности.
Назовём множество всех изучаемых объектов генеральной совокупностью, а их число N – объёмом генеральной совокупности. Выборочной совокупностью, или кратко выборкой, назовём объекты,
отобранные для исследования из генеральной совокупности, а их
число n – объёмом выборки.
Для того, чтобы по данным выборки можно было достаточно уверенно судить
об интересующем нас признаке генеральной совокупности, необходимо, чтобы
73
объекты выборки правильно его представляли. Кратко это требование звучит так
– выборка должна быть репрезентативной (представительной), для чего каждый
из её объектов должен быть отобран из генеральной совокупности случайным образом, то есть все объекты генеральной совокупности случайных объектов должны иметь одинаковую вероятность попасть в выборку. Существуют специальные
приёмы отбора, обеспечивающие репрезентативность выборки и мы будем в
дальнейшем предполагать, что это требование выполнено.
Пусть из генеральной совокупности извлечена выборка объёмом n , причём,
количественный признак величины x1 наблюдался n1 раз,…, xk наблюдался nk
раз.
Наблюдаемые значения количественного признака xi называются
вариантами, а последовательность вариант, записанных в порядке
возрастания – вариационным рядом. Число наблюдений значения
признака xi , то есть ni называется частотой, а  i – отношение ni
к объёму выборки n – относительной частотой
При этом справедливы соотношения
n
ni  n;

i 1
n
i  i ;
n
n
 i  1.

i 1
(3.1)
Соответствие между вариантами, записанными в порядке возрастания, и относительными частотами называется статистическим (эмпирическим) распределением выборки.
Нетрудно заметить полную аналогию между статистическим распределением
выборки и законом распределения дискретной случайной величины, но в данном
случае вместо возможных значений случайной величины фигурируют варианты, а
вместо соответствующих вероятностей – относите5льные частоты. В силу этой
аналогии по известному эмпирическому распределению можно по тем же формулам, что и для дискретного распределения, найти выборочные аналоги математического ожидания и дисперсии.
Если обозначить n  x  число вариант, меньших x , то относительная частота
события   x будет равна

   x  

n  x
. При изменении x будет меняться и
n
относительная частота    x . Эту зависимость назовём эмпирической функцией распределения:
74
F *  x     x  
n  x
.
n
(3.2)
В отличии от эмпирической функции распределения F *  x  функцию распре-
F  x  называют теоретической функцией
распределения. Различие заключается в том, что F  x  определяет вероятность
деления генеральной совокупности
события   x , а F *  x  – его относительную частоту. Из теоремы Бернулли сле-


дует, что относительная частота    x , то есть значение F *  x  эмпирической


функции распределения, стремится по вероятности к p   x – значению теоретической функции распределения при увеличении объёма выборки n . Полученные из эксперимента эмпирическая функция распределения и её числовые характеристики определяются по данным выборки и, естественно, для различных выборок будут как-то отличаться друг от друга. Задача заключается в том, чтобы по
полученному экспериментальному материалу сделать выводы о виде и значениях
числовых параметров теоретического распределения. Мы ограничимся случаем,
когда известен вид теоретического распределения, но не известны и подлежат
определению параметры распределения.
3.2. Точечные и интегральные оценки параметров
распределения
Предположим, что заранее известен вид теоретического распределения интересующего нас признака  , но параметры этого распределения не известны и
должны быть найдены по данным выборки. Так, например, если известно, что интересующая нас величина распределена нормально, то определению подлежат математическое ожидание и среднеквадратическое отклонение (или дисперсия).
Задача оценивания параметров теоретического распределения состоит в построении формул, зависящих от выборочных значений x1,..., xn . Любую функцию
    x1,..., xn  , зависящую от выборки и поэтому являющейся случайной вели-
чиной, принято называть статистикой. Для того, чтобы оценки неизвестных параметров, то есть статистики, давали хорошее приближение неизвестных парамет-
75
ров распределения генеральной совокупности, они должны удовлетворять определённым требованиям.
Математическое ожидание оценки параметра по всевозможным выборкам
данного объёма должно равняться истинному значению определяемого параметра. В этом случае оценку называют несмещённой.
При увеличении объёма выборки оценка должна сходиться по вероятности к
истинному значению параметра. В этом случае оценку называют состоятельной.
Поскольку в качестве оценки мы ищем число – точку на координатной оси, то
такие оценки называют точечными.
Из многих способов получения оценок мы воспользуемся методом моментов,
идея которого заключается в приравнивании теоретических и соответствующих
им эмпирических числовых характеристик. Их и называют моментами, причём
число таких характеристик и, следовательно, число уравнений для определения
неизвестных параметров распределения берётся равным числу параметров. Проиллюстрируем эту методику на примерах.
1. Оценка вероятности события. Пусть нас интересует вероятность p некоторого события A и для её определения проведено n независимых однородных
испытаний. Для построения точечной оценки рассмотрим введённую в п.2.3 случайную величину
n
    k – сумму индикаторов испытаний, математическое
k 1
ожидание которой было найдено ранее оказалось равным n  p . Учитывая, что
 
сумма индикаторов равна m A – числу появлений события A при n испытаниях и приравнивая теоретическую и эмпирическую характеристики, получаем искомую оценку:
m  A 1 n
n  p  m  A   p   A  
  i .
n
n i1
(3.3)
Проверим полученную оценку на несмещённость и состоятельность:
n
 n

M  p   M  1  i   1  pi  p;
 n i 1  n i 1


n
n
1
1
lim p  nlim
  lim
p  p.
n
 n  i n n  i
i 1
i 1
Здесь мы воспользовались свойствами математического ожидания и теоремой Чебышева, согласно которой среднее арифметическое системы случайных величин
76
сходится по вероятности к среднему арифметическому их математических ожиданий.
2. Оценки параметров нормального распределения. Нормальное распределение определяется двумя параметрами – a и  . Приравнивая теоретическое математическое ожидание M   a и дисперсию D    2 соответствующим
 
 
эмпирическим величинам
x
1 n
xi ;
n
i 1
D
2
1 n
xi  x  ,


n i 1
получаем искомые оценки.
n
1
a  x   xi ;
n i1
D  2
n
n
2
2
1
1
   xi  x       xi  x  ,
n i1
n i1
(3.4)
Проверим оценку математического ожидания на несмещённость и состоятельность, для чего в формулах (3.4) заменим xi на i , то есть будем рассматривать
xi как значение случайной величины i , полученной в i-том наблюдении. В силу
репрезентативности выборки i имеют то же распределение, что и вся генеральная совокупность.
M a
1 n
 1 n



 M    M
 
a
 n i 1 i  n i 1 i
 




 a;
1 n   lim 1 n a  a.
lim
a

lim
n
n n  i n n  i
i 1
i 1
Аналогичные, но более громоздкие выкладки, для оценки дисперсии дают:
M  D   D   ;


n 1 D  .
lim
D

 
n
n
 
То есть оценка D является состоятельной, но смещённой оценкой для D  , так
как её математическое ожидание не равно D , а несколько меньше. Чтобы ликви-
77
n . Обозначим результат
n 1
2
этой операции s и назовём его исправленной эмпирической дисперсией, а s –
дировать это смещение, достаточно умножить D на
исправленным среднеквадратическим отклонением.
Поскольку точечные оценки параметров распределения являются случайными
величинами и могут отличаться от оцениваемых параметров, то возникает необходимость в оценке точности и надёжности найденного, то есть требуется знать к
каким ошибкам может привести замена неизвестного параметра его точечной
оценкой и с какой уверенностью можно ожидать, что ошибки не выйдут за известные пределы. С этой целью вводятся интервальные оценки, то есть по данным
выборки указывается интервал, который с достаточной и довольно близкой к единице вероятностью  (её называют доверительной вероятностью или надёжностью оценки) накрывает неизвестный параметр.
Идея, лежащая в основе построения доверительных интервалов заключается в
следующем – вводится определённая случайная величина, являющаяся функцией
выборки и определяемого параметра (статистика), распределение которой заранее
известно. Для этой случайной величины строится интервал, в который она попадает с заданной вероятностью  , и затем, на основе полученного интервала, путём
эквивалентных преобразований строится доверительный интервал для искомого
параметра.
Сначала найдём доверительный интервал для оценки вероятности события A ,
точечная оценка которой была найдена ранее (3.3). Для этого рассмотрим отклонение относительной частоты  A от вероятности p , то есть разность
 
  A  p  p  p . Учитывая, что вероятность появления события A при n испытаниях m раз, следовательно, и относительная частота, определяется формулой
Бернулли и при больших n вычисляется по интегральной теореме МуаврвЛапласа, получаем:




p    A  p     p  m  p     p n  p     m  n  p    
 n







 np   p  np 
 np   p  np 
 n 




 ,


 2 




 pq 
npq
npq






где  – надёжность требуемой оценки. Переходя к новой переменной t 
получаем:
78
 n,
pq


p


p 1 p  
    t    ,
n 

p  p  t


 

где t определяется по таблице значений функции Лапласа из условия  t  .
2
Отсюда с вероятностью  должно выполняться неравенство:
p  t
p 1 p 
p 1 p 
 p  p  t
.
n
n
(3.5)
Полученная оценка обладает двумя недостатками: зависит от p – неизвестной
величины; справедлива при больших n , что является понятием расплывчатым. От
первого затруднения можно уйти, разрешив последнее неравенство относительно
p:
2np  t2  t 4np 1 p   t2
2

n  t2


 p
2np  t2  t 4np 1 p   t2
2

n t2


.
(3.6)
 
Второе можно обойти заменой точного распределения величины  A  p на
нормальное.
npq  9 .
Практически
удовлетворительный
результат
получается
при
Пример 1.
Из подвергнутым испытаниям на сортность 100 единиц товара 80 выдержали его.
Найти доверительный интервал с надёжностью 0.95 для вероятности того, что
произвольно выбранный образец удовлетворяет предъявленным условиям.
Решение. В качестве точечной оценки неизвестного параметра принимаем
p   A  80  0.8 . По доверительной вероятности с помощью таблицы значе100
ний функции Лапласа находим t  1.96 и затем по формуле (3.6) определяем доверительный интервал: 0.711  p  0.867.
Доверительные интервалы для параметров нормального распределения a и 
в случае, когда они оба неизвестны (наиболее общий и чаще всего встречающийся
на практике случай), можно получить, используя следующие случайные величины:
79
2
 n 1

s2
2


n 

  
2
2


;
n    a 

,
(3.7)
s
где s – исправленное среднеквадратическое отклонение; a и  и – неизвестные
параметры, а  – выборочная средняя.
i 1
Можно показать, что первая из введённых случайных величин распределена
по закону  2 с n 1 степенью свободы, а вторая имеет распределение Стъюден-




та с n 1 степенью свободы.
Используя эти случайные величины, можно получить доверительные интервалы
для a :
  t s  a    t s ,
n
(3.8)
n
где t определяется по доверительной вероятности  из таблицы распределения
Стъюдента (таблица 5) из условия p
   t    ,
n 1  s    n 1  s,
h
h
для  :
где h и h определяются по таблице распределения
(3.9)
 2 с  n 1 степенью сво-
боды так, чтобы выполнялись соотношения:


p n21  h 


p n21  h  1 1   a1
2
p n21  h  1   a2 .
2
1 
2
или

и

Пример 2.
Для проверки фасовочной установки были отобраны и взвешены 20 упаковок.
Были получены следующие результаты (в граммах)
246.0
253.0
80
247.0
253.6
247.3
254.6
247.4
254.7
251.7
254.8
252.5
256.1
252.6 252.8
256.3 256.8
252.8
257.4
252.9
259.2
Найти доверительные интервалы для математического ожидания с надёжностью
0.95 и среднеквадратического отклонения с надёжностью 0.9, предполагая, что
измеряемая величина распределена нормально.
Решение. Находим точечные оценки a и  :
n
20
a  x 1  xi  1  xi  252.98;
n i1
20 i1
n
2
1 20 x  x 2  13.3;
x

x

 i  19 
i 
n 1 
i 1
i 1
  s  3.65.
 2  s2  1
Определяем по таблице распределения Стъюдента (таблица 5) для доверительной вероятности   0.95 и числу степеней свободы n 1  19 соответству-


ющее значение t  2.093 и по формуле (3.8) находим искомый интервал:
252.98  2.093 3.65  a  252.98  2.093 3.65  251.27  a  254.69.
20
20
Для построения доверительного интервала для  с надёжностью   0.95
находим по таблице распределения
 2 с  n 1  19 степенями свободы (таблица
6) числа h и h из условий




2  h  1   0.05
2  h  0.95  a
p 19
p 19
или


1
2
2  h  1   0.05  a .
p 19
и

2
2


В результате получаем h  10.117 и
h  30.144 . Отсюда искомый доверительный интервал, накрывающий  с надёжностью  , равен 2.9    5.0.
3.3. Сглаживание экспериментальных
наименьших квадратов
зависимостей
методом
81
Пусть проводится некоторый опыт, целью которого является исследование зависимости определённой физической величины от другой ( y от x ). Будем предполагать, что величины y и x связаны функциональной зависимостью y    x  .
Вид этой зависимости и требуется определить из опыта.
Предположим сначала, что зависимость y    x  известна и в результате опы-


та получен ряд экспериментальных точек xi , yi . Обычно эти точки не ложатся
точно на график функции y    x  . Всегда имеется некоторый разброс, то есть
обнаруживаются случайные отклонения от этой функциональной зависимости.
Эти отклонения связаны с неизбежными при любом опыте ошибками.
Возникает естественный вопрос, как, не зная зависимости y    x  , наилучшим образом воспроизвести эту зависимость по полученным экспериментальным
данным.
Простое проведение через все экспериментальные точки некоторой кривой,
являющейся графиком определённой функции, лишено смысла. Вид этой зависимости будет меняться от одной серии измерений к другой, а в некоторых случаях
её в принципе нельзя получить (несколько экспериментальных точек могут иметь
одинаковые абсциссы и разные ординаты). В этом случае возникает типичная для
практики задача сглаживания экспериментальных зависимостей, то есть требуется
найти такую функцию y    x  , чтобы она некоторым наилучшим образом отражала функциональную зависимость y от x , и вместе с тем были бы сглажены
случайные незакономерные отклонения измерений, связанные с неизбежными погрешностями самих измерений.
К счастью, обычно ситуация облегчается тем, что из теоретических или других
соображений, связанных с существом рассматриваемой задачи, и даже по полученному экспериментальному материалу можно указать вид функциональной зависимости y от x (линейная, квадратичная, показательная или какая-нибудь другая функция). Требуется только установить численные значения параметров этой
зависимости. Именно задачу рационального выбора таких числовых значений параметров мы и рассмотрим.
Итак, пусть имеются результаты n независимых измерений – опытные точки
xi , yi , где i  1,..., n. Из теоретических или иных соображений с точностью до


неизвестных параметров (для простоты мы ограничимся двумя) a и b известна
функциональная зависимость y от x , то есть
82
y    x, a, b .
(3.10)
Экспериментальные точки отклоняются от этой зависимости вследствие неизбежных ошибок измерений. Ранее мы отмечали, что ошибки измерений распределены по нормальному закону. Рассмотрим некоторое значение независимой переменной xi . Результат измерений может рассматриваться как нормально распреде-
i с математическим ожиданием   xi , a, b  и среднеквадратическим отклонением  i , характеризующим ошибку измерений. Предполённая случайная величина
ложим дополнительно, что точность измерений во всех точках одинакова, то есть
 i   . Тогда плотность вероятности случайной величины i имеет вид


 y   x ,a,b  
i
 i

 


f  yi  
i
1 e
 2
2 2

.
(3.11)

В результате получена n-мерная случайная величина 1,...,n , компоненты которой независимы и плотности вероятности и плотности вероятности которых
определяются по формуле (3.2). Как было показано ранее, плотность вероятности
системы независимых случайных величин равна произведению плотностей вероятности компонент:
f ,...,n  y1,... yn , a, b  
1
1




e
n 

 1 2   yi   xi ,a,b  


2 i1

2
.
(3.12)
2
2 

Теперь для определения параметров a и b воспользуемся идеей метода максимального правдоподобия, согласно которой в эксперименте реализуются те значения компонент, при которых плотность вероятности системы (3.12) близка к
максимальному значению. Учитывая специальный вид функции (3.12), можно заметить, что она достигает максимума тогда, когда показатель степени принимает
минимальное значение. Отбрасывая постоянный множитель 
задаче отыскания минимума выражения
13

 yi  
i 1 

 xi , a,b  .
1 , приходим к
2
2
2

(3.13)
83
Поскольку минимизируется сумма квадратов разностей экспериментальных и
теоретических значений функции (их называют навязками), предложенную процедуру называют методом наименьших квадратов.
Задача сводится к решению двух уравнений:
n



 y 
 a i 1  i

  n 
 yi  

 b i 1 

 xi , a,b



2

 xi , a,b 
2
 0;
(3.14)
 0.
Если функциональная зависимость (3.10) линейна относительно параметров
a и b , то система уравнений (3.14) также будет линейной и её решение можно
найти обычным способом.
Пример 3.
Проведена серия опытов по определению влияния дозы внесённых удобрений на
повышение урожайности пшеницы. Соответствующие данные приведены в первых трёх столбцах таблицы ( x – внесённая доза удобрений в центнерах на гектар, y –прирост урожайности в центнерах с гектара).
xi
i
1
2
3
4
5
6
7
8
9
10
11
12
13
1 13
13 
i1
84
yi
xi2
yi2
xi  yi
0.342
0.417
0.675
0.867
1.000
1.158
1.283
1.500
1.733
2.008
2.083
2.242
2.508
2.10
4.70
6.05
8.65
10.00
12.60
12.08
14.68
16.65
19.25
19.98
23.20
23.93
0.1170
0.1739
0.4556
0.7517
1.0000
1.3410
1.6461
2.2500
3.0033
4.0321
4.3389
5.0266
6.2901
4.41
22.09
36.60
74.82
100.00
158.76
145.93
215.50
277.22
370.56
399.20
538.24
572.64
0.718
1.960
4.084
7.500
10.000
14.591
15.499
22.020
28.854
38.654
41.618
52.014
60.016
1.370
13.37
2.3405
224.31
22.887
Требуется по методу наименьших квадратов подобрать линейную функцию, выражающую y через x .
Решение. Искомые величины связаны линейной зависимостью y  ax  b , коэффициенты которой требуется определить. Соотношение (3.13) в этом случае принимает вид:
  yi  axi  b  ,
n
2
i 1
а система уравнений (3.14) представляется в виде:
  13

 a i 1

13
 

b i1

  yi  axi  b 
2
  yi  axi  b 
2
13

2 
yi  axi  b  xi  0;

i 1

13


2

yi  axi  b  0.

i 1



 0;


 0.

Раскрывая скобки и группируя, в результате получаем следующую систему линейных уравнений для определения a и b :

13
13
13



2 a   1
 1
 b  1
x
x
xi  yi ;
i 
i
 13

13
13
i 1
i 1 
i 1




13
 1 13



xi   a  b  1 yi .

 13 i 1 
13 i1









Решая эту систему методом исключения (Гаусса), в итоге получаем:
a  9.86; b  0.14

y  9.86x  0.14.
Во многих приложениях часто используются зависимости вида y  a  x k  b ,
линейные относительно параметров
a и
b
1
x
(в частности, y  a   b
при
k  1), где k – известная константа. В этом случае задача легко сводится к
предыдущей заменой переменной u  xk .
85
Download