Математическая статистика в примерах и задачах. Практикум по

advertisement
Ýëåêòðîííûé ó÷åáíî-ìåòîäè÷åñêèé êîìïëåêñ
Ìàòåìàòè÷åñêàÿ
ñòàòèñòèêà
Ó÷åáíàÿ ïðîãðàììà äèñöèïëèíû
Êóðñ ëåêöèé
Ïðàêòèêóì ïî ðåøåíèþ çàäà÷
Ìåòîäè÷åñêèå óêàçàíèÿ ïî ñàìîñòîÿòåëüíîé ðàáîòå
Áàíê òåñòîâûõ çàäàíèé â ñèñòåìå UniTest
Êðàñíîÿðñê
ÈÏÊ ÑÔÓ
2009
УДК 519.22 (075)
ББК 22.172я73
К84
Электронный учебно-методический комплекс по дисциплине «Математическая
статистика» подготовлен в рамках реализации Программы развития федерального государственного образовательного учреждения высшего профессионального образования «Сибирский федеральный университет» (СФУ) на 2007–2010 гг.
Рецензенты:
Красноярский краевой фонд науки;
Экспертная комиссия СФУ по подготовке учебно-методических комплексов дисциплин
К84
Крупкина, Т. В.
Математическая статистика в примерах и задачах [Электронный ресурс] :
практикум по решению задач / Т. В. Крупкина, А. К. Гречкосеев. – Электрон.
дан. (2 Мб). – Красноярск : ИПК СФУ, 2009. – (Математическая статистика :
УМКД № 1455/405–2008 / рук. творч. коллектива Т. В. Крупкина). – 1 электрон.
опт. диск (DVD). – Систем. требования : Intel Pentium (или аналогичный процессор других производителей) 1 ГГц ; 512 Мб оперативной памяти ; 50 Мб
свободного дискового пространства ; привод DVD ; операционная система Microsoft Windows XP SP 2 / Vista (32 бит) ; Adobe Reader 7.0 (или аналогичный
продукт для чтения файлов формата pdf).
ISBN 978-5-7638-1680-8 (комплекса)
ISBN 978-5-7638-1750-8 (практикума)
Номер гос. регистрации в ФГУП НТЦ «Информрегистр» 0320902499 (комплекса)
Настоящее издание является частью электронного учебно-методического комплекса по дисциплине «Математическая статистика», включающего учебную программу дисциплины, курс лекций, методические указания по самостоятельной работе,
контрольно-измерительные материалы «Математическая статистика. Банк тестовых
заданий», наглядное пособие «Математическая статистика. Презентационные материалы».
Включает в себя задачи для аудиторной и самостоятельной работы и разобранные
примеры их решений, а также необходимые теоретические сведения.
Предназначен для студентов направлений подготовки бакалавров 010100.62 «Математика», 010500.62 «Прикладная математика и информатика», 010300.62 «Математика. Компьютерные науки» укрупненной группы 010000 «Физико-математические
науки и фундаментальная информатика».
© Сибирский федеральный университет, 2009
Рекомендовано к изданию Инновационно-методическим управлением СФУ
Редактор Н. Ф. Ткачук
Разработка и оформление электронного образовательного ресурса: Центр технологий электронного обучения Информационно-телекоммуникационного комплекса СФУ; лаборатория
по разработке мультимедийных электронных образовательных ресурсов при КрЦНИТ
Содержимое ресурса охраняется законом об авторском праве. Несанкционированное копирование и использование данного продукта запрещается. Встречающиеся названия программного обеспечения, изделий, устройств или систем могут являться зарегистрированными товарными знаками тех или иных фирм.
Подп. к использованию 30.11.2009
Объем 2 Мб
Красноярск: СФУ, 660041, Красноярск, пр. Свободный, 79
Я занимался до сих пор решением ряда задач,
ибо при изучении наук примеры полезнее правил.
Исаак Ньютон1
Предисловие
Данное издание предназначено для обеспечения аудиторной и самостоятельной работы студентов института математики Сибирского федерального университета по решению задач в курсе «Математическая статистика».
Дисциплина размещена в учебном плане в 8-м семестре по 4 часа (2 часа
лекций и 2 часа практических занятий) в неделю.
Структура изложения определена графиком практических занятий и
соответствует стандартному семестру (17 недель, 15 практических занятий);
2 занятия отведены под промежуточный контроль. Номер параграфа пособия соответствует номеру практического занятия.
Дисциплина охватывает две большие темы (два модуля): выборочная
теория, статистическое оценивание и проверка статистических гипотез. Первый модуль занимает 1–8-ю недели, второй 9–17-ю недели 8-го семестра.
Модуль 1 «Выборочная теория» состоит из трех тем: 1) введение в математическую статистику (занятия 1, 2, 3); 2) распределения математической
статистики (занятия 4, 5); 3) статистическое оценивание (занятия 6, 7); Этот
модуль является фундаментом следующего и посвящен введению в математическую статистику. Рассматриваются выборочные характеристики и методы статистической обработки случайной выборки, вводятся распределения Пирсона, Стьюдента, Фишера, изучаются распределения выборочных
характеристик, рассматриваются простейшие методы решения одной из основных задач статистики — задачи оценивания. Вводятся понятия несмещенных, состоятельных, оптимальных и эффективных оценок, изучаются их
свойства.
Второй модуль «Оценивание и проверка статистических гипотез» состоит из четырех тем: 4) достаточность и оптимальность (занятия 8, 9, 10);
5) интервальное оценивание параметров (занятие 11); 6) проверка параметрических гипотез (занятия 12, 13); 7) проверка гипотез о виде распределения
и о связи (занятия 14, 15). В этом модуле изложение ведется на основе теории достаточных статистик. Помимо точечного и интервального оценивания
параметров рассматривается вторая важнейшая задача статистики – проверка статистических гипотез. Излагаются как общие подходы к проверке
1
Ньютон, И. Всеобщая арифметика или книга об арифметическом синтезе и анализе.
М. : Изд-во Академии наук СССР, 1948. С. 243.
3
статистической гипотезы и процедуры построения критериев, так и процедуры применения критериев для проверки гипотез, а также методы сравнения
статистических критериев. В этом же модуле изучаются элементы регрессионного анализа, включая оценивание параметров уравнения регрессии.
Каждый параграф пособия содержит необходимые теоретические сведения и включает большое количество подробно разобранных примеров и
задач для аудиторной и самостоятельной работы.
Приложение содержит семь таблиц: значения функций ϕ (x), Φ0 (x),
случайные числа, квантили распределения Стьюдента Tn , квантили распределения χ2n , квантили распределения Фишера F порядков α = 0, 01 и 0, 05,
критические значения критерия U Манна – Уитни при уровне значимости
α = 0, 05. Использование пособия позволит закрепить и углубить теоретические знания и получить навыки практического применения статистических
методов.
4
Принятые обозначения и сокращения
P(A) — вероятность события A
E ξ — математическое ожидание случайной величины ξ
Dξ — дисперсия случайной величины ξ
X = (X1 , . . . , Xn ) — выборка
hFi — статистическая модель
hFθ i — параметрическая модель
Xk∗ — k-ая порядковая статистика
νn (x) — эмпирическая частота
Fn (x), Fn∗ (x) — эмпирическая функция распределения
ak — выборочный начальный момент k-го порядка
mk — выборочный центральный момент k-го порядка
X — выборочное среднее
S 2 — выборочная дисперсия
2
S — исправленная выборочная дисперсия
KXY — выборочная ковариация
rXY — выборочный коэффициент корреляции
p
→
− — сходится по вероятности
d
→
− — сходится по распределению
п.н.
−−→ — сходится почти наверное
θ̂ — оценка θ
Tθ — класс несмещенных оценок параметра θ
Tτ (θ) — класс несмещенных оценок параметрической функции τ (θ)
I — информационное количество Фишера
L — функция правдоподобия
о.м.п. — оценка максимального правдоподобия
о.м.м. — оценка метода моментов
о.н.к. — оценка методом наименьших квадратов
E — экспоненциальное семейство
Iθ — доверительный интервал параметра θ
M (K) — мощность критерия
НКО — наилучшая критическая область
π(X) — рандомизированный статистический критерий
J — начало решения
I — конец решения
5
§ 1. Статистические модели
Генеральная совокупность рассматривается как случайная величина
ξ, а выборка – как n-мерная случайная величина (ξ1 , . . . , ξn ), компоненты
которой независимы и одинаково распределены (так же как ξ).
Статистическая модель hFi – это класс допустимых функций распределения исходной случайной величины.
Если функции распределения из класса hFi заданы с точностью до
значений параметра θ (не обязательно скалярного) с множеством возможных значений Θ, то такая модель обозначается hFθ i и называется параметрической.
Если модель hFθ i такова, что можно дифференцировать по θ интегралы
на выборочном пространстве X , меняя порядок дифференцирования и интегрирования, то она называется регулярной.
Одно из наиболее существенных условий регулярности – то, что выборочное пространство X не должно зависеть от параметра θ.
Вариационный ряд конкретной реализации выборки x = (x1 , . . . , xn )
– последовательность упорядоченных по возрастанию значений
x∗1 , x∗2 , . . . , x∗n (x∗1 6 x∗2 6 . . . 6 x∗n ). Если через Xk∗ обозначить случайную
величину, которая для каждой реализации x выборки X принимает значение
x∗k , k = 1, . . . , n, то Xk∗ называется k-й порядковой статистикой выборки, а
X1∗ и Xn∗ – экстремальными значениями выборки. Порядковые статистики
удовлетворяют неравенствам X1∗ 6 X2∗ 6 . . . 6 Xn∗ . Последовательность
X1∗ , X2∗ , . . . , Xn∗ называют вариационным рядом выборки.
Эмпирической функцией распределения Fn (x), соответствующей
выборке X, называется случайная функция от x, вычисляемая по формуле
Fn (x) =
νn
,
n
где νn – число элементов выборки X = (X1 , . . . , Xn ), значения которых
меньше x (эмпирическая частота).
Пример 1. Какая статистическая модель применима для выборки,
полученной следующим образом: 10 раз измерялось число вызовов ξ,
поступающих оператору АТС в течение минуты?
J Поскольку число абонентов АТС велико, а вероятность для каждого из
них позвонить в данную минуту мала, можно применить модель пуассоновского распределения hPλ i. I
6
Пример 2. Какая статистическая модель применима для выборки цен
на один и тот же товар в 100 различных магазинах в один и тот же
момент времени?
J Поскольку выборка достаточно велика, то можно пробовать применить
нормальную модель hN (a, σ)i. Если при этом цены меняются мало, возможно и применение равномерной модели. I
Пример 3. По данной выборке X = (2, 1, 1, 2, −1, 2, 2, 4, 1) построить
вариационный ряд, найти эмпирическую частоту и эмпирическую
функцию распределения.
J Для нахождения вариационного ряда надо упорядочить элементы выборки
по возрастанию:
X ∗ = (−1, 1, 1, 1, 2, 2, 2, 2, 4).

0 при
x 6 −1,




 1 при −1 < x 6 1,
4 при 1 < x 6 2,
ν9 (x) =


8 при 2 < x 6 4,



9 при
x > 4.

0 при
x 6 −1,




 1/9 при −1 < x 6 1,
4/9 при 1 < x 6 2,
F9 (x) =


8/9 при 2 < x 6 4,



1 при
x > 4.
I
Пример 4. Найти распределение эмпирической частоты, полученной
по выборке объема 100 в нормальной модели hN (0, 1)i.
J Известно, что эмпирическая частота имеет биномиальное распределение
B(n; Fξ (x)). Поэтому в данном случае эмпирическая частота распределена
по закону B(100; Φ(x)). I
Пример 5. Доказать, что в модели hFξ i DFn (x) =
J
DFn (x) = D
νn (x)
n
7
=
Dνn (x)
,
n2
Fξ (x)(1 − Fξ (x))
.
n
но νn (x) имеет биномиальное распределение B(n; Fξ (x)) с дисперсией
nFξ (x)(1 − Fξ (x), и
DFn (x) =
Dνn (x) nFξ (x)(1 − Fξ (x) Fξ (x)(1 − Fξ (x))
=
=
.
n2
n2
n
I
Задачи
1. Какая статистическая модель применима для выборки, полученной следующим образом: 10 раз измерялось число попаданий в
цель при трех независимых выстрелах, произведенных одним и тем
же стрелком?
2. Какая статистическая модель применима для выборки, полученной следующим образом: 8 раз измерялось число черных шаров, вынутых с возвращением за три раза из урны, которая содержит два
белых и несколько черных шаров?
3. Какая статистическая модель применима для выборки, полученной следующим образом: у 100 студенток первого курса измерен
рост?
4. Какая статистическая модель применима для выборки, полученной измерением на 10 опытных делянках урожайности культуры,
если известно, что урожайность культуры составляет 35 центнеров
с гектара?
5. Какая статистическая модель применима для выборки, полученной измерением 100 раз времени ожидания автобуса?
6. Какая статистическая модель применима для данной выборки?
m
ni
0 1 2 3 4 5
13 17 12 5 3 1
7. По официальным данным в Швеции в 1935 г. родилось 88 273 ребенка, причем в январе родилось 7280 детей, в феврале – 6957, марте
– 7883, апреле – 7884, мае – 7892, июне – 7609, июле – 7585, августе
– 7393, сентябре – 7203, октябре – 6 903, ноябре – 6 552 и в декабре
– 7 132 ребенка. Какая статистическая модель применима для этой
выборки?
8. В экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, полученных при скрещивании растений с
8
круглыми желтыми семенами и растений с морщинистыми зелеными
семенами. Эти данные и значения теоретических вероятностей по
теории наследственности приведены в следующей таблице:
Семена
Круглые и желтые
Морщинистые и желтые
Круглые и зеленые
Морщинистые и зеленые
Частота Вероятность
315
9/16
101
3/16
108
3/16
32
1/16
Какая статистическая модель применима для этой выборки?
9. В эксперименте Бюффона при n = 4040 бросаниях монеты наблюдалось m = 2048. Какая статистическая модель применима для
этой выборки?
10. В десятичной записи числа π среди первых 10002 знаков после запятой цифры 0, 1, . . . , 9 встречаются соответственно
968, 1026, 1021, 974, 1014, 1046, 1021, 970, 948, 1014 раз. Какая статистическая модель применима для этой выборки?
11. Датчик случайных чисел выдал 10000 чисел 0, 1, . . . , 9. Какая
статистическая модель применима для этой выборки?
12. В таблице приводятся результаты 100 опытов, состоящих
в одновременном подбрасывании 6 костей. В каждом из опытов подсчитывалось число m костей, выпавших кверху гранью с шестью очками.
m 0 1 2 3 4 5 6
ni 47 35 8 9 1 0 0
Какая статистическая модель применима для этой выборки?
13. Во время эпидемии гриппа среди 1000 человек одно заболевание наблюдалось у 90 человек, дважды болели гриппом 4 человека, у
остальных заболевания не было. Какая статистическая модель применима для этой выборки?
14. Какая статистическая модель применима для выборки распределения студентов по знакам Зодиака?
Номер знака
ni
Номер знака
ni
1 2 3 4 5 6
12 13 23 11 9 10
7 8 9 10 11 12
15 7 15 9 7 3
9
15. В таблице приведены числа ni участков равной площади 0,25
км южной части Лондона, на каждый из которых приходилось по i
попаданий снарядов во время второй мировой войны:
2
i
ni
0
1
2 3 4 5 и более
229 221 93 35 7
1
Какая статистическая модель применима для этой выборки?
16. Среди 300 семей, имеющих двоих детей, 80 семей, в которых
два мальчика, и 67, в которых две девочки (в остальных семьях дети разного пола). Какая статистическая модель применима для этой
выборки?
В задачах 17–20 по данной выборке X = (X1 , . . . , Xn ) построить вариационный ряд, найти эмпирическую функцию распределения.
17. X = (1, 1, 2, 1, 2, 4).
18. X = (−1, 1, 2, 1, 2, 3, 4, 1).
19. X = (1, 0, 0, 2, 2, 1).
20. X = (5, 6, 1, 4, 5, 7, 3, 5, 5, 6).
21. Дан статистический ряд величины X:
X 0 2 4 6
ni 3 8 10 2
Построить вариационный ряд.
22. Можно ли восстановить по эмпирической функции распределения, приведенной на рис. 1, если n = 60: а) вариационный ряд,
б)выборку?
23. Существует ли выборка (X1 , . . . , Xn ) объема 10 с графиком
эмпирической функции распределения, изображенным на рис. 1? Какому условию должен удовлетворять объем выборки?
24. На рис. 1 представлен график эмпирической функции распределения выборки (X1 , . . . , Xn ). Нарисуйте график эмпирической функции распределения выборки: а) (X1 + 2, . . . , Xn + 2); б) (2X1 , . . . , 2Xn ).
10
Fn∗ (x)
1 6
-
1 2 3 4 5 6 x
Рис. 1. Эмпирическая функция распределения
25. По эмпирической функции распределения восстановите выборку объема n. Какому условию должен удовлетворять объем выборки?

0 при
x 6 1,



1/3 при 1 < x 6 2,
Fn (x) =
1/2 при 2 < x 6 3,



1 при
x > 3.
26. По эмпирической частоте восстановите выборку.

0 при
x 6 1,



12 при 1 < x 6 2,
νn (x) =
15 при 2 < x 6 3,



24 при
x > 3.
27. Найти функцию распределения максимального элемента выборки в статистической модели hF i.
28. Найти функцию распределения минимального элемента выборки в модели hF i.
29. Найти функцию распределения k-й порядковой статистики
выборки.
30. Найти функцию распределения максимального элемента выборки в модели R[a, b].
31. Найти функцию распределения максимального элемента выборки в модели Ea .
32. Найти совместную функцию распределения k-й и l-й порядковых статистик выборки.
33. В статистической модели hF i найти совместную функцию
распределения минимального и максимального элементов выборки.
11
34. Найти совместную плотность всех порядковых статистик
выборки объема n из абсолютно непрерывного распределения с плотностью f (x).
X1∗ , . . . , Xn∗
35. В статистической модели hF i Fn∗ (x) – эмпирическая функция распределения. Найти P (Fn∗ (x) = y) , x, y ∈ R.
12
§ 2. Выборочные характеристики
Пусть X = (X1 , . . . , Xn ) – выборка объема n из распределения F и x =
(x1 , . . . , xn ) – наблюдавшееся значение X. Любая функция от X представляет собой также случайную величину с распределением, однозначно определяемым распределением вектора X. Каждому теоретическому моменту g(ξ)
можно поставить в соответствие P
его статистический аналог G = G(X), вы1
числяемый по формуле G(x) = n ni=1 g(Xi ) (см. табл. § 2).
Случайную величину G называют эмпирической или выборочной
характеристикой, соответствующей теоретической характеристике g.
Если g(x) = xk , то G – выборочный начальный момент k-го порядка, который будем обозначать ak .
Выборочным начальным моментом k-го порядка называют случайную величину
n
1X k
X .
ak =
n i=1 i
Если k = 1, то величину a1 называют выборочным средним и обозначают
символом X,
n
1X
X=
Xi .
n i=1
Значения случайной величины X при конкретной реализации x выборки X будем обозначать строчной буквой (x). Напомним, что теоретические
моменты случайной величины ξ обозначают греческими буквами, а соответствующие им выборочные – латинскими.
Выборочным центральным моментом k-го порядка называют случайную величину
n
1X
mk =
(Xi − X)k .
n i=1
При k = 2 величину m2 называют выборочной дисперсией и обозначают
S 2:
n
1X
2
S =
(Xi − X)2 .
n i=1
Выборочную дисперсию часто рассчитывают по формуле
2 1 X 2 1X
2
S =
Xi − X̄ =
Xi − X̄ 2 ,
n
n
2
P
2
1
а исправленная выборочная дисперсия равна S = n−1
Xi − X̄ . Выбо√
рочное среднеквадратичное отклонение S = S 2 .
13
Будем считать, что выборка взята из совокупности с математическим
ожиданием E ξ = a и дисперсией Dξ = σ 2 ; тогда E Xi = a, DXi = σ 2 для
любого элемента выборки Xi .
Таблица 1
Соответствие выборочных и теоретических характеристик
Теоретические характеристики
a = Eξ
математическое ожидание
σ 2 = Dξ
дисперсия
αk = E ξ k
начальный k-й момент
µk = E(ξ − E ξ)k
центральный k-й момент
A = σµ33
коэффициент асимметрии
E = σµ44 − 3
коэффициент эксцесса
Свойства X =
Выборочные характеристики
P
X = n1 ni=1 Xi
выборочное среднее
P
S 2 = n1 ni=1 (Xi − X)2
выборочная дисперсия
P
ak = n1 ni=1 Xik
начальный выборочный k-й момент
P
mk = n1 ni=1 (Xi − X)k
центральный выборочный k-й момент
b = m33
A
S
выборочный коэффициент асимметрии
b = m44 − 3
E
S
выборочный коэффициент эксцесса
n
1P
Xi .
n i=1
1. E X = a.
2. DX =
σ2
.
n
p
3. X →
− a.
п.н.
4. X −−→ a.
5.
√
(X−a) n
σ
∼ N (0, 1).
Свойства выборочной дисперсии S 2 .
2
2
1. SX+c
= SX
.
2
2
2. SkX
= k 2 SX
.
P 2
Xi − (X)2 .
3. S 2 = n1
P
4. S 2 = min n1 (Xi − c)2 .
c
14
5. E S 2 =
2
6. DS =
(n−1)σ 2
.
n
(n−1)2
n3
µ4 −
(n−3) 2
n−1 µ2
.
Выборочной модой называется значение mo , чаще всего наблюдающееся:
ni (m0 ) = max ni .
i
Выборочной медианой называется значение me , равное среднему
члену вариационного ряда:
me = X[∗n ]+1 .
2
Выборочной квантилью порядка q, 0 < q < 1 называется значение
равное члену вариационного ряда с номером
[nq] + 1.
Xq∗ ,
Выборочная ковариация KXY :
KXY = XY − XY , где XY =
1
n
Pn
i=1 Xi Yi .
Выборочный коэффициент корреляции rXY :
r=
KXY
.
sX sY
Выборочное уравнение линейной регрессии Y на X:
sY
Ŷ − Y = r (X − X).
sX
Выборочное уравнение линейной регрессии X на Y :
sX
X̂ − X = r (Y − Y ).
sY
Пример 6. По выборке {3, 1, 2, 0, 2, 4} найдем выборочное среднее и моду.
J
n
1X
1
12
X=
Xi = (3 + 1 + 2 + 0 + 2 + 4) =
= 2.
n i=1
6
6
Выборочная мода mo = 2, так как значение «2» имеет наибольшую частоту.
I
15
Пример 7. По выборке {3, 1, 2, 0, 2, 4} найдем выборочную дисперсию,
выборочное среднеквадратичное отклонение и исправленную выборочную дисперсию.
10 5
(3 − 2)2 + (1 − 2)2 + 2 · (1 − 2)2 + (0 − 2)2 + (4 − 2)2 =
= .
6
3
Другой способ нахождения S 2 :
J S2 =
1
6
1X 2
1
17
5
Xi − X̄ 2 = · 34 − 22 =
−4= .
n
6
3
3
√
Выборочное среднеквадратичное отклонение S = S 2 ≈ 1, 3.
Исправленная выборочная дисперсия равна
S2 =
2
S =
6 5
n
S 2 = · = 2.
n−1
5 3
I
Пример 8. Найдем дисперсию величины S 2 для нормального распределения N (a, σ).
J
3σ 4 − σ 4 2(3σ 4 − 2σ 4 ) 3σ 4 − 3σ 4
2σ 4 2σ 4
DS =
−
+
=
− 2 =
n
n2
n3
n
n
4
2σ (n − 1) 2(n − 1) 4
=
=
σ .
n2
n2
Мы использовали найденные ранее значения моментов нормального распределения: µ2 = σ 2 , µ4 = 3σ 4 (µ2k = (2k − 1)!! · σ 2k ).I
2
Пример 9. Выясним, чему равняется математическое ожидание выборочного среднего E X в модели, заданной законом распределения:
ξ
P
0
1
2
3
0, 2 0, 3 0, 4 0, 1
J Найдем математическое ожидание E ξ:
E ξ = 0 · 0, 2 + 1 · 0, 3 + 2 · 0, 4 + 3 · 0, 1 = 1, 4.
По свойству выборочного среднего E X = a = E ξ. Следовательно, E X =
1, 4. I
16
Пример 10. Вычислим выборочный коэффициент корреляции rXY по
данным:
X 1 2 3 4 5
Y 1 1 2 2 4
J
P
P
( i xi )( i yi )
i xi yi −
KXY
n
r=
= r
=
P
P
2
sX sY
P 2 ( i xi ) P 2 ( i yi )2
)( i yi −
)
( ( i xi −
n
n
P
P
P
n i xi yi − ( i xi )( i yi )
= p P 2
.
P
P
P
( (n i xi − ( i xi )2 )(n i yi2 − ( i yi )2 )
X
X
X
X
X
xi = 15,
yi = 10,
xi yi = 37,
x2i = 55,
yi2 = 26.
P
i
i
i
i
i
5 · 37 − 15 · 10
7
= √ ≈ 0, 904.
r= p
60
( (5 · 55 − (15)2 )(5 · 26 − (10)2 )
I
Пример 11. По данным предыдущего примера найдем выборочное
уравнение линейной регрессии Y на X.
J
Ŷ − Y = r
sY
(X − X),
sX
можно записать это по-другому:
P
P
( i xi )( i yi )
i xi yi −
KXY
Pn 2
Ŷ − Y = 2 (X − X) =
(X − X) =
P 2 ( i xi )
sX
i xi −
n
P
P
P
n i xi yi − ( i xi )( i yi )
P
P
=
(X − X).
n i x2i − ( i xi )2
P
Имеем:
35
(X − 3),
50
Ŷ = 0, 7(X − 3) + 2,
Ŷ − 2 =
Ŷ = 0, 7X − 0, 1.
I
17
Задачи
36. Выборочная дисперсия, рассчитанная по выборке объема 25,
равна 9. Найдите исправленную выборочную дисперсию.
37. По выборке {1, 1, 2, 1, 2, 4} найти выборочную дисперсию.
38. По выборке {1, 1, 2, 1, 2, 4} найти исправленную выборочную
дисперсию.
39. По выборке {−1, 1, 2, 1, 2, 3, 4, 1} найти моду, выборочное среднеквадратичное отклонение.
40. По выборке {−1, 1, 2, 1, 2, 3, 4, 1} найти моду, выборочную дисперсию.
41. По выборке {1, 0, 0, 2, 2, 1} найти выборочные центральные
моменты 2-го и 3-го порядков.
42. Выборка X = (124, 90, 124, 99, 90, 111, 89) представляет собой
значения индексов продаж 7 однотипных товаров некоторого производителя. Найти исправленную выборочную дисперсию.
43. Дан статистический ряд величины X:
X 0 2 4 6
ni 3 8 10 2
Найти выборочное среднее и выборочную дисперсию.
44. Дан статистический ряд величины X:
X −1 0 1 2
ni 5 7 4 1
Найти выборочные начальные моменты 2-го и 3-го порядков.
45. Найти a3 по выборке (5, 6, 5, 6, 5, 5, 5, 6).
46. По эмпирической функции распределения найдите выборочное среднее.


0 при
x 6 1,




1/3 при 1 < x 6 2,
Fn (x) =

1/2 при 2 < x 6 3,



 1 при
x > 3.
18
47. По эмпирической частоте найдите выборочное среднее.


0 при
x 6 1,




12 при 1 < x 6 2,
νn (x) =

15 при 2 < x 6 3,



 24 при
x > 3.
48. Найдите в распределении Пуассона с параметром λ математическое ожидание выборочного среднего E X.
49. Найдите в распределении Пуассона с параметром λ дисперсию DX.
50. Найдите в показательном распределении с параметром a
E X и DX.
n
P
1
2
2
51. Докажите, что если s = n (Xi − X̄)2 , то E s2 = n−1
n σ .
i=1
52. Вычислить выборочный коэффициент корреляции rXY по
данным:
X −2 −1 0 1 2
Y −2 1 2 5 6
и интерпретировать полученный результат.
53. По данным предыдущего примера найти выборочные уравнения линейной регрессии Y на X и X на Y .
54. Вычислить выборочный коэффициент корреляции rXY по
данным:
X 0 1 3 5 6
Y 0 1 2 1 0
и интерпретировать полученный результат.
55. Докажите, что при неограниченном увеличении объема выборки начальные выборочные моменты сходятся по вероятности к
теоретическим начальным моментам.
56. Докажите, что при неограниченном увеличении объема выборки центральные выборочные моменты сходятся по вероятности
к теоретическим центральным моментам.
57. Докажите, что при неограниченном увеличении объема выборки выборочные коэффициенты асимметрии и эксцесса сходятся по
19
вероятности к соответствующим теоретическим коэффициентам.
58. Докажите асимптотическую нормальность выборочного
среднего.
59. Докажите асимптотическую нормальность начального выборочного момента порядка k.
20
§ 3. Группировка выборки. Графические
характеристики
Метод группировки выборки объема n. Число интервалов k рекоmin
мендуется брать из условия 2k−1 ∼ n. Длина интервала h = xmax −x
. Граk
ницы интервалов группировки: x0 = xmin , xi = x0 + hi, i = 1, ..., k, далее
подсчитывается, сколько элементов выборки попало в каждый интервал, и
в группировочной таблице заполняется столбец «Численность ni ». Остальные столбцы рассчитываются по столбцу численностей. Они пригодятся при
построении графических характеристик.
Таблица 2
Таблица группировки
№ Интервал Численность ni
1
2
...
ni
n
ni
nh
i
P
nj
1
n
[x0 − x1 )
[x1 − x2 )
...
Гистограмма – это фигура, состоящая из прямоугольников, построенных на интервалах группировки как на основаниях и имеющих площади nni ,
ni
.
для чего берут высоту прямоугольника, равную nh
Полигон – это ломаная линия, проходящая через середины верхних
ni
границ прямоугольников гистограммы (соединяющая точки (x∗i ; nh
, где x∗i –
середина i-го интервала). Полигон и гистограмма являются статистическими
аналогами теоретической плотности.
i−1
P nj
Кумулята – это ломаная линия, соединяющая точки (xi ;
n ). Куму1
лята дает представление о графике функции распределения.
Для нахождения приближенных значений выборочных медианы, моды и квантилей по группированной выборке применяют интерполяционные
формулы.
Медианным называется интервал, в котором накопленная сумма частот впервые достигает 21 .
Выборочной группированной медианой называется значение m∗e :
m∗e = xe +
n/2 − (n1 + . . . + nme −1 )
· h,
nme
21
где n – объем выборки, h – длина интервала группировки, xe – левая граница медианного интервала, ni – численность i-го интервала, nme – численность медианного интервала.
Модальным называется интервал, имеющий наибольшую численность.
Выборочной группированной модой называется значение m∗0 :
m∗0 = x0 + h ·
nm0 − nm0 −1
,
2nm0 − nm0 −1 − nm0 +1
где x0 – левая граница модального интервала, nm0 – численность модального интервала, nm0 −1, , nm0 +1 – численности интервалов слева и справа от
модального.
Квантильным порядка q интервалом называется интервал, в котором
сумма накопленных частот впервые достигает значения q.
Выборочной группированной квантилью называется значение x∗q :
x∗q = x(q) + h ·
nq − (n1 + · · · + n(q)−1 )
,
n(q)
где x(q) – левая граница квантильного интервала, n(q) – численность квантильного интервала, n1 , · · · , n(q)−1 – численности интервалов, предшествующих квантильному.
Пример 12. Произвести группировку выборки:
87, 8
104, 5
90, 9
92, 4
74, 3
71, 7
75, 0
92, 0
76, 0
82, 2
86, 3
85, 0
75, 0
91, 5
105, 7 112, 4
80, 8
74, 5
86, 6
95, 8
100, 4 109, 7
52, 7
96, 6
87, 6
101, 4 103, 4
90, 6
88, 0
79, 9
91, 6
84, 2
108, 6
77, 5
89, 2
82, 6
90, 0
86, 1
80, 3
92, 8
103, 8
84, 5
90, 6
113, 5 101, 1 113, 7
94, 3
90, 7
70, 7
93, 5
96, 8
111, 5 103, 8 106, 8
89, 4
84, 7
100, 9
80, 5
91, 8
82, 2
86, 9
100, 3 100, 1
93, 4
101, 3 118, 7
99, 3
105, 0
92, 7
96, 7
81, 3
96, 1
84, 6
86, 3
83, 7
84, 6
80, 7
102, 3 104, 2
89, 4
90, 9
89, 6
66, 5
120, 4 100, 4
86, 8
70, 4
91, 9
98, 3
111, 7
90, 2
87, 9
81, 1
88, 1
103, 3
85, 0
69, 1
82, 2
101, 8
80, 4
77, 7
79, 3
96, 2
94, 1
87, 6
104, 2
81, 4
81, 6
115, 7
84, 2
93, 2
112, 7
86, 8
79, 8
89, 8
88, 1
110, 9 109, 0
84, 8
82, 6
89, 1
88, 9
97, 9
78, 0
87, 5
68, 1
107, 7
88, 6
J 1. Упорядочим выборку (получим вариационный ряд).
22
95, 5
82, 8
52, 7
66, 5
68, 1
69, 1
70, 4
70, 7
71, 7
74, 3
74, 5
75, 0
75, 0
76, 0
77, 5
77, 7
78, 0
79, 3
79, 8
79, 9
80, 3
80, 4
80, 5
80, 7
80, 8
81, 1
81, 3
81, 4
81, 6
82, 2
82, 2
82, 2
82, 6
82, 6
82, 8
83, 7
84, 2
84, 2
84, 5
84, 6
84, 6
84, 7
84, 8
85, 0
85, 0
86, 1
86, 3
86, 3
86, 6
86, 8
86, 8
86, 9
87, 5
87, 6
87, 6
87, 8
87, 9
88, 0
88, 1
88, 1
88, 6
88, 9
89, 1
89, 2
89, 4
89, 4
89, 6
89, 8
90, 0
90, 2
90, 6
90, 6
90, 7
90, 9
90, 9
91, 5
91, 6
91, 8
91, 9
92, 0
92, 4
92, 7
92, 8
93, 2
93, 4
93, 5
94, 1
94, 3
95, 5
95, 8
96, 1
96, 2
96, 6
96, 7
96, 8
97, 9
98, 3
99, 3
100, 1 100, 3 100, 4 100, 4
100, 9 101, 1 101, 3 101, 4 101, 8 102, 3 103, 3 103, 4 103, 8 103, 8
104, 2 104, 2 104, 5 105, 0 105, 7 106, 8 107, 7 108, 6 109, 0 109, 7
110, 9 111, 5 111, 7 112, 4 112, 7 113, 5 113, 7 115, 7 118, 7 120, 4
2. Минимальный элемент выборки равняется xmin = 52, 7, а максимальный xmax = 120, 4.
Определим сначала число интервалов k. Рекомендуется брать такое k,
k−1
что 2
∼ n.
В данном примере n = 130.
27 = 128 ∼ 130; k − 1 = 7, k = 8.
Выберем число интервалов k = 8.
3. Определим длину интервала h.
h=
xmax − xmin
.
k
Находим
120, 4 − 52, 7
≈ 8, 4567.
8
4. Найдем границы интервалов группировки x0 = xmin , xi = x0 +hi, i =
1, ..., k:
h=
x0 = 52, 7, x1 = 61, 2, x2 = 69, 6, x3 = 78, 1, x4 = 86, 5,
x5 = 95, 0, x6 = 103, 4, x7 = 111, 9, x8 = 120, 4.
5. Составим таблицу группировки и внесем границы интервалов в стол-
23
бец «Интервал»:
№
Интервал
ni
1
[52, 7 − 61, 2)
2
[61, 2 − 69, 6)
3
[69, 6 − 78, 1)
4
[78, 1 − 86, 5)
5
[86, 5 − 95, 0)
6 [95, 0 − 103, 4)
7 [103, 4 − 111, 9)
8 [111, 9 − 120, 4)
ni
n
nj
1 n
Pi
6. Подсчитаем, сколько элементов выборки попало в каждый интервал,
и заполним в таблице столбец «Численность ni »:
Pi nj
№
Интервал
ni nni
1 n
1
[52, 7 − 61, 2) 1
2
[61, 2 − 69, 6) 3
3
[69, 6 − 78, 1) 11
4
[78, 1 − 86, 5) 31
5
[86, 5 − 95, 0) 40
6 [95, 0 − 103, 4) 22
7 [103, 4 − 111, 9) 15
8 [111, 9 − 120, 4) 7
По столбцу численностей рассчитаем остальные столбцы таблицы:
Pi n j
ni
№
Интервал
ni
1 n
n
1
[52, 7 − 61, 2) 1 0, 008 0, 008
2
[61, 2 − 69, 6) 3 0, 023 0, 031
3
[69, 6 − 78, 1) 11 0, 085 0, 115
4
[78, 1 − 86, 5) 31 0, 238 0, 354
5
[86, 5 − 95, 0) 40 0, 308 0, 662
6 [95, 0 − 103, 4) 22 0, 169 0, 831
7 [103, 4 − 111, 9) 15 0, 115 0, 946
8 [111, 9 − 120, 4) 7 0, 054
1
I
24
Пример 13. По группированной выборке, полученной в примере 12,
найти выборочную медиану.
Pi nj
ni
№
Интервал
ni
1 n
n
1 [52, 7 − 61, 2) 1 0, 008 0, 008
2 [61, 2 − 69, 6) 3 0, 023 0, 031
3 [69, 6 − 78, 1) 11 0, 085 0, 115
4 [78, 1 − 86, 5) 31 0, 238 0, 354
5 [86, 5 − 95, 0) 40 0, 308 0, 662
6 [95, 0 − 103, 4) 22 0, 169 0, 831
7 [103, 4 − 111, 9) 15 0, 115 0, 946
8 [111, 9 − 120, 4) 7 0, 054
1
J Медианным является интервал № 5, так как в нем впервые накопленная
1
сумма частот, равная 0,662, достигает .
2
m∗e = 86, 5 +
130/2 − (1 + 3 + 11 + 31)
· 8, 4567 ≈ 90, 517. I
40
Задачи
60. Произвести группировку выборки:
20, 2; 19, 2; 16, 9; 19, 3; 17, 1; 17, 8; 16, 6; 16, 3; 15, 2; 18, 0; 16, 8; 20, 0;
17, 7; 16, 6; 19, 0; 17, 5; 17, 8; 20, 6; 17, 2; 18, 0; 17, 1; 18, 4; 17, 4; 15, 8;
19, 4; 17, 8; 19, 8; 19, 6; 16, 3; 20, 0; 17, 4; 19, 3; 19, 3; 16, 5; 18, 8; 17, 2;
18, 7; 18, 6; 19, 2; 16, 2; 18, 2; 17, 4.
61. По выборке, данной в виде статистического ряда, постройте гистограмму, полигон и кумуляту.
X 0 − 6 6 − 12 12 − 18 18 − 24
ni
1
8
10
6
25
В задачах 62–64 постройте по выборке гистограмму и полигон и по их
виду подберите статистическую модель.
62.
P ni
ni
ni
№
ni
n
nh
n
1 0, 01 − 0, 98 260 0, 260 0, 252 0, 260
2 0, 98 − 1, 94 340 0, 340 0, 329 0, 600
3 1, 94 − 2, 91 192 0, 192 0, 186 0, 792
4 2, 91 − 3, 88 101 0, 101 0, 098 0, 893
5 3, 88 − 4, 85 63 0, 063 0, 061 0, 956
6 4, 85 − 5, 81 20 0, 020 0, 019 0, 976
7 5, 81 − 6, 78 16 0, 016 0, 015 0, 992
8 6, 78 − 7, 75 3 0, 003 0, 003 0, 995
9 7, 75 − 8, 72 4 0, 004 0, 004 0, 999
10 8, 72 − 9, 68 0 0, 000 0, 000 0, 999
11 9, 68 − 10, 65 1 0, 001 0, 001 1, 000
63.
X 0 − 3 3 − 6 6 − 9 9 − 12 12 − 15
ni
2
8
12
6
3
64.
№
1
2
3
4
5
6
7
8
9
10
11
0, 00 − 0, 09
0, 09 − 0, 18
0, 18 − 0, 27
0, 27 − 0, 36
0, 36 − 0, 45
0, 45 − 0, 54
0, 54 − 0, 63
0, 63 − 0, 72
0, 72 − 0, 81
0, 81 − 0, 90
0, 90 − 0, 99
ni
80
81
93
85
87
87
87
106
99
89
106
ni
n
ni
nh
P ni
0, 080
0, 081
0, 093
0, 085
0, 087
0, 087
0, 087
0, 106
0, 099
0, 089
0, 106
0, 007
0, 007
0, 008
0, 008
0, 008
0, 008
0, 008
0, 010
0, 009
0, 008
0, 010
0, 080
0, 161
0, 254
0, 339
0, 426
0, 513
0, 600
0, 706
0, 805
0, 894
1, 000
n
65. По двумерной выборке найти выборочные распределения
26
компонент, построить для каждой из них гистограмму и полигон,
подобрать статистическую модель.
XY
[−0.9; 0) [0; 0.9) [0.9; 1.8) [1.8; 2.7) [2.7; 3.6) [3.6; 4.5) [4.5; 5.4]
[−1.53; −0.75)
0
0
4
0
0
0
0
[−0.75; 0.03)
0
5
1
3
3
2
0
[0.03; 0.81)
0
2
6
7
6
0
1
[0.81; 1.59)
2
3
9
10
6
1
1
[1.59; 2.37)
0
0
4
5
4
4
1
[2.37; 3.15)
1
0
5
1
0
1
0
[3.15; 3.93)
0
0
0
0
1
1
0
66. Могут ли графики (1) и (2) (рис. 2) являться гистограммами
одной и той же выборки?
6
6
8/75
0,1
0
1 2 3 4 5 6 7 8 9 10
x
0
1 2 3 4 5 6 7 8 9 10
x
Рис. 2. Гистограммы (1) и (2)
67. Приведите (если это возможно) примеры выборок, для которых а) приведенный на рис. 2 график (1) является гистограммой,
а график (2) не является; б) график (1) не является гистограммой, а
график (2) является гистограммой.
68. Дан группированный статистический ряд величины Х:
X 0 − 6 6 − 12 12 − 18 18 − 24
ni
2
7
5
6
Найти приближенно моду и медиану.
69. Для группированного статистического ряда из предыдущей
задачи найти приближенно квантили порядков 0,2 и 0,8.
70. Дан группированный статистический ряд величины Х:
X 0 − 5 5 − 10 10 − 15 15 − 20 20 − 25
ni
4
8
9
7
4
27
Найти приближенно моду и медиану.
71. Для группированного статистического ряда из предыдущей
задачи найти приближенно квантили порядков 0,25 и 0,75.
72. Вычислить поправку Шеппарда для третьего начального момента по группированному статистическому ряду из предыдущей
задачи.
73. Вычислить поправку Шеппарда для второго начального момента по группированному статистическому ряду
X 0 − 2 2 − 4 4 − 6 6 − 8 8 − 10
ni
2
3
6
5
4
74. Вычислить поправку Шеппарда для выборочной дисперсии по
группированному статистическому ряду
X 3 − 6 6 − 9 9 − 12 12 − 15
ni
7
6
4
3
28
§ 4. Распределения χ2, Стьюдента,
Фишера
Статистикой можно назвать любую функцию элементов выборки
T (X) = T (X1 , . . . , Xn ), которая не зависит от параметров распределения.
Распределением хи-квадрат χ2n с n степенями свободы называется
гамма-распределение с параметрами α = 21 , β = n2 .
Соответствующая случайная величина обозначается тем же символом
2
χn , а ее плотность имеет вид
n
x 2 −1 − x
fξ 2 (x) = n n e 2 ,
2 2 Γ( 2 )
x > 0.
Распределением Стьюдента Tn с n степенями свободы называется
распределение случайной величины
ξ
tn = q
χ2n
n
ξ
= q Pn
2
i=1 ξi
n
,
где ξ, ξi ∈ N (0, 1) и независимы.
Формула плотности распределения Стьюдента
Γ( n+1
1
1
2 )
,
fTn (x) = √ ·
·
n
πn Γ( 2 ) (1 + xn2 ) n+1
2
x ∈ R,
где Γ(β) – гамма-функция, определяемая для всех β > 0 соотношением
Z∞
Γ(β) =
tβ−1 e−t dt.
0
Распределением Фишера (Фишера–Снедекора, F -распределением)
с n, m степенями свободы называется распределение случайной величины
fn,m =
fFn,m (x) =
n n2
m
χ2n
n
.
χ2m
m
n
Γ( n+m
x 2 −1
2 )
· n
·
n+m ,
Γ( 2 )Γ( m2 ) (1 + nx
2
)
m
x ∈ R+ .
Пример 14. Изобразить квантили уровней α/2 и 1 − α/2 на графике
плотности распределения χ2n .
29
J
fχ2n (x)
0
χ2n,α/2
χ2n,1−α/2
X
Рис. 3. Квантили уровней α/2 и 1 − α/2 на графике плотности распределения χ2n
I
Пример 15. Изобразить квантили уровней α/2 и 1 − α/2 на графике
плотности распределения Tn .
J
fTn (x)
Tn,α/2
0
Tn,1−α/2 X
Рис. 4. Квантили уровней α/2 и 1 − α/2 на графике плотности распределения Стьюдента Tn
I
Пример 16. Доказать, что
χ2n p
−→ 1.
n
J Пусть ξ1 , . . . , ξn независимы и имеют стандартное нормальное распределение. Тогда E ξi2 = Dξ = 1, и по ЗБЧ
ξ12 + . . . + ξn2 p
χ2n
=
−→ 1.
n
n
I
30
Задачи
75. Получить формулу плотности распределения случайной величины χ2n как частный случай плотности гамма-распределения.
76. Найти характеристическую функцию распределения χ2n .
77. Найти распределение квадрата случайной величины, распределенной по нормальному закону N (0, 1).
78. Найти характеристическую функцию распределения ξ 2 , ξ ∈
N (0, 1).
79. Доказать, что сумма квадратов n независимых случайных
величин, распределенных по нормальному закону N (0, 1), имеет распределение χ2n .
80. Доказать, что сумма независимых случайных величин, распределенных по закону хи-квадрат, распределена также по закону
хи-квадрат с числом степеней свободы, равным сумме степеней свободы слагаемых.
81. Вывести формулу плотности распределения случайной величины χ2 , исходя из представления в виде суммы квадратов независимых нормальных стандартных величин.
82. Найти, в какой точке достигается максимум плотности
распределения χ2n (n > 2).
83. Нарисовать на одном чертеже графики плотности распределений χ2n1 , χ2n2 при n1 < n2 .
84. Указать точное и приближенное распределение суммы квадратов пятидесяти независимых случайных величин, распределенных
по нормальному закону N (0, 1).
85. Найти распределение суммы десяти независимых случайных
величин, каждая из которых распределена по закону χ2n .
86. Найти квантили порядков 0,05 и 0,95 распределения χ210 (использовать таблицы).
87. Найти P(χ220 > 12, 44), P(χ220 < 28, 41), P(12, 44 < χ220 < 28, 41)
(использовать таблицы).
88. Найти квантиль порядка 0,9 распределения χ21 , используя
таблицу стандартного нормального распределения.
31
89. Найти математическое ожидание и дисперсию величины χ2n .
90. Вывести формулу плотности распределения Стьюдента.
91. Доказать, что распределение Стьюдента симметрично и
асимптотически нормально.
92. Доказать, что у распределения Стьюдента Tn существуют
только моменты порядка m < n, при этом все существующие моменты нечетного порядка m = 2k + 1 равны нулю.
93. Найти закон распределения отношения двух независимых
стандартных нормальных случайных величин.
94. Доказать, что распределение T1 является распределением
Коши.
95. Нарисовать на одном чертеже графики плотности распределения N (0, 1) и плотности распределения Стьюдента.
96. Нарисовать на одном чертеже графики плотности распределений Стьюдента Tn1 , Tn2 при n1 < n2 .
97. Найти квантили порядков 0,05 и 0,95 распределения Стьюдента T10 (использовать таблицы).
98. Доказать, что t2n = f1,n ; χ21 = u2 , где u ∈ N (0, 1).
99. Найти математическое ожидание и дисперсию величины Tn .
100. Доказать, что если fn,m имеет распределение Фишера Fn,m ,
то 1/fn,m имеет распределение Фишера Fm,n .
101. Найти квантиль порядка 0,05 распределения F5,10 (использовать таблицы).
102. Вывести формулу плотности распределения Фишера.
103. Найти математическое ожидание распределения Фишера.
104. Найдите k-й начальный момент распределения Фишера.
105. Найти дисперсию распределения Фишера.
32
§ 5. Распределения выборочных
характеристик
Теорема 1 (теорема Фишера). Пусть X√1 , . . . , Xn – выборка из распреn
деления N (a, σ). Тогда 1) величина (X−a)
имеет нормальное распредеσ
2
2
2
ление N (0, 1); 2) величина nS
σ 2 имеет распределение χn−1 ; 3) X, S независимы.
Теорема 2. Пусть X1 , . . . , Xn – выборка из распределения N (a, σ) и
функция от выборочных среднего и дисперсии t определена равенством
√
X −a
.
(1)
t= n−1
S
Тогда величина t имеет распределение Tn−1 .
Теорема 3. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из
распределения N (a, σ), а X, Ȳ , S 2 (X), S 2 (Y ) – выборочные средние и
дисперсии, и пусть
r
mn(m + n − 2)
X − Ȳ
p
t=
.
(2)
m+n
nS 2 (X) + mS 2 (Y )
Тогда величина t имеет распределение Стьюдента с m + n − 2 степенями свободы.
Теорема 4. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из
распределений N (a1 , σ1 ), N (a2 , σ2 ), а S 2 (X), S 2 (Y ) – выборочные дисперсии. Тогда случайная величина
n(m − 1)σ22 S 2 (X)
F =
m(n − 1)σ12 S 2 (Y )
(3)
распределена по закону Фишера – Снедекора Fn−1, m−1 .
В частном случае, когда дисперсии совпадают, величина F не зависит
от неизвестного параметра σ и имеет распределение Fn−1, m−1 .
Пример 17. Найти распределение статистики Z:
Z = 2X1 + 3X4 , X ∈ N (a, σ).
33
J Линейное преобразование нормально распределенной величины дает
опять нормальное распределение. Сумма независимых нормально распределенных величин также распределена по нормальному закону. Параметры
этого закона мы можем найти с помощью математического ожидания и дисперсии.
E Z = 2 E X1 + 3 E X4 = 5a.
DZ = 4DX1 + 9DX4 = 13σ 2 .
√
Таким образом, Z ∈ N (5a, σ 13). I
Пример 18. Найти распределение статистики Z:
Z = X12 + X22 , X ∈ N (, 1).
J Поскольку сумма квадратов n независимых случайных величин, распределенных по нормальному закону N (0, 1), имеет распределение χ2n , Z распределено по закону χ22 . I
P
Пример 19. Найти распределение статистики T = ni=1 Xi в Pλ .
J Распределение Пуассона суммируемо, то есть случайная величина
P
T = ni=1 Xi имеет распределение Pλn . Это легко доказывается с помощью
производящих или характеристических функций. I
Пример 20. В модели, заданной плотностью


0, x 6 0,

fξ (x) =
sin x, 0 < x 6 C,


0, C < x.
найти распределение максимального элемента выборки.
J Найдем функцию распределения случайной величины ξ. После необходимых вычислений имеем


0
при x 6 0;


π
1 − cos x при 0 < x 6 ;
Fξ (x) =

π 2


1
при x > .
2
Функция распределения максимального элемента выборки в модели hF i
равна F n ; поэтому


0
при x 6 0;


π
(1 − cos x)n при 0 < x 6 ; I
FXn (x) =

π 2


1
при x > .
2
34
Задачи
106. В нормальной модели N (a, σ) укажите распределение X1 и
выборочного среднего, полученных по выборке X1 , . . . , Xn .
107. В модели N (θ1 , σ) найдите распределение статистики
(n−1)S
σ2
2
.
108. Докажите теорему 2.
√
109. В модели N (a, θ2 ) найдите распределение статистики
n X−a
.
S
110. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из распределений N (a1 , σ1 ), N (a2 , σ2 ), а S 2 (X), S 2 (Y ) – выборочные дисперсии.
2
Укажите распределение статистики SS 2(X)
(Y ) .
111. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из распределений N (a1 , σ), N (a2 , σ), а S 2 (X), S 2 (Y ) – выборочные дисперсии.
2
Укажите распределение статистики SS 2(X)
(Y ) .
112. Найдите распределение статистики Z:
2
2
(n1 − 1)S X + (n2 − 1)S Y
Z=
,
n1 + n2 − 2
X ∈ N (a1 , σ), Y ∈ N (a2 , σ), X и Y независимы.
113. Пусть X1 , . . . , Xn – выборка из распределения N (a, σ) и функ2
ция Z определена равенством Z = n (X−a)
. Укажите распределение Z.
2
σ
114. hF i – непрерывная модель. Найти распределение статистики
n
X
G=−
ln F (xi ).
i=1
115. В нормальной модели найти распределение выборочной дисn
P
1
2
персии S = n (Xi − X)2 .
i=1
116. Найти распределение статистики Z = Xi − X, X ∈ N (a, σ).
117. Найти распределение статистики Z:
X1 + X2
Z=
, X ∈ N (a, σ).
2
35
118. Найти распределение статистики Z = aX1 + bXn , X ∈
N (a, σ).
119. Найти распределение статистик: Z1 = Xn∗ ; Z2 = X1∗ , X ∈
R[a, b].
120. Найти распределение статистик: Z1 = X1 , Z2 = X1∗ , X ∈
N (a, σ).
121. Найти распределение статистики: Z1 = X1∗ , если выборка
взята из совокупности с плотностью f (x) = eα−x , x > α.
122. Найти распределение статистики: Z1 = Xn∗ , если выборка
взята из совокупности с плотностью f (x) = e2−x , x > 2.
123. Найти распределение статистики Z:
Z = X − Y − (aX − aY ),
X ∈ N (aX , σ), Y ∈ N (aY , σ), X и Y независимы.
124. Найти распределение статистики Z:
Z =X +Y,
X ∈ Pλ , Y ∈ Pλ , X и Y независимы.
125. Укажите распределение эмпирической частоты νn (X), X ∈
R[a, b].
126. Укажите распределение эмпирической частоты в биномиальной модели.
127. Укажите распределение выборочного среднего в распределении Пуассона.
128. Укажите распределение выборочного среднего в показательном распределении.
129. Укажите распределение выборочного среднего в модели
Бернулли.
130. Укажите распределение выборочного среднего в биномиальной модели.
131. Укажите распределение выборочного среднего в отрицательном биномиальном распределении.
36
132. Найдите распределение k-й порядковой статистики в модели R[a, b].
133. Найдите распределение 2-й порядковой статистики в модели R[0, 3].
37
§ 6. Несмещенные и состоятельные
оценки
Выборочная числовая характеристика (статистика) θ̂ = g(X1 , . . . , Xn ),
применяемая для оценивания неизвестного параметра θ генеральной совокупности, называется его точечной оценкой.
Статистика θ̂ = g(X1 , . . . , Xn ) называется несмещенной оценкой для
параметра θ, если ∀θ ∈ Θ
E θ̂ = θ.
Класс всех несмещенных оценок параметра θ будем обозначать Tθ .
Если E θ̂ 6= θ, то оценка называется смещенной и ее смещение равно
E θ̂ − θ.
Статистика θ̂ = g(X1 , . . . , Xn ) называется асимптотически несмещенной оценкой для параметра θ, если для любого θ ∈ Θ при n → ∞
E θ̂ → θ.
Статистика θ̂ = g(X1 , . . . , Xn ) называется состоятельной оценкой θ,
если ∀θ ∈ Θ
p
θ̂ −→ θ.
Для исследования состоятельности оценок часто применяют следующие теоремы (см. задачи 162–164).
Теорема 5. Если E θ̂ = θ и Dθ̂ → 0 при n → ∞, то θ̂ – состоятельная
оценка θ.
Часто применяется также теорема с ослабленными условиями:
Теорема 6. Если E θ̂ → θ при n → ∞ и Dθ̂ → 0 при n → ∞, то θ̂ –
состоятельная оценка θ.
Теорема 7. Если θ̂ – состоятельная оценка θ, а f – непрерывная функция, то f (θ̂) – состоятельная оценка f (θ).
Пример 21. Предположим, время, проведенное покупателем в магазине, имеет нормальное распределение N (a, σ) с неизвестными параметрами. Требуется оценить параметр a. Два стажера решают эту
задачу так: первый в течение длительного периода отмечает время,
проведенное в магазине для каждого покупателя, и находит среднее
арифметическое. Второй (более ленивый) отмечает время только у
десяти покупателей, выбранных случайно, и тоже находит среднее
арифметическое. Будут ли эти оценки параметра а) несмещенными;
б) состоятельными?
38
J Оценка aˆ1 , полученная первым стажером, представляет собой среднее выборочное X. Это несмещенная оценка, так как E aˆ1 = E X =
n
P
1
E
Xi = a. Найдем математическое ожидание оценки, полученной втоn
i=1
рым стажером:
10
1 X
E aˆ2 =
E
Xi = a.
10 i=1
Таким образом, обе оценки несмещенные. Проверим состоятельность. Заметим, что оценка aˆ1 = X зависит от n. По определению, aˆ1 – состоятельная
p
оценка a, если aˆ1 сходится по вероятности к a (aˆ1 → a), то есть если для
любого ε > 0
lim P(|aˆ1 − a| > ε) = 0.
n→∞
По неравенству Чебышева
P(|aˆ1 − a| > ε) 6
Daˆ1
,
ε2
(4)
но, как мы знаем,
1
µ2
σ2
DX = Dξ =
= .
n
n
n
Таким образом, правая часть (4) стремится к нулю и оценка aˆ1 состоятельна.
Оценка aˆ2 , полученная вторым стажером, не зависит от n и поэтому
P(|aˆ2 − a| > ε) тоже не зависит от n, соответственно, не может стремиться к
нулю при стремлении n к бесконечности. Оценка aˆ2 не является состоятельной. I
Пример 22. Исследовать на несмещенность оценку параметрической
λk −λ
функции Pλ = e :
k!
cλ = I(X1 = k).
P
J
cλ = E I(X1 = k),
EP
где
(
I(X1 = k) =
1, X1 = k,
.
0, X1 =
6 k
λk −λ
c
E Pλ = 1 · P(X1 = k) = P(ξ = k) = e .
k!
Следовательно, оценка несмещенная.I
39
Пример 23. Исследовать на состоятельность оценку ab2 = (X)2 в нормальном распределении N (a, σ).
2
J Статистика X – состоятельная оценка a2 , поскольку X – состоятельная
оценка a, а f (x) = x2 – непрерывная функция. I
Задачи
134. Исследовать на несмещенность оценки параметров a, σ
нормального распределения N (a, σ) : â = X̄, σb2 = s2 .
135. Исследовать на несмещенность оценку параметра λ распределения Пуассона Pλ : λ̂ = X.
136. Исследовать на состоятельность оценку параметрической
λk −λ
функции Pλ = e :
k!
cλ = I(X1 = k).
P
137. Исследовать на несмещенность оценку параметра p биномиального распределения с параметрами N, p :
Pn
Xi
X
p̂ = i=1
= .
nN
N
138. В модели Бернулли исследовать на несмещенность оценки
параметрической функции p2 : X12 и X1 X2 .
139. Исследовать на несмещенность оценки параметров a, b
равномерного распределения R[a, b] : b̂ = Xn∗ ; â = X1∗ .
140. В статистической модели h R[a, b] i исследовать на несме[
X1∗ +Xn∗
=
.
щенность оценки функций параметров: b[
− a = Xn∗ − X1∗ ; a+b
2
2
141. Найти k, при котором оценка σ̂ = k
σ является несмещенной в N (a, σ).
Pn
i=1 |Xi
− a| параметра
142. Найти k, при котором оценка σ̂ = k|X1 − a| параметра σ
является несмещенной в N (a, σ).
P
143. Найти k, при котором оценка σ̂ = k ni=1 |Xi −X| параметра
σ является несмещенной в N (a, σ).
40
P
2
144. Найти k, при котором оценка σb2 = (k ni=1 |Xi − a|) является несмещенной в N (a, σ).
P
145. Найти k, при котором оценка σb2 = k n−1 (Xi+1 − Xi )2 являi=1
ется несмещенной в N (a, σ).
146. Найти k, при котором оценка σ
b = k|X1 − X2 | параметра σ
является несмещенной в N (a, σ), если n = 2.
147. Исследовать на несмещенность оценку α̂ = X1∗ , если f (x) =
eα−x , x > α.
148. Исследовать на несмещенность оценку параметра a в распределении Кептейна:
Pn
g(Xi )
.
â = i=1
n
149. Исследовать на несмещенность оценку σb2 =
a)2 в распределении Кептейна.
1
n
Pn
i=1 (g(Xi )
−
150. Доказать, что в модели логистического распределения
f (x, θ) = e−x+θ (1 + e−x+θ )−2 ,
−∞ < x < ∞
X – несмещенная оценка θ.
151. Предложить три несмещенные оценки параметра a в распределении N (a, σ).
152. Предложить три различные несмещенные оценки параметра p биномиального распределения с параметрами N, p.
153. Предложить четыре различные несмещенные оценки параметра λ распределения Пуассона.
154. Исследовать на состоятельность оценку â = X в N (a, σ).
155. Исследовать на состоятельность оценку σb2 = s2 в N (a, σ).
156. Исследовать на состоятельность оценку λ̂ = X в распределении Пуассона Pλ .
157. Исследовать на состоятельность оценку p̂ =
альном распределении B(N, p).
X̄
N
в биноми-
158. Исследовать на состоятельность оценку параметрической
λk
функции Pλ = e−λ :
k!
cλ = I(X1 = k).
P
41
159. В модели Бернулли исследовать на несмещенность и состоятельность оценку параметрической функции p(1 − p):
\
p(1
− p) = X1 (1 − X2 ).
160. Исследовать на состоятельность оценку b̂ = Xn∗ в R [a, b].
161. Исследовать на состоятельность оценку α̂ = X1∗ , если f (x) =
eα−x , x > α.
162. Доказать, что если E α̂ = α и Dα̂ → 0 при n → ∞, то α̂ –
состоятельная оценка α.
163. Доказать, что если E α̂ → α при n → ∞ и Dα̂ → 0 при n → ∞,
то α̂ – состоятельная оценка α.
164. Доказать,что если α̂ – состоятельная оценка α, а f –
непрерывная функция, то f (α̂) – состоятельная оценка f (α).
165. В равномерной модели R[0; θ] оценка параметра θ
θ̂ = 2x̄.
Исследовать эту оценку на несмещенность и состоятельность.
42
§ 7. Эффективные оценки
Несмещенная оценка θb параметра θ называется оптимальной оцен∼
∼
кой, если Dθb 6 Dθ, ∀θ ∈ Θ, где θ – произвольная несмещенная оценка θ.
Информационным количеством Фишера называется величина I, равная
2
∂ ln f (x1 , x2 , . . . , xn , θ)
I=E
.
∂θ
В регулярной модели для дисперсий несмещенных оценок параметра θ
справедливо неравенство Рао – Крамера:
1
Dθ̂ > .
I
В регулярной модели несмещенная оценка θ̂ параметра θ называется
эффективной оценкой θ, если ∀θ ∈ Θ Dθ̂ = I1 .
Если оценка является эффективной, она оптимальна. Обратное, вообще говоря, не верно.
Для проверки эффективности оценок удобно использовать следующие
формулы информационного количества Фишера I:
2
∂ ln f (x, θ)
I = nE
;
∂θ
2
∂ ln f (x, θ)
I = −n E
,
∂θ2
где f (x, θ) – одномерная плотность.
Для дискретной случайной величины вместо f (x) используется P (ξ =
x).
В регулярной статистической модели для несмещенных оценок можно рассматривать показатель эффективности. Показателем эффективности несмещенной оценки θ̂ параметра θ называется число
e(θ̂) =
1
IDθ̂
.
Пример 24. В модели Пуассона Pλ предлагается следующая оценка
параметра λ : λ̂ = X̄. Доказать, что эта оценка эффективна.
J Надо проверить выполнение равенства:
1
Dλ̂ = .
I
43
DX
λ
= .
n
n
Для нахождения информационного количества Фишера I используем формулу
2
∂ ln P(ξ = x)
I = −n E
.
∂λ2
Dλ̂ = DX̄ =
Поскольку P(ξ = x) = pλ (x) =
λx e−λ
, то ln P(ξ = x) = x ln λ − λ − ln x! и
x!
∂ 2 ln P(ξ = x)
x
=
−
.
∂λ2
λ2
Тогда
x
n
I = −n E − 2 = .
λ
λ
Получили, что Dλ̂ = I1 , то есть оценка X̄ является эффективной.I
Пример 25. Исследовать на эффективность оценку параметра α в
распределении с плотностью f (x) = eα−x , x > α:
α̂ = X1∗ .
J Данная модель не является регулярной, так как выборочное пространство X ограничено параметром α. В этой модели эффективных оценок
не существует. I
Задачи
166. Исследовать на эффективность оценку â = X в N (a, σ).
167. Исследовать на эффективность оценку σb2 = s2 в N (a, σ).
168. Исследовать на эффективность оценку λ̂ = 1/2(X1 + X2 ) в
распределении Пуассона Pλ .
169. Исследовать на эффективность оценку p̂ =
ном распределении B(N, p).
X
N
в биномиаль-
170. Исследовать на эффективность оценку b̂ = Xn∗ в R [a, b].
171. Исследовать на оптимальность оценку â = X в N (a, σ).
172. Исследовать на оптимальность оценку λ̂ = X в распределении Пуассона Pλ .
44
173. λ̂ = X1 в распределении Пуассона Pλ . Доказать, что оценка
является несмещенной, но не является эффективной и состоятельной.
174. В распределении с плотностью f (x) = eα−x , x > α, оценка
α̂ = X1∗ . Найти смещение данной оценки, получить на основе этого
несмещенную оценку и исследовать ее на эффективность.
175. Докажите формулу
2
Z+∞ Z+∞
1
∂f (x1 , x2 , . . . , xn , θ)
dx1 . . . dxn .
I=
...
∂θ
f (x1 , x2 , . . . , xn , θ)
−∞
−∞
176. Докажите формулу
2
∂ ln f (x1 , x2 , . . . , xn , θ)
I = −E
.
∂θ2
177. Докажите формулу
∂ ln f (x, θ)
I = nE
∂θ
2
.
178. Докажите формулу
∂ 2 ln f (x, θ)
I = −n E
.
∂θ2
179. Докажите, что показатель эффективности e удовлетворяет неравенству 0 < e(θ̂) 6 1, а для эффективных оценок e(θ̂) = 1.
180. Пусть T1 – эффективная оценка параметра α, а T2 – несме√
щенная оценка параметра α. Доказать, что ρ(T1 , T2 ) = e, где e =
1
I·DT2 – показатель эффективности T2 .
Указание. Рассмотреть оценку T = (1 − k)T1 + kT2 .
181. В равномерной модели R[0; θ] оценка параметра θ
θ̂ = 2x̄.
Исследовать эту оценку на оптимальность.
182. Докажите, что в неравенстве Рао – Крамера равенство доln f
стигается тогда и только тогда, когда θ̂ и ∂ ∂θ
линейно зависимы.
45
§ 8. Методы нахождения оценок
Метод максимального правдоподобия. Для непрерывной случайной величины функция
L(x1 , . . . , xn , θ) = f (x1 , θ) · . . . · f (xn , θ),
рассматриваемая при фиксированных (x1 , . . . , xn ) как функция параметра θ,
называется функцией правдоподобия.
Функция правдоподобия для дискретной случайной величины определяется в виде
L(x1 , . . . , xn , θ) = P(ξ = x1 ) · . . . · P(ξ = xn ).
Оценка θ∗ , обеспечивающая по параметру θ максимум функции правдоподобия, называется оценкой максимального правдоподобия параметра θ (о.м.п.).
Вместо отыскания максимума функции L часто удобнее находить максимум функции ln L и решать уравнение правдоподобия
∂ ln L
= 0.
∂θ
В результате решения уравнения правдоподобия мы найдем критическую
точку, необходимо еще убедиться, что это точка максимума.
Метод моментов. Приравнивая выборочные и теоретические моменты, получаем уравнения относительно θ. Решая эти уравнения, получаем
оценку параметра θ̂. Эта оценка называется оценкой метода моментов и
обозначается о.м.м.
Пример 26. Найдем о.м.п. параметра распределения Пуассона.
J
n
Y
P
e−λn λ xi
L=
Pλ (xi ) = Q
.
(x
!)
i
i=1
X
Y
ln L(X, λ) = −λn +
xi lnλ − ln (xi !).
Найдем max ln L(X, λ).
∂ ln L(X, λ)
= −n +
∂λ
Получаем λ̂ =
P
xi
n
P
xi
= 0.
λ
= x̄. Очевидно, это точка максимума, так как
∂ 2 ln L
<0
∂λ2
=⇒
46
x̄ – о.м.п. λ. I
Пример 27. Найдем в условиях предыдущего примера оценку максимального правдоподобия функции параметра λ2 .
J По свойству инвариантности
b 2 = (x̄)2 . I
λb2 = (λ)
Рассмотрим нахождение оценки параметра методом максимального
правдоподобия в нерегулярной модели.
Пример 28. Найдем о.м.п. параметра θ = (a, b) в распределении R[a, b].
J
L=
n
Y
f (xi ) =
i=1
n
Y
1
1
=
.
b − a (b − a)n
i=1
ln L
не обращается в 0. Но функция L монотонна по
Частная производная ∂ ∂θ
a и b. Поэтому она достигает своего наибольшего значения при минимальном значении b и максимальном значении a. Но минимальное возможное
значение b ограничено максимальным элементом выборки, а максимальное
возможное значение a ограничено миниимальным элементом. Таким образом, оценками максимального правдоподобия будут служить минимальный
и максимальный элементы выборки:
â = ymin = x∗1 ,
b̂ = xmax = x∗n . I
Пример 29. Найти методом моментов оценки параметров распределения Γα, β .
J
β
.
α2
Eξ
β = α E ξ =⇒ Dξ =
α
Eξ =
Тогда
β
,
α
Dξ =
(E ξ)2
Eξ
α=
,β=
.
Dξ
Dξ
Мы получили оценки
α̂ =
X
,
S2
β̂ =
x̄2
.I
S2
Пример 30. Найти методом моментов оценки параметров распределения R[a, b].
47
J
(b − a)2
,
12
(b − E ξ)2
a = 2 E ξ − b =⇒ Dξ =
.
3
√
√
Отсюда b = E ξ + σ 3, a = E ξ − σ 3. Окончательно
√
√
â = X − s 3, b̂ = X + s 3. I
Eξ =
a+b
,
2
Dξ =
Задачи
183. Найти оценки максимального правдоподобия параметров
a, σ в N (a, σ).
184. Доказать свойство инвариантности о.м.п.: если оценивается некоторая взаимно однозначная параметрическая функция
b
τ (θ), то ее о.м.п. τd
(θ) = τ (θ).
185. Найти оценку максимального правдоподобия функции a2 + a
в N (a, σ).
186. Найти оценку максимального правдоподобия параметра p в
B(N, p).
187. Найти оценку максимального правдоподобия функции
i
i=0 p в B(N, p).
√
188. Найти оценку максимального правдоподобия функции λ +
λ в Pλ .
P3
189. Найти оценку максимального правдоподобия параметра
(a, b) в R[a, b].
190. Найти оценку максимального правдоподобия параметра α,
если f (x) = eα−x , x > α.
191. Найти оценку максимального правдоподобия параметра α,
e−|x|
если f (x) = 2(1−e
−α ) , |x| 6 α.
192. Найти оценку максимального правдоподобия параметра θ
по выборке (x1 , . . . , xn ), если
f (x) =
2x − x2
e θ,
θ
θ > 0,
48
x > 0.
193. Найти оценку максимального правдоподобия параметра α
в Γ(α, 2).
194. Найти оценку максимального правдоподобия параметра a в
√
N (a, 2a). Исследовать полученную оценку на состоятельность.
195. Найти методом моментов оценки параметров a, σ в N (a, σ).
196. Найти методом моментов оценку параметра λ в Pλ .
197. Найти методом моментов оценку параметра λ в распределении с плотностью f (x) = λe−λx , x > 0.
198. Найти методом моментов оценку функции 1/α в показательном распределении с параметром α.
199. Найти методом моментов оценку параметра λ в Pλ по второму моменту.
200. Найти методом моментов оценку параметра b в R[0, b], используя второй момент.
201. Найти методом моментов оценки параметров распределения R[a, b], используя начальные моменты.
202. Найти методом моментов оценку параметра p в B(N, p)
при известном N .
203. Найти методом моментов оценки параметров N, p в
B(N, p).
204. Доказать состоятельность оценок метода моментов.
Найти методом моментов оценку параметра n в χ2n . (χ2n =
Pn 205.
2
ξi ∈ N (0, 1), ξi независимы.)
i=1 ξi ,
206. Найти оценки максимального правдоподобия параметров
a, σ в распределении Кептейна.
207. Найти оценки максимального правдоподобия параметров
1 −|x−µ|
e α .
α, µ, если f (x) = 2α
208. Величина ψ имеет бета-распределение с параметрами α и β.
Математическое ожидание и дисперсия бета-распределения известны:
α
αβ
Eψ =
, Dψ =
.
α+β
(α + β)2 (α + β + 1)
Найти методом моментов оценки параметров α и β.
49
§ 9. Экспоненциальное семейство
Говорят, что распределение с плотностью f (x) принадлежит экспоненциальному семейству, если f (x) представима в виде
f (x) = eA(x)·B(θ)+C(x)+D(θ) ,
Теорема 8. Для того чтобы в модели существовала эффективная
оценка, необходимо и достаточно, чтобы модель принадлежала экспоненциальному семейству. При этом эффективной оценкой является статистика
n
1X
A(xi ),
T (x) =
n i=1
и она оценивает параметрическую функцию
D0 (θ)
τ (θ) = − 0 .
B (θ)
В случае многомерного параметра θ = (θ1 , . . . , θk ) и непрерывной параметрической модели говорят, что распределение с плотностью f (x) принадлежит экспоненциальному семейству, если f (x) представима в виде
f (x) = e
Pk
i=1
Ai (x)·Bi (θ)+C(x)+D(θ)
.
Пример 31. Докажем, что N (0, σ) принадлежит экспоненциальному
семейству, и найдем эффективную оценку параметра σ.
J
2
x2
x·a
a2
1
ln σ√12π − 2σ
− (x−a)
2 + σ 2 − 2σ 2
2
2σ
√
f (x) =
· exp
= exp
σ 2π
Параметром является σ, тогда
1
1
,
C(x)
=
0,
D(σ)
=
−
ln
σ
−
ln 2π.
2σ 2
2
Следовательно, распределение N (a, θ) принадлежит экспоненциальному семейству. Найдем эффективную оценку параметрической функции от параметра θ = σ :
D0 (a)
1 1
τ (σ) = − 0
= : 3 = σ2
B (a)
σ σ
n
n
1X
1X
T (x) =
A(xi ) =
(xi − a)2 .
n i=1
n i=1
P
По теореме 8 оценка σb2 = n1 ni=1 (xi − a)2 эффективна. I
A(x) = (x − a)2 , B(σ) = −
50
Пример 32. Покажем, что гамма-распределение Γα, β с параметром
θ = (α, β) принадлежит экспоненциальному семейству.
J
αβ −αx β−1
ln
f (x) =
e x
=e
Γ(β)
αβ
Γ(β)
−αx+(β−1) ln x
.
Возьмем
αβ
θ1 = −α, θ2 = β − 1; A1 (x) = x, A2 (x) = ln x; D(θ) = ln
.
Γ(β)
Тогда
P2
f (x) = e
i=1
Ai (x)·θi +D(θ)
,
что соответствует модели экспоненциального семейства. I
Задачи
В задачах 209–214 покажите, что модель принадлежит экспоненциальному семейству.
209. B (1, p).
210. B (N, p).
211. Pλ .
212. N (a, θ).
213. N (θ, σ).
214. Eλ .
В задачах 215–218 выясните, принадлежит ли распределение экспоненциальному семейству.
215. B (θ, p).
216. Геометрическое распределение Gp .
217. Распределение Коши Ca, λ .
218. Гамма-распределение Γα, β .
219. Равномерное распределение R[θ1 , θ2 ].
В задачах 220–223 исследовать оценки на эффективность методом
экспоненциального семейства.
220. Исследовать на эффективность оценку â = X в N (a, σ).
221. Исследовать на эффективность оценку aˆ2 = (X)2 в N (a, σ).
51
222. Исследовать на эффективность оценку λ̂ = X1 в распределении Пуассона Pλ .
223. Исследовать на оптимальность оценку p̂ =
ном распределении B(N, p).
X
N
в биномиаль-
224. Покажите, что модель экспоненциального семейства в
случае одномерного параметра после подходящей параметризации
можно свести к виду f (x) = h(x)eA(x)·θ+B(θ) .
225. Найдите вклад выборки для экспоненциальной модели.
226. Покажите, что модель экспоненциального семейства в
случае многомерного параметраPпосле подходящей параметризации
k
можно свести к виду f (x) = h(x)e i=1 Ai (x)·θi +B(θ1 ,...,θk ) .
227. Покажите, что нормальное распределение N (θ1 , θ2 ) принадлежит экспоненциальному семейству.
52
§ 10. Достаточные статистики
Статистика T = T (X) называется достаточной для параметра θ, если
условное распределение (плотность или вероятность) случайной величины
X = (X1 , ..., Xn ) (выборки) при условии T (X) = t не зависит от параметра
θ. В дискретной модели статистика T (X) достаточна, если
P (X = x)
P (T (X) = t)
(5)
не зависит от параметра для x таких, что T (x) = t. Для непрерывных величин распределение задается плотностью. В этом случае также достаточно
показать, что
fX (x)
(6)
fT (t)
не зависит от параметра θ.
Критерий достаточности статистики – теорема Неймана — Фишера о
факторизации.
Теорема 9 (теорема факторизации). В модели hFθ i статистика T (X)
является достаточной для параметра θ тогда и только тогда, когда
L(x, θ) = g(T (x), θ) · h(x).
Представление L(x, θ) в таком виде (множитель g может зависеть от θ, а от
x зависит лишь через T (x), а множитель h от параметра θ не зависит) называется факторизацией распределения. Факторизация не единственна. При
h ≡ 1 говорят о тривиальной факторизации.
Свойства достаточных статистик.
1. Всякая эффективная оценка является достаточной статистикой.
2. Любая взаимно однозначная функция от достаточной статистики T является достаточной статистикой.
3. Оптимальная оценка, если она существует, является функцией от достаточной статистики.
4. Если для скалярного параметра θ существует эффективная оценка T (x),
то T (x) совпадает с о.м.п. θ̂.
5. Если T (x) – достаточная статистика, а о.м.п. θ̂ существует и единственна, то θ̂ является функцией от T (x).
53
Статистика называется полной, если для всякой (ограниченной) функции ϕ(T ) из того, что E ϕ(T ) = 0 следует, что ϕ(T ) ≡ 0.
Достаточная статистика, являющаяся функцией любых других достаточных статистик, называется минимальной.
ПримерP33. Исследуем на достаточность статистику
Z = n12 ( ni=1 Xi )2 в Pλ .
J Сначала покажем, что достаточной является статистика
n
1X
T =
Xi .
n i=1
Для проверки достаточности по определению надо убедиться, что
не зависит от параметра λ.
P (X = x) = P (X1 = x1 , .., Xn = xn ) =
n
Y
P (X=x)
P (T (X)=t)
P (Xi = xi ) =
i=1
=
n
Y
e−λ λxi
i=1
Случайная величина
Pn
i=1 Xi
xi !
P
e−λn λ xi
= Q
.
(xi !)
имеет распределение Pλn , значит,
P (T = t) = P (
n
X
Xi = nt) =
i=1
e−nλ (nλ)tn
.
(tn)!
P
P
P (X = x)
e−λn λ xi (tn)!
( xi )!
P .
P (X/T = t) =
=Q
=Q
P (T = t)
(xi !)e−nλ (nλ)tn
(xi !)n xi
Полученное выражение
не зависит от параметра λ, следовательно, статиP
n
стика T = n1 i=1 Xi = x̄ является достаточной. Вместе с ней достаточна
и статистика Z = T 2 , как взаимно однозначная (в силу неотрицательности)
функция от достаточной статистики T . I
Пример 34. Найти достаточную статистику в показательном распределения Eθ .
J Пусть (X1 , . . . , Xn , ) – выборка из данного показательного распределения. Запишем функцию правдоподобия:
L(x, θ) =
n
Y
i=1
fξ (xi ) =
n
Y
i=1
54
θ·e
−θxi
n −θ
=θ e
P
xi
.
Вспомним общий вид факторизации:
L(x, θ) = g(T (x), θ) · h(x).
n −θ
P
xi
Возьмем T (x) =
xi , тогда θ e
=Pg(T (x), θ. Получили тривиальную
факторизацию. Следовательно, T (x) = ni=1 Xi – достаточная статистика.
I
P
Задачи
В задачах 228–235 доказать достаточность статистики T .
228. N (θ, σ), T = X.
229. N (a, θ), T = S.
230. N (θ1 , θ2 ), T = (X, S 2 ).
231. R[0, α], T = Xn∗ .
232. R[θ1 , θ2 ], T = (X1∗ , Xn∗ ).
233. R[−θ, θ], T = max(|X1∗ |, |Xn∗ |).
234. Непрерывная модель, T = (X1∗ , . . . , Xn∗ ) – вариационный ряд.
235. hF i = hFα1 , Fα2 i,
T – отношение правдоподобия:
T =
L(x, α1 )
.
L(x, α2 )
236. Найдите 3 достаточные статистики для показательного
распределения.
237. Найдите 3 достаточные статистики для распределения
Пуассона.
238. Пусть T – достаточная статистика. Будет ли достаточной статистика ln T ?
239. Пусть T – достаточная статистика, S – произвольная
статистика. Будет ли достаточной статистика T + S?
240. Пусть T – достаточная статистика, S – произвольная
статистика. Будет ли достаточной двумерная статистика T, S?
241. Пусть XP
= (X1 , . . . , Xn ) – выборка из распределения Γα, β . Покажите, что T = ni=1 Xi – достаточная статистика для параметра α.
55
242. Является ли достаточная для параметра α статистика из
предыдущей задачи полной?
243. Докажите полноту статистики X в показательном распределении.
244. Докажите полноту статистики X в N (a, σ) при фиксированном σ.
245. Докажите, что для распределения Вейбула, задаваемого
плотностью
λxλ−1 (−x/θ)λ
e
, x > 0,
f (x) =
θλ
достаточной статистикой для θ является
T (X) =
n
X
Xiλ .
i=1
246. Является ли достаточная для θ статистика из предыдущей задачи полной?
247. Даны достаточные статистики T и S. Может ли существовать оптимальная оценка, которая является функцией от T , но
не является функцией от S?
248. Доказать, что если T (x) – достаточная статистика, а
о.м.п. θ̂ существует и единственна, то θ̂ является функцией от T (x).
249. Доказать, что если о.м.п. θ̂ существует и единственна, то
θ̂ является функцией минимальной достаточной статистики.
250. Показать, что для регулярных экспоненциальных моделей с
плотностью
f (x) = eA(x)·B(θ)+C(x)+D(θ) ,
Pn
статистика T (X) =
i=1 A(Xi ) является достаточной статистикой для θ.
56
§ 11. Доверительные интервалы
Две статистики I1 (X), I2 (X) (I1 (X) < I2 (X)) называют доверительным интервалом значимости α для параметра θ (0 < α < 1), если выполняется условие
P(I1(X) < θ < I2(X ) = 1 − α.
(7)
Число 1 − α называется доверительной вероятностью, а I1 (X), I2 (X) –
нижней и верхней доверительными границами.
Для построения доверительного интервала параметра θ надо взять статистику G(X, θ), такую, что она сама монотонно зависит от параметра θ, а ее
распределение от θ не зависит, записать уравнение P(g1 < G(X, θ) < g2 ) =
1 − α и разрешить неравенство под знаком вероятности относительно параметра θ.
Доверительные интервалы для параметров нормального распределения:
s
s
· tn−1, 1− α2 , X + √
· tn−1, 1− α2 ;
Ia = X − √
n−1
n−1
!
2
2
nS
nS
Iσ2 =
, 2
.
2
χn−1,1− α χn−1, α
2
2
Параметр произвольного распределения можно оценить так же, как
параметр нормального распределения, если известно распределение некоторой статистики, зависящей от параметра и его оценки. Другой способ связан
с использованием асимптотического метода. Если θ̂ асимптотически нормальна и несмещена (например, является о.м.п.), то
θ̂ − θ d
p
→ u ∈ N (0, 1).
Dθ̂
!
θ̂ − θ
1 − α = P u α2 < p
< u1− α2 .
Dθ̂
Разрешая неравенство под знаком вероятности относительно θ, получим доверительный интервал значимости α.
Пример 35. Найдем асимптотический доверительный интервал
уровня значимости α для параметра p распределения Бернулли
B(1, p).
57
J Известно, что о.м.п. p равна
Pn
p̂ =
i=1 xi
n
= X.
В качестве статистики G можно взять
p−X
p−X
np − m
G= √
= p pq = √
,
npq
Dp̂
n
где m =
Pn
i=1 xi .
Из ЦПТ следует, что
np − m d
→ u ∈ N (0, 1).
√
npq
Поэтому
np − m
p u α2 6 √
6 u1− α2
npq
= 1 − α;
(u α2 = −u1− α2 ). Разрешим относительно p уравнение
np − m p
= u1− α2 .
nP (1 − p) Для этого потребуется возвести обе части в квадрат и решить относительно
p квадратное уравнение. При отборе корней необходимо иметь в виду, что
0 < p < 1. I
Пример 36. Найти 95%-й доверительный интервал для числа пассажиров пригородного поезда, если среднее число пассажиров, рассчитанное за 25 рабочих дней, равно 512, σ = 20.
J Требуется найти доверительный интервал значимости α = 0, 05 для параметра a нормального распределения N (a, σ) при известном σ = 20; воспользуемся вышеприведенной формулой:
σ
σ
Ia = X − √ · u1− α2 ; X + √ · u1− α2 =
n
n
20
20
= 512 − √ · u0,975 ; 512 − √ · u0,975 =
25
25
20
20
= 512 −
· 1, 96; 512 −
· 1, 96 =
5
5
= (512 − 7, 84; 512 + 7, 84) = (504, 12; 519, 84) ' (504; 520). I
58
Пример 37. Найти доверительный интервал значимости α = 0, 01 для
курса английского фунта стерлингов по данным за 100 дней2 .
№ Значения № Значения № Значения № Значения
1
48,9231 26 49,5273 51 49,7769 76 50,1459
2
49,0009 27 49,5319 52 49,8113 77 50,1484
3
49,0009 28 49,5642 53 49,8743 78 50,1792
4
49,0009 29 49,5757 54 49,8743 79 50,1969
5
49,0676 30 49,5757 55 49,8743 80 50,2041
6
49,1057 31 49,5757 56 49,8806 81 50,2253
7
49,1104 32 49,5908 57 49,8913 82 50,2253
8
49,1591 33 49,6426 58 49,9032 83 50,2253
9
49,1915 34 49,6436 59
49,908
84 50,2366
10 49,1957 35 49,6949 60 49,9485 85 50,2681
11 49,1957 36 49,7218 61 49,9562 86 50,2743
12 49,1957 37 49,7218 62
49,961
87 50,3392
13 49,2786 38 49,7218 63 49,9704 88 50,4789
14 49,2786 39 49,7218 64 49,9861 89 50,5537
15 49,2892 40 49,7218 65 49,9921 90 50,5914
16 49,2892 41 49,7218 66
50,029
91 50,5914
17 49,2892 42 49,7218 67 50,0655 92 50,5914
18 49,3908 43 49,7218 68 50,0655 93 50,6346
19 49,3933 44 49,7218 69 50,0655 94 50,6346
20 49,4365 45 49,7218 70 50,0779 95 50,6346
21
49,449
46 49,7218 71 50,0779 96 50,6985
22 49,5006 47 49,7297 72 50,0779 97 50,7337
23 49,5191 48 49,7297 73 50,1117 98 50,7971
24 49,5273 49 49,7297 74 50,1117 99
50,816
25 49,5273 50 49,7301 75 50,1117 100 50,9521
J Для нахождения доверительного интервала необходимо сначала рассчитать выборочные характеристики X и S: X = 49, 8388 и S = 0, 4703. Используем формулу
S
S
Ia = X − √ · tn−1, 1− α2 , X + √ · tn−1, 1− α2 ;
n
n
2
Курс английского фунта стерлингов за период 18.11.2005 г. – 25.02.2006 г.
59
найдем по таблице квантилей распределения Стьюдента tn−1, 1− α2
t99, 0,995 = 2, 58. Тогда
0, 4703
0, 4703
· 2, 58; 49, 8388 + √
· 2, 58 =
Ia = 49, 8388 − √
100
100
=
= (49, 717; 49, 960) . I
Пример 38. Найти 99%-е доверительные интервалы для параметров
нормального распределения по данным:
S = 2, 08, X = 0, 775, n = 100.
J Доверительный интервал минимальной длины для параметра a вычисляется следующим образом:
S
S
Ia = X̄ − √
· tn−1,1− α2 , X̄ + √
· tn−1,1− α2 .
n−1
n−1
При α = 0, 01 находим по таблице квантилей распределения Стьюдента t99, 0,995 = 2, 576
Ia = (0, 231; 1, 31).
Доверительный интервал значимости α для σ
!
s
s
nS 2
nS 2
Iσ =
.
,
χ2n−1,1− α
χ2n−1, α
2
2
При α = 0, 01 находим по таблице χ299, 0,995 = 158, 95, χ299, 0,005 = 70, 06
и вычисляем
Iσ = (1, 65; 2, 488). I
Задачи
251. Вывести формулу доверительного интервала для a в N (a, σ).
252. Вывести формулу доверительного интервала для a в
N (a, σ0 ) (параметр σ известен и равен σ0 ).
253. Укажите, каким уровням значимости соответствуют доверительные интервалы для a в N (a, σ0 ):
σ0
а) X ± 1, 96 √ ;
n
60
σ0
б) X ± 2, 575 √ ;
n
σ0
в) X ± 0, 99 √ .
n
254. Вывести формулу доверительного интервала для σ в
N (a, σ).
255. В модели N (a, σ) рассчитать доверительные интервалы для
a и σ по данным: x̄ = 103, S 2 = 16, n = 26, α = 0, 1.
256. Решить предыдущую задачу в модели N (a, 3) (параметр σ
известен и равен 3).
257. В модели N (a, σ) рассчитать доверительные интервалы для
a и σ по данным: x̄ = 5, S 2 = 4, n = 9, α = 0, 05.
258. В модели N (a, σ) рассчитать доверительный интервал для
σ по выборке (2, 3, 3, 1, 1, 2, 4, 2, 1, 3) при α = 0, 1.
259. Решить предыдущую задачу, если параметр a известен и
равен 2.
260. Найти доверительные интервалы для θ в моделях N (θ, 1) и
N (1, θ).
261. Найти доверительный интервал для p в B(N, P ).
262. Найти доверительный интервал для λ в Pλ .
263. В равномерном распределении R[0, b] найти доверительный
интервал для b.
∗
264. В модели R[0, b] показать, что интервал (Xn∗ , nX√nα ) является
доверительным интервалом для b значимости α.
265. В равномерном распределении R[a, 0] найти доверительный
интервал для a.
266. В равномерном распределении R[−θ, θ] найти доверительный интервал для θ.
267. В модели N (3, σ) найти доверительный интервал для σ по
выборке: (1, 2, 2, 3, 3, 3, 3, 4, 5) при α = 0, 1.
268. Найти доверительный интервал для θ в N (θ, θ).
269. Найти доверительный интервал для θ3 в N (θ, σ0 ).
270. Найти асимптотически кратчайший доверительный интервал для α в Γ(α, β).
61
271. Найти доверительный интервал для α в распределении с
плотностью
f (x) = eα−x x > 0.
272. Найти доверительный интервал для отношения дисперсий
двух нормальных моделей.
|x|
),
273. Будет ли в нормальной модели hNθ1 ,θ2 i интервал (0; u 1+α
2
0
построенный по одному наблюдению x, являться доверительным интервалом для θ2 значимости α < α0 ?
62
§ 12. Статистические гипотезы
Статистической гипотезой (или просто гипотезой) называется любое утверждение о виде или свойствах распределения наблюдаемых в эксперименте случайных величин. Статистическая гипотеза называется простой,
если однозначно фиксирует распределение наблюдений. Иначе это сложная
гипотеза. Проверяемая гипотеза называется нулевой (H0 ). Любая гипотеза
о распределении наблюдаемой случайной величины, которая может оказаться истинной, но отличается от основной гипотезы, называется альтернативной гипотезой. Правило, согласно которому проверяют гипотезу H0 (принимают или отвергают), называется статистическим критерием проверки
гипотезы H0 . Статистическая гипотеза называется параметрической, если
она представляет из себя предположение о том, что неизвестный параметр
распределения (дисперсия, математическое ожидание и т. п.) имеет наперед
заданное значение или множество значений. В процессе проверки H0 можно
принять правильное решение или совершить ошибку.
Вероятностью ошибки первого рода называется вероятность отклонить H0 , когда H0 верна. Эта вероятность совпадает с уровнем значимости
критерия α. Очевидно,
α = P(Hd = H1 /H0 ) = P(T (x) ∈ V /H0 )
(α равняется вероятности того, что значение статистики T принадлежит критической области V при условии, что верна H0 ).
Вероятностью ошибки второго рода называется вероятность принять H0 , когда H0 не верна. Вероятность ошибки второго рода обозначается
β. Очевидно,
β = P(Hd = H0 /H1 ) = P(T (x) ∈ V /H1 )
(β равняется вероятности того, что значение статистики T не принадлежит
критической области V при условии, что верна H1 ).
Величину 1−β будем называть мощностью критерия K и обозначать
M (K). Понятие мощности критерия введено для случая простых H0 , H1 ; существенно, что множество Θ1 состоит из единственной точки θ1 .
Наилучшие критические области (НКО)
Теорема Неймана – Пирсона. Пусть H0 : θ = θ0 , H1 : θ = θ1 . Тогда НКО заданного уровня значимости α состоит из точек выборочного пространства, удовлетворяющих неравенству
L(x, θ1 )
> cα ,
L(x, θ0 )
63
где cα – константа, зависящая от α, L – функция правдоподобия.
Равномерно наиболее мощным (р.н.м.к.) размера α называется статистический критерий с заданным размером (уровнем значимости) α для
проверки сложной гипотезы H0 против сложной альтернативы H1 , мощность
которого не меньше мощности любого другого статистического критерия,
предназначенного для проверки H0 против H1 и имеющего тот же размер α.
Критерий K для проверки гипотезы H0 против простой альтернативы
H1 называется состоятельным, если
M (K) = PH1 (Hd (X) = H1 ) → 1 при n → ∞.
Критерий размера α, имеющий мощность не меньше α, называется
несмещенным.
Пример 39 (НКО и мощность критерия). Найти НКО и мощность
критерия для проверки гипотезы H0 : θ = a0 , против гипотезы
H1 : a = a1 , a1 > a0 в нормальной модели с известным вторым
параметром σ.
J В модели hN (θ, σ)i рассмотрим функцию правдоподобия
L(x, θ1 )
=
L(x, θ0 )
√1
e−
(σ 2π)n
Pn
2
i=1 (xi −a1 )
2σ 2
Pn
(x −a )2
− i=12σi2 0
1
2
2
= e− 2σ2 (na1 −na0 −2(a1 −a0 )
P
xi )
√1
e
(σ 2π)n
> cα .
X
1
2
2
− 2 (na1 − na0 − 2(a1 − a0 )
xi > ln cα .
2σ
Выразим член, содержащий статистику (функцию от элементов выборки), и
переобозначим для простоты константу:
X
−2(a1 − a0 )
xi 6 b.
a1 > a0 , поэтому
X
xi > d
(где d – новая константа). Таким образом, мы нашли статистику
X
T (x) =
xi
и форму НКО
V = {x :
X
64
xi > d}.
Чтобы найти границу критической области, перейдем к стандартной статистике. Такой статистикой является
X − a0 √
n,
σ
P
доказывали, что Z ∈ N (0, 1). Неравенство
xi > d равносильно неравенству Z > u, где u – новая константа. Поэтому НКО, заданная через Z, будет
иметь форму
V = {x : Z > u}.
Z=
По заданному α из соотношения α = P (Z ∈ V /a0 ) = P (Z > u) найдем u:
P (Z > u) = 1 − FZ (u) = 1 − Φ(u) = α,
следовательно,
Φ(u) = 1 − α, u = u1−α ,
а НКО
X − a0 √
n > u1−α .
σ
Теперь найдем мощность критерия. По определению, мощность критерия
M (K) равна 1 − β, где
β = P (T (x) ∈ V /θ1 ) = 1 − P (T (x) ∈ V /θ1 ).
Тогда
M (K) = P (T (x) ∈ V /θ1 ).
√
0
Статистика T (x) в данном случае равна X−a
n, θ1 = a1 , а критическая обσ
ласть V = [u1−α , ∞). Таким образом,
X − a0 √
M (K) = Pa1
n > u1−α .
σ
(Pa1 означает, что вероятность рассчитывается на основе модели N (a1 , σ).)
X − a0 √
σu1−α
M (K) = Pa1
n > u1−α = Pa1 X > √ + a0 =
σ
n
σu1−α
= 1 − Pa1 X < √ + a0 .
n
Вспомним, что в N (a1 , σ) X имеет распределение N (a1 , √σn ). Тогда
!
σu
√1−α + a0 − a1
σu1−α
σu1−α
n
√ + a0 = Φ
Pa1 X < √ + a0 = FX
,
√σ
n
n
n
65
и
M (K) = 1 − Φ
σu
√1−α
n
+ a0 − a1
!
√σ
n
.
Можно слегка преобразовать последнее выражение, используя свойство
Φ(x):
Φ(−x) = 1 − Φ(x) и свойство квантилей стандартного нормального
распределения: uα = −u1−α . Окончательно получим
√ (a1 − a0 ) n
.
M (K) = Φ uα +
σ
I
Пример 40 (НКО). Найти наилучшую критическую область для проверки гипотезы H0 : R[−a, a] против гипотезы H1 : N (0, σ) по одному
наблюдению (n = 1) при уровне значимости α = 0, 1.
J


L(x, H1 )
=
L(x, H0 ) 
2
x
√1 e− 2σ2
σ 2π
x2
− 2σ
2
√1 e
σ 2π
:
1
2a ,
x ∈ [−a, a],
: 0 = ∞, x ∈
/ [−a, a].
(8)
НКО V заданного уровня значимости α состоит из точек выборочного пространства, удовлетворяющих неравенству:
L(x, θ1 )
> cα ,
L(x, θ0 )
следовательно, надо разрешить (8) относительно x. Разрешая, получаем:
V = {x : |x| > a} ∪ {x : |x| 6 d},
где d – некоторая константа. Значение константы d найдем из определения
α:
α = P (Z ∈ V /H0 ); P (Z ∈ V /H0 ) = P (|x| 6 d/H0 )
и, поскольку H0 : R[−a, a], эта вероятность равна площади прямоугольника
1
, и с основанием
с высотой, равной плотности равномерного распределения 2a
2d. Таким образом,
d
α = P (|x| 6 d/H0 ) = .
a
Отсюда d = aα, и получен окончательный вид НКО:
V = {x : |x| > a} ∪ {x : |x| 6 aα}.
66
Следовательно, если наблюдаемое значение x по модулю больше a, или не
больше aα, гипотеза о равномерном распределении отвергается (в пользу
нормального распределения); если же |x| ∈ (aα; a], гипотеза о равномерном
распределении не отвергается. I
Пример 41 (мощность критерия). В условиях предыдущего примера
найти мощность полученного критерия.
J Мощность критерия численно равна площади над критической областью,
рассчитанной на основе распределения Z при альтернативной гипотезе H1 .
Решение принимается по одному наблюдению, то есть распределение Z совпадает с распределением X. Таким образом, M (K) равна площади криволинейной трапеции с основанием V , ограниченной сверху графиком плотности N (0, σ). Основание трапеции состоит из трех несвязанных интервалов:
(−∞; −a) ∪ [−aα; aα] ∪ (a; ∞). Площадь под графиком плотности выражается через функцию распределения, и
M (K) = Φ0,σ (−a) + (Φ0,σ (aα) − Φ0,σ (−aα)) + 1 − Φ0,σ (a).
Вспомним, что Φ0,σ (x) = Φ(x/σ). Тогда M (K) упрощается и выражается через функцию Φ(x). При решении задач с числовыми данными подставляются
табличные значения функции Φ(x). I
Задачи
Даны оценки за контрольную работу первой и второй групп X =
(x1 , . . . , xn ), Y = (y1 , . . . , ym ), которые можно рассматривать как выборки
из генеральных совокупностей оценок. Сформулировать нулевую и альтернативную гипотезы для получения ответа на вопрос:
274. «Учится ли первая группа по этому предмету лучше второй?»
275. «Одинаково ли успешно учатся по этому предмету первая
и вторая группа?»
276. «Можно ли считать, что первая и вторая группа учатся
по этому предмету одинаково ровно?»
Даны результаты измерений артериального давления у одних и тех же
людей до и после приема лекарства. Сформулировать H0 и H1 для получения
ответа на вопрос:
277. «Повышает ли это лекарство давление?»
278. «Понижает ли это лекарство давление?»
67
279. «Это лекарство увеличивает разброс давления у пациентов?»
280. Имеются данные о солнечной активности и о заболеваемости дифтеритом за ряд лет. Сформулировать нулевую и альтернативную гипотезы для проверки содержательной гипотезы: «Увеличение солнечной активности понижает заболеваемость дифтеритом».
281. Для каждой из двух книг имеются данные о частотах, с которыми встречаются в тексте различные служебные слова и знаки
препинания. Сформулировать нулевую и альтернативную гипотезы
для проверки содержательной гипотезы: «Эти две книги написаны
одним автором».
282. Найти наилучшую критическую область в модели N (a, σ)
для проверки гипотезы H0 : a = a0 против гипотезы H1 : a = a1 по
выборке объема n = 25, если σ = 5, a0 = 1, a1 = 3, уровень значимости
α = 0, 05. Найти мощность критерия.
283. В статистической модели f (x) = λe−λx , x > 0 найти наилучшую критическую область для проверки гипотезы H0 : λ = 1 против
гипотезы H1 : λ = 4 по выборке объема n = 1 при уровне значимости
α = 0, 1. Найти мощность критерия.
284. В статистической модели N (a, σ) найти наилучшую критическую область для проверки гипотезы H0 : σ 2 = 4 против гипотезы H1 : σ 2 = 9, если объем выборки n = 25, а уровень значимости
α = 0, 05.
285. Найти наилучшую критическую область для проверки гипотезы H0 : f (x) = 12 при |x| 6 1 против гипотезы H1 : ξ ∈ N (0, 1) по
одному наблюдению (n = 1), α = 0, 05. Найти мощность критерия.
286. Найти наилучшую критическую область для проверки гипотезы H0 : ξ ∈ N (0, 1) против гипотезы H1 : f (x) = 21 при |x| 6 1 по
одному наблюдению (n = 1), если α = 0, 05. Найти мощность критерия.
287. Найти наилучшую критическую область для проверки гипотезы H0 : R[− 21 , 12 ] против гипотезы H1 : N (0, 0, 16) по одному наблюдению n = 1 при уровне значимости α = 0, 1. Найти мощность
критерия.
288. В статистической модели B(N, p) найти наилучшую критическую область для проверки гипотезы H0 : p = 41 против гипоте68
зы H1 : p = 12 , N = 10, если объем выборки n = 25, уровень значимости
α = 0, 1.
289. В статистической модели Γ(α, 1) найти наилучшую критическую область для проверки гипотезы H0 : α = 1 против гипотезы
H1 : α = 3 при n = 16, α = 0, 05.
290. Найти наилучшую критическую область для проверки гипотезы H0 : λ = 1 против гипотезы H1 : λ = 2 в статистической
модели Pλ , n = 9, α = 0, 05.
291. Сколько наблюдений необходимо, чтобы мощность критерия для проверки гипотезы H0 : a = 0 против гипотезы H1 : a = 2 в
статистической модели была не меньше 0, 9, если уровень значимости
α = 0, 05?
292. Исследовать состоятельность критерия, построенного в
задаче 282.
293. Исследовать несмещенность критерия, построенного в задаче 282.
294. Пусть в нормальной модели hN (θ, 1)i по одному наблюдению
проверяется гипотеза H0 : θ = a0 = 1, против гипотезы H1 : θ = a1 =
4, причем априорные вероятности гипотез равны соответственно
1/4 и 3/4. При каком d полная вероятность ошибки критерия K(x)
будет минимальной?
(
H1 , X > d,
K(X) =
H0 , X < d.
69
§ 13. Проверка параметрических
гипотез
Алгоритм проверки статистической гипотезы.
1. Сформулировать статистическую параметрическую модель, нулевую
и альтернативную гипотезы, задать уровень значимости α.
2. Выбрать статистику Z(x), такую, что она сама зависит от параметра
θ, а ее распределение при верной H0 от θ не зависит и различается при H0 и
при H1 .
3. Найти критическую область V .
4. Рассчитать по выборке значение статистики Zв .
5. Если Zв попадает в критическую область V, то нулевая гипотеза отвергается (в пользу альтернативной). Если Zв не попадает в критическую область V , то нулевая гипотеза не отвергается.
6. Сформулировать ответ в терминах вопроса.
Замечание 1. Гипотеза H0 отвергается или не отвергается с уровнем
значимости α. Пусть наблюдаемая случайная величина принадлежит классу
нормальных распределений N (θ1 , θ2 ). Перечислим критерии проверки гипотез о параметрах нормального распределения.
Замечание 2. В данной таблице индекс «0» внизу означает, что значение параметра известно. Например, N (a, σ0 ) – дисперсия известна (и равна σ02 ), а математическое ожидание неизвестно. Индекс «0» вверху означает
предполагаемое значение параметра. Например, a = a0 – математическое
ожидание неизвестно, и его предполагаемое значение равно a0 . В последнем
столбце указывается распределение Z при условии, что верна H0 (Z/H0 ).
Критерии для проверки гипотез о параметрах одного распределения. Пусть наблюдаемая случайная величина принадлежит классу
нормальных распределений N (θ1 , θ2 ) ∼ N (a, σ).
Рассмотрим выборку X = {(x1 , . . . , xn )}, элементы которой независимы и имеют распределение N (a, σ).
Гипотеза о дисперсии. H0 : σ = σ 0 .
Статистическая модель
Статистика Z Z/H0
hN (a0 , σ)i
P
(xi −a0 )2
(σ 0 )2
χ2n
hN (a, σ)i
nS 2
(σ 0 )2
χ2n−1
70
Гипотеза о среднем. H0 : a = a0 .
Статистическая модель
Статистика Z
hN (a, σ0 )i
√
(x̄−a0 ) n
σ0
N (0, 1)
hN (a, σ)i
√
(x̄−a0 ) n
s̄
Tn−1
Z/H0
Критерии для проверки гипотез о параметрах двух независимых
распределений. Рассматриваются 2 независимые случайные величины и
выборки наблюдений этих величин X, Y :
X = {(x1 , . . . , xn1 )} ∈ N (a1 , σ1 ), Y = {(y1 , . . . , yn2 )} ∈ N (a2 , σ2 ).
Гипотеза о дисперсии. H0 : σ1 = σ2 .
Модель
Статистика Z
hN (a0 , σ)i, hN (a, σ)i
(s̄1 )2
(s̄2 )2 ,
Z/H0
s1 > s2 . Fn1 −1,n2 −1
Замечание. Критерий, использующий данную статистику для проверки данной гипотезы, называется критерием Фишера.
Гипотеза о средних. H0 : a1 = a2
Модель
Статистика Z
r x̄−ȳ
hN (a, σ0 )i
(известны σ1 , σ2 )
hN (a, σ)i(σ1 , σ2 неизвестны, но гипотеза
H0 : σ1 = σ2 не отвергается)
hN (a, σ)i(σ1 , σ2 неизвестны, и гипотеза H0 :
σ1 = σ2 отвергается)
Z/H0
N (0, 1)
2
2
σ2
σ1
+
n1
n2
x̄−ȳ
r
2
s̄2
1 (n1 −1)+s̄2 (n2 −1) ( 1 + 1 )
n1 +n2 −2
n1
n2
r x̄−ȳ
s̄2
s̄2
1
2
n1 + n2
√
Tn1 +n2 −2
Tν ,
где ν ≈
s̄2
s̄2
1
2
n1 + n2
2
s̄2
1
n1
!2
s̄2
2
n2
n1 +1
+
!2
−2
n2 +1
Замечание. Критерий, использующий статистику, отмеченную галочкой
√
( ), называется критерием Стьюдента.
71
Гипотеза о средних для парных совокупностей. Рассматриваются 2 случайные величины и выборки наблюдений этих величин X, Y : X =
{(x1 , . . . , xn )} ∈ N (a1 , σ1 ), Y = {(y1 , . . . , yn )} ∈ N (a2 , σ2 ), причем Xi и Yi
связаны, например, через объект наблюдения. Перейдем к разности случайных величин; тогда d = X −Y, d ∈ N (ad , σd ). Очевидно, ad = a1 −a2 . Обычно
σd неизвестно. Гипотеза H0 : a1 = a2 ∼ H0 : ad = 0.
Модель
Статистика Z
√
d¯ n
s̄d
hN (a, σ)i
=
P √
P
P d2i n−1
n di −( di )2
Z/H0
Tn−1
Замечание. Этот критерий называется критерием Стьюдента для парных
выборок.
Пример 42. По выборке из нормального распределения N (a, 3) объема
n = 139 со средним x = 9, 193 проверить гипотезу о том, что параметр a равен 9.
J
1. Пусть α = 0, 05.
hN (a, σ0 )i, σ0 = 3.
H0 : a = 9; H1 : a 6= 9.
2. В нашем примере параметр a, оценка параметра – X, известно распределение функции
√
(X − a) n
.
Z(x) =
σ0
3. Если верна H0 : a = 9, то Z(x) ∈ N (0, 1). Если же верна H1 :
a = a1 6= 9, то распределение X ∈ N (a1 , σ0 ) смещено влево или вправо
относительно распределения X при нулевой
гипотезе N (9, σ0 ), значит, так
√
(X−a) n
же смещено и распределение Z(x) =
. Поэтому критическая область
σ0
двусторонняя:
V = {x : Z(x) 6 u0,025 или Z(x) > u0,975 },
то есть
V = {x : Z(x) 6 −1, 96} ∪ {x : Z(x) > 1, 96}.
4.
√
(X − a) n
Z(x) =
;
σ0
72
√
(9, 193 − 9) 139
Zв =
≈ 0, 758;
3
5. Zв не попадает в критическую область V , поскольку −1, 96 <
0, 758 < 1, 96. Следовательно, с уровнем значимости α = 0, 05 нулевая гипотеза H0 не отвергается.
6. Вывод: данная выборка может быть взятой из совокупности с математическим ожиданием 9 I.
Пример 43. Проверить гипотезу о том, что среднеквадратичное
отклонение цены на товар σ = 1, 4, если по 101 наблюдению S = 1, 2.
J
1. Можно использовать нормальную модель; уровень значимости α зададим равным 0,05. Сформулируем гипотезы:
H0 : σξ = σ0 = 1, 4; H1 : σξ = σ1 < 1, 4
2. Воспользуемся статистикой
Z=
nS 2
,
σ02
при условии H0 статистика Z имеет распределение χ2n−1 .
3. Найдем критическую область V . Так как σ1 < σ0 , то при верной ги2
потезе H1 статистика Z = nS
принимает меньшие значения, чем при верσ02
ной гипотезе H0 , следовательно, критическая область левосторонняя: V =
{x : Z(x) 6 χ2α }. Из таблиц находим граничное значение Zкрит = χ2100;0,05 =
77, 929. Таким образом, критическая область V = [0; 77, 929].
4. Рассчитаем по выборке значение статистики Zв :
101 · (1, 2)2
nS 2
Zв = 2 =
≈ 74, 2
σ0
(1, 4)2
5. Поскольку Zв = 74, 2 < 77, 929 = Zкрит , то Zв попадает в критическую область V , следовательно нулевая гипотеза отвергается в пользу альтернативной с уровнем значимости α = 0, 05.
6. Таким образом, нельзя считать, что среднеквадратичное отклонение
цены на товар σ = 1, 4. Следует признать, что оно меньше.I
Задачи
73
Замечание. Если в условиях не указан уровень значимости α, следует
задать его самим.
295. По выборке из нормального распределения объема n = 400
проверить гипотезу о том, что выборка взята из распределения с
математическим ожиданием 14. Дисперсия известна и равна 81. Рассчитанное по выборке среднее x̄ = 13, 6.
296. При решении контрольной работы средняя оценка в баллах по курсу равна a0 = 13. В одной из групп (26 студентов) средняя оценка равна x̄ = 11, S = 2. Можно ли считать, что работа
в данной группе выполнена хуже, или отклонение следует считать
случайным? (α = 0, 05.)
297. Урожайность культуры составляет 35 центнеров с гектара; на 10 опытных делянках x̄ = 38 центнеров с гектара, s2 = 49.
Случайно ли превышение урожайности?
298. Средние по отрасли издержки на производство единицы
некоторого товара составляют a0 = 23, а по 50 предприятиям корпорации выборочное среднее издержек равно x̄ = 20, S = 2. Можно ли
считать, что издержки в данной корпорации ниже, или отклонение
следует считать случайным? (α = 0, 05.)
299. В условиях примера 37 проверить гипотезу о том, что
математическое ожидание курса английского фунта стерлингов за
упомянутый период равно a = 50.
300. При измерении производительности двух агрегатов получены следующие результаты:
A : 14, 1 10, 1 14, 7 13, 7 14, 0;
B : 14, 0 14, 5 13, 7 12, 7 14, 1.
Различна ли их производительность?
301. Одинаково ли потребление сырья для производства продукта при двух технологиях, если n1 = 16, S̄12 = 8, x̄ = 6; n2 = 36, S̄22 =
15, ȳ = 7?
302. n1 = 21, S̄12 = 25, n2 = 31, S̄22 = 16. Проверить гипотезу о том,
что σ12 6= σ22 при α = 0, 1.
303. Производительность труда в дневную смену описана данными: n1 = 16, x̄ = 14, 5, S̄12 = 4; в ночную смену: n2 = 16, ȳ = 13, S̄22 = 3.
Можно ли считать, что ночная работа менее эффективна?
74
304. X – производительность при работе с перерывом, Y – без
перерыва, измеренная у одних и тех же 10 человек. Проверить гипотезу aY < aX . Уровень значимости положить равным 0,05.
X
Y
40 35 41 55 46
30 30 38 21 49
60 51 43 62 41
53 31 27 53 48
305. У группы студентов проверялись знания элементарной математики через полгода (X) и через полтора года (Y ) после окончания школы (max = 100 баллов). Проверить гипотезу о том, что
знания не изменились. Уровень значимости положить равным 0,1.
X
Y
50 88 71 55 46
40 63 75 41 49
80 87 53
57 71 27
306. Указаны выборочные дисперсии размеров прибыли при производстве товаров двух групп: n1 = 40, S12 = 36; n2 = 50, S22 = 49.
Можно ли считать, что прибыль при производстве товаров первой
группы колеблется сильнее, или различия следует считать случайными? (α = 0, 05.)
307. Выборка X = (124, 90, 124, 99, 90, 111, 89) представляет собой
значения индексов продаж 7 однотипных товаров некоторого производителя. Проверить гипотезу о том, что средний индекс продаж
для товаров данного производителя равен среднему индексу продаж,
рассчитанному по товарам всех производителей и принимаемому за
100 (α = 0, 05).
308. При стабильном процессе в камере поддерживается температура 25, 5◦ . Путем измерений получена выборка:
25, 43; 25, 41; 25, 44; 26, 20; 25, 60; 25, 59; 25, 62; 25, 53; 25, 52; 25, 53.
Проверить гипотезу о среднем (α = 0, 01).
309. Среднее значение показателя воздушного загрязнения
окружающей среды для двигателя равно 20. При стабильном процессе в камере поддерживается температура 25, 5◦ . Дана выборка значений этого показателя для 10 двигателей нового типа:
15, 6; 16, 2; 22, 5; 20, 5; 16, 4; 19, 4; 16, 6; 17, 9; 12, 7; 13, 9. Проверить гипотезу о том, что у двигателей нового типа показатель воздушного загрязнения окружающей среды ниже (α = 0, 01).
75
§ 14. Непараметрические критерии
Гипотеза о виде распределения. H0 : F (x) = F0 (x).
Критерии, проверяющие гипотезу о виде распределения, называются
критериями согласия.
Критерий согласия Колмогорова. Пусть x = (x1 , . . . , xn ) – выборка
из генеральной совокупности с неизвестной функцией распределения F (x).
Выдвинута простая гипотеза H0 : F (x) = F0 (x), где F0 (x) задана. Критерий
согласия Колмогорова применяют для непрерывных функций распределения
F (x).
В качестве статистики критерия выбирают величину
Dn = Dn (x) = sup |(Fn (x) − (F (x)|,
(9)
x
а в качестве критической области – область вида
V = (t∗ , ∞),
(10)
где t∗ табулировано. Так, t∗ = t∗α = 1, 3581 при α = 0, 05; t∗α = 1, 6276
при α = 0, 01. Таким образом, при заданном уровне значимости α правило
проверки гипотезы H0 при n > 20 сводится к следующему:
если значение статистики t̂ = Dn (x) = maxx |Fn∗ (x) − F0 (x)| удовлетворяет неравенству
√
n · t̂ > t∗ ,
то H0 отвергают, в противном случае делают вывод, что статистические данные не противоречат гипотезе.
Критерий согласия χ2 Пирсона. Критерий согласия χ2 Пирсона также проверяет гипотезу H0 : F (x) = F0 (x), но его можно применять для любых распределений. Чтобы воспользоваться этим критерием, выборочные
данные предварительно группируют. Пусть ni – число значений, попавших
в i-й интервал, i = 1, . . . , k, n – объем выборки, pi – теоретическая вероятность попадания одного элемента выборки в i-й интервал. Однако в теоретическом распределении могут быть неизвестные параметры (θ1 , . . . , θr ),
что обычно и встречается на практике. Тогда по выборке (x1 , . . . , xn ) первоначально находят оценки (θ1∗ , . . . , θr∗ ) и затем по F (x, θ1∗ , . . . , θr∗ ) вычисляют
теоретические вероятности pi .
Статистика критерия
Z=
k
X
(ni − npi )2
i=1
npi
76
∼ χ2ν ,
(11)
где ν = k − r − 1 – число степеней свободы. Ограничения: n > 50 и npi > 4.
Критическую область задаем в виде V = (t∗ , ∞), значение t∗ – квантиль
распределения χ2ν порядка (1 − α).
Таким образом, вид критерия согласия χ2 :
если значение статистики Zв удовлетворяет неравенству
Zв > t∗ ,
гипотезу H0 отвергают, в противном случае гипотеза H0 не противоречит
условиям испытаний.
Пример 44. Фирма предлагает 3 вида продукта. По данным прошлого года вероятности заказов для разных видов соответственно равны 0,1; 0, 65; 0,25. В этом году из 600 покупателей 42 приобрели продукт первого вида, 365 – второго, 193 – третьего. Можно ли считать, что предпочтения покупателей не изменились?
J Проверим гипотезу H0 : F (x) = F0 (x), где F0 обозначает распределение
вероятностей по данным прошлого года. Составим таблицу:
Вид продукта
1
2
3
Число покупок ni 42 365 193
pi
0, 1 0, 65 0, 25
npi
60 390 150
Здесь n = 600, pi – теоретическая вероятность покупки продукта i-го вида,
i = 1, 2, 3.
Zв =
3
X
(ni − npi )2
npi
i=1
=
(42 − 60)2 (365 − 390)2 (193 − 150)2
+
+
= 19, 33.
60
390
150
Пусть α = 0, 015.
=
t∗ = χ2l−r−1; 0,99 = χ23−0−1; 0,95 = χ22; 0,99 = 9, 21034
(последнее значение нашли по таблице).
Zв > t∗ ,
следовательно, гипотезу H0 отвергают и следует считать, что предпочтения
покупателей изменились.I
77
Пример 45. Было проведено 1000 измерений случайной величины η,
равной времени ожидания ответа на запрос, измеренному в долях
от теоретически возможного максимального времени, принятого за
единицу. Требуется выяснить распределение этой величины.
J Сгруппируем данные:
№
1
2
3
4
5
6
7
8
9
10
11
Интервал Численность ni
0, 00 − 0, 09
80
0, 09 − 0, 18
81
0, 18 − 0, 27
93
0, 27 − 0, 36
85
0, 36 − 0, 45
87
0, 45 − 0, 54
87
0, 54 − 0, 63
87
0, 63 − 0, 72
106
0, 72 − 0, 81
99
0, 81 − 0, 90
89
0, 90 − 0, 99
106
ni
n
ni
nh
P ni
0,080
0,081
0,093
0,085
0,087
0,087
0,087
0,106
0,099
0,089
0,106
0,007
0,007
0,008
0,008
0,008
0,008
0,008
0,010
0,009
0,008
0,010
0,080
0,161
0,254
0,339
0,426
0,513
0,600
0,706
0,805
0,894
1,000
n
По рассмотрении таблицы группировки можно выдвинуть гипотезу о
равномерном распределении. Параметры этого распределения найдем с помощью оценивания:
â = ymin = x∗1 = 0,
b̂ = xmax = x∗n ≈ 1.
H0 : Fη (y) = FR[0,1] (y).
Применим критерий согласия χ2 Пирсона.
В качестве статистики критерия возьмем величину
Z=
k
X
(ni − npi )2
npi
i=1
,
где pi – теоретическая вероятность попадания одного элемента выборки в
i-й интервал, равная 0,1. После вычислений получаем Zв = 9, 25.
Критическая область Vk = (χ2k−r−1,1−α , +∞), где r – число параметров, оцененных в выборке. У нас r = 2, в таблице значений квантилей распределения χ2 находим χ28,0.95 = 15, 51. Так как значение Zв не попало в
критическую область, то гипотеза H0 не отвергается, то есть статистические
данные не противоречат гипотезе о том, что величина η имеет распределение
R[0, 1]. I
78
Пример 46. В условиях предыдущего примера проверим гипотезу с помощью критерия согласия Колмогорова.
J H0 : Fη (y) = FR[0,1] (y).
В качестве статистики критерия возьмем величину
√
Dn = n · max Fn∗ (y) − FR[0,1] (y) .
y
После вычислений мы получили Dn = 1, 22. Так как критическая область для
α = 0, 05 равна Vk = (1, 36; +∞), a значение Dn не попадает в критическую
область, то гипотеза H0 не отвергается, то есть можно считать, что величина
η имеет распределение R[0, 1] I
Задачи
310. Доказать состоятельность критерия Колмогорова.
311. В эксперименте Бюффона при n = 4040 бросаниях монеты
наблюдалось m = 2048. Согласуются ли эти данные с гипотезой о симметричности монеты при уровне значимости α, равным: а) 0,05; б)
0,1.
312. При n = 1000 независимых испытаний с исходами A1 , A2 , A3
эти события осуществились соответственно 350, 320 и 330 раз. Проверить, согласуются ли эти данные при уровне значимости 0,05 с гипотезой H0 : p1 = p2 = p3 , где pi = P(Ai ).
313. В таблице приводятся результаты 100 опытов, состоящих
в одновременном подбрасывании 6 костей. В каждом из опытов подсчитывалось число m костей, выпавших кверху гранью с шестью очками.
m 0 1 2 3 4 5 6
ni 47 35 8 9 1 0 0
Проверить гипотезу правильности костей.
314. Можно ли считать равномерным распределение студентов
по знакам Зодиака?
Номер знака
ni
Номер знака
ni
1 2 3 4 5 6
12 13 23 11 9 10
7 8 9 10 11 12
15 7 15 9 7 3
79
315. В десятичной записи числа π среди первых 10 002 знаков после запятой цифры 0, 1, ..., 9 встречаются соответственно 968, 1026,
1021, 974, 1014, 1046, 1021, 970, 948, 1014 раз. Можно ли при уровне
значимости 0,05 считать эти цифры случайными? При каком уровне
значимости эта гипотеза отвергается?
316. Датчик случайных чисел выдал 10 000 чисел 0, 1, . . . , 9. Среди
них числа, превосходящие 5, встретились 5105 раз. Проверить гипотезу о случайности чисел.
317. Проверить гипотезу H0 : F = Pλ ;
m
ni
0 1 2 3 4 5
13 17 12 5 3 1
318. По официальным данным в Швеции в 1935 г. родилось 88 273
ребенка, причем в январе родилось 7280 детей, в феврале – 6957, марте – 7883, апреле – 7884, мае – 7892, июне – 7609, июле – 7585, августе – 7393, сентябре – 7203, октябре – 6903, ноябре – 6552 и в декабре – 7132 ребенка. Совместимы ли эти данные с гипотезой, что
день рождения наудачу выбранного человека с равной вероятностью
приходится на любой из 365 дней года?
319. В экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, полученных при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Эти данные и значения теоретических вероятностей по теории наследственности приведены в следующей таблице:
Семена
Круглые и желтые
Морщинистые и желтые
Круглые и зеленые
Морщинистые и зеленые
Частота Вероятность
315
9/16
101
3/16
108
3/16
32
1/16
Проверить гипотезу H0 о согласии частот с теоретическими вероятностями (на уровне значимости α = 0, 1).
320. В таблице приведены числа ni участков равной площади 0,25
км южной части Лондона, на каждый из которых приходилось по i
2
80
попаданий снарядов во время Второй мировой войны. Проверить согласие опытных данных с законом распределения Пуассона, приняв за
уровень значимости α = 0, 05:
i
ni
0
1
2 3 4 5 и более
229 221 93 35 7
1
321. Из 150 покупателей товара 61 выбрал сорт А, 53 – сорт Б,
36 – сорт С. Проверить гипотезу о равновероятности приобретения
этих трех сортов.
322. В пачке драже M&M’s – 30 % конфет коричневого цвета, по
20 % – желтого и красного и по 10 % – синего, зеленого и оранжевого.
В праздничной упаковке содержалось 370 конфет, из них:
Коричневые
84
Желтые
79
Красные
75
Оранжевые
49
Зеленые
36
Синие
47
Соответствуют ли эти данные обычному составу пачки драже
M&M’s?
323. Для оценки эффективности лекарства одной группе испытуемых дают тестируемый препарат, проверенный на животных, а
другой – плацебо (физиологически инертное вещество, положительный лечебный эффект которого связан с подсознательным психологическим ожиданием пациента). Ниже приводятся данные о числе
появлений симптомов гриппа за двухлетний период у группы, принимавшей в начале этого периода профилактическое лекарство, и у
группы, принимавшей плацебо.
Число
заболеваний
0
1
2
3
4 или более
Число пациентов,
принимавших лекарство
32
26
15
6
6
Число пациентов,
принимавших плацебо
26
30
11
14
19
Можно ли считать, что эффект от применения препарата достоверно превышает эффект плацебо?
81
§ 15. Модель линейной регрессии
Пусть Y – случайная величина, Xi , i = 1, . . . , k – контролируемые (неслучайные) переменные. Модель (функциональная зависимость) известна из
предварительных соображений с точностью до параметров:
Y = f (X1 , . . . , Xk , θ1 , . . . , θs ) + ε,
где θi , i = 1, . . . , s – параметры, ε – вектор ошибок. Будем считать, что E ε =
0 и ошибки некоррелированы.
Параметры выбираются так, чтобы минимизировать сумму квадратов
ошибок:
P
R = ni=1 (Yi − f (Xi1 , . . . , Xik , θ1 , . . . , θs ))2 → min,
∂R
= 0, j = 1, . . . , s.
∂θj
Наиболее часто используются линейные по параметрам модели вида
Y = θ1 · a1 (X1 ) + θ2 · a2 (X2 ) + . . . + θk · ak (Xk ) + ε.
(Если ak (Xk ) ≡ 1, будет свободный член.)
Рассмотрим основной случай, когда ai (Xi ) = Xi . Тогда исходные данные имеют вид
Y = X · θ + ε.
Рассмотрим модель
Y1 = X11 θ1 + . . . + X1k θk + ε1
...
Yn = Xn1 θ1 + . . . + Xnk θk + εn
или
Y = X · θ + ε.
Оценка θ, найденная из условия
R=
X
(Yi −
k
X
Xij θj )2 → min,
j=1
равна
θ̂ = (X T X)−1 · X T Y.
(12)
В одномерном случае для нахождения параметров линейной модели Y =
X · θ + θ1 + ε удобно использовать следующие формулы, получаемые из соотношения
θ̂ = (X T X)−1 · X T Y :
82
θ̂ =
где
SSxy
SSxy
, θ̂1 = y − θ̂ · x,
SSxx
(13)
P
P
( i xi )( i yi )
=
(xi − x)(yi − y) =
x i yi −
,
n
i
i
P
X
X
( i xi )2
2
2
xi −
SSxx =
(xi − x) =
.
n
i
i
X
X
Свойства оценок МНК
1. E θ̂ = θ. (Несмещeнность).
2. Kθ̂ = σ 2 (XT X)−1 .
3. Теорема Гаусса – Маркова.
В классе несмещенных линейных оценок оценки МНК имеют наименьшую дисперсию.
В линейной модели Y = X · θ + θ1 + ε (одномерный случай) доверительный
интервал для коэффициента регрессии θ
θ̂ ± tn−2,1− α2 Sθ̂ ,
где
s
Sθ̂ =
P
− Ŷi )2
;
P
(n − 2) (Xi − X)2
i (Yi
доверительный интервал для среднего значения y при фиксированном x0 :
s
1
(x0 − x)2
+P
;
ŷ ± tn−2,1− α2 S
n
(xi − x)2
доверительный интервал для индивидуального значения y при фиксированном x0 :
s
1
(x0 − x)2
ŷ ± tn−2,1− α2 S 1 + + P
,
n
(xi − x)2
где
sP
2
i (yi − ŷi )
S=
.
(n − 2)
83
Пример 47. Найдем оценки параметров линейной модели Y = X1 · θ1 +
X2 θ2 + ε по данным
X1 0
1
0
1
X2 0
0
1
1
Y 0, 1 0, 9 2, 1 3, 0
J
θ̂ = (X T X)−1 · X T Y.


! 0 0
!


0 1 0 1
1 0
2 1
XT X =
=
·
;
0 1
0 0 1 1
1
2


1 1
!
!
2/3 −1/3
2 −1
=
.
(X T X)−1 = 1/3 ·
−1/3 2/3
−1 2


!  0, 1 
!


0, 9 
3, 9
0 1 0 1
·
=
.
XT Y =
 2, 1 
5,
1
0 0 1 1


3, 0
!
!
!
3, 9
0, 9
2/3 −1/3
·
=
;
θ̂ = (X T X)−1 · X T Y =
−1/3 2/3
5, 1
2, 1
Ŷ = 0, 9X1 + 2, 1X2 . I
Пример 48. Найдем по данным примера 47 величину R̂, равную сумме
квадратов ошибок.
P
P
P
J R = i (Yi − 2j=1 Xij θj )2 = i (Yi − Ŷi )2 , где Ŷi – значения, вычисленные по уравнению регрессии Ŷ = 0, 9X1 + 2, 1X2 .
X1
0
1
0
1
X2
0
0
1
1
Y
0, 1 0, 9 2, 1 3, 0
Ŷ
0 0, 9 2, 1 3, 0
|Y − Ŷ | 0, 1 0
0
0
84
R=
X
(Yi − Ŷi )2 = 0, 01. I
i
Пример 49 (модель со свободным членом). Найдем оценки параметров линейной модели Y = X1 · θ1 + X2 θ2 + θ3 + ε по данным
X1 1
0
1
X2 1
0
0
Y 0 −1, 1 2
J Будем считать, что переменная X трехмерна, и рассматривать модель Y = X1 · θ1 + X2 θ2 + X3 θ2 + ε, где X3 ≡ 1:
X1
X2
X3
Y
1
0
1
0
1
1
0 −1, 1
1
0
1
2
θ̂ = (X T X)−1 · X T Y.
 

 

2 1 2
1 1 1
1 0 1
 

 

T
X X =  1 0 0  ·  0 0 1  =  1 1 1 ;
1 0 1
2 1 3
1 1 1


2 −1 −1


(X T X)−1 =  −1 2 0  .
−1 0 1

 

 
2
1 0 1
0

 

 
T
X Y =  1 0 0  ·  −1, 1  =  0  .
0, 9
1 1 1
2

 
 

2 −1 −1
2
3, 1

 
 

θ̂ = (X T X)−1 · X T Y =  −1 2 0  ·  0  =  −2  ;
−1 0 1
0, 9
−1, 1
Ŷ = 3, 1X1 − 2X2 − 1, 1. I
85
Пример 50. Найдем оценку параметра линейной модели Y = X · θ + ε
по данным
X1
0
1
0
1
X2
0
0
1
1
Y1 0, 1 3, 1 1, 9 5, 2
Y2 −0, 1 −0, 9 0, 8 0, 1
J


2 −1 −1


(X T X)−1 =  −1 2 0  .
−1 0 1
!
8, 3 −0, 8
XT Y =
.
7, 1 0, 9
θ̂ = (X T X)−1 · X T Y =
3, 17 −0, 83
1, 96 0, 86
!
.
Ŷ1 = 3, 1X1 + 1, 96X2 .
Ŷ2 = −0, 83X1 + 0, 86X2 .
Посмотрим, насколько хорошо модель приближает данные:
X1
0
1
0
1
X2
0
0
1
1
Y1 0, 1 3, 1 1, 9 5, 2
Y2 −0, 1 −0, 9 0, 8 0, 1
I
Пример 51. Найдем оценки параметров линейной модели Y = X · θ +
θ1 + ε, используя формулы (13) по данным
X 1 2 3 4 5
Y 1 1 2 2 4
J
SSxy =
X
i
P
P
( i xi )( i yi )
15 · 10
xi yi −
= 37 −
= 7.
n
5
86
SSxx =
X
i
P
2
(
225
2
i xi )
xi −
= 55 −
= 10.
n
5
SSxy
7
= 0, 7.
=
SSxx
10
10
θ̂1 = y − θ̂ · x =
− 0, 7 · 3 = 2 − 2, 1 = −0, 1.
5
Ŷ = 0, 7X − 0, 1. I
θ̂ =
Пример 52. Найдем 95 %-й доверительный интервал для коэффициента регрессии θ в линейной модели Y = X · θ + θ1 + ε по данным:
X 1 2 3 4 5
Y 1 1 2 2 4
J Доверительный интервал равен
θ̂ ± tn−2,1− α2 Sθ̂ ,
где
s
P
Sθ̂ =
ŷi )2
.
(xi − x)2
i−
i (y
P
(n − 2)
X
X
2
θ̂ = 0, 7,
(xi − x) = 10;
(yi − ŷi )2 = 1, 1; n = 5, t3;0,975 = 3, 182.
i
Подставляя найденные значения, получаем доверительный интервал для коэффициента регрессии:
0, 7 ± 0, 61 = [0, 09; 1, 31].
I
Пример 53. В условиях предыдущего примера найдем 95 %-й доверительный интервал для среднего значения y при x = 4.
J Доверительный интервал равен
s
ŷ ± t
n−2,1− α2
где
1
(x0 − x)2
+P
,
n
(xi − x)2
S
sP
S=
− ŷi )2
.
(n − 2)
i (yi
87
x = 3,
X
(xi − x)2 = 10; S = 0, 61, t3;0,975 = 3, 182.
Доверительный интервал для среднего:
r
1 (4 − 3)2
+
= 2, 7 ± 1, 1 = [1, 6; 3, 8].
2, 7 ± 3, 182 · 0, 61
5
10
I
Пример 54. Сравним интервал, полученный в предыдущем примере,
с 95 %-й доверительным интервалом для индивидуального значения
(прогноза) y при x = 4.
J Доверительный интервал для прогноза y равен
s
(x0 − x)2
1
ŷ ± tn−2,1− α2 S 1 + + P
.
n
(xi − x)2
Получаем
r
2, 7 ± 3, 182 · 0, 61 1 +
Доверительный интервал
ре, чем доверительный
1 (4 − 3)2
+
= 2, 7 ± 2, 2 = [0, 5; 4, 9].
5
10
прогноза
интервал
значения в 2 раза шидля среднего значения. I
Задачи
324. Найти по данным примера 49 величину R̂, равную сумме
квадратов ошибок, и объяснить полученный результат.
325. Найти оценку параметра линейной модели Y = X · θ + ε по
данным:
X 7 4 6 2 2 1 3
Y 2 4 2 5 7 6 5
326. По данным предыдущей задачи найти величину R̂, равную
сумме квадратов ошибок в модели Y = X · θ + ε.
327. Найти оценки параметров линейной модели Y = X · θ + θ1 + ε
по данным задач 325– 326:
X 7 4 6 2 2 1 3
Y 2 4 2 5 7 6 5
88
Вычислить величину R̂ для этой модели. Какая из моделей является
более адекватной?
328. Найти оценки параметров линейной модели Y = X · θ + θ1 + ε
по данным:
X 0, 5 1 1, 5
Y
2 1 3
329. Найти оценки параметров линейной модели X = Y · θ + θ1 + ε
по данным:
X 0, 5 1 1, 5
Y
2 1 3
330. Найти оценки параметров линейной модели Y = X · θ + θ1 + ε
по данным:
X 8 5 4 6 2 5 3
Y 1 3 6 3 7 2 5
331. По данным предыдущей задачи найти величину R̂, равную
сумме квадратов ошибок в модели Y = X · θ + ε.
332. Найти оценки параметров линейной модели
Y = X1 · θ1 + X2 · θ2 + θ3 + ε
по данным:
X1 1 0 0 1
X2 0 0 1 1
Y −1 1 2 3
333. Найти оценки параметров модели
Y = X · θ1 + X 2 · θ2 + θ3 + ε
по данным:
X −2 −1
0
1
2 3
Y 2, 7 0 −1, 1 2, 8 8, 7 19
(сделать замену X = X1 , X 2 = X2 ).
89
334. Найти зависимость производительности труда (Y ) от
фондовооруженности X1 и изношенности фондов X2 , если имеются
следующие данные:
Y
X1 X2
0, 5 1 0, 6
0, 8 1, 2 0, 4
0, 6 0, 9 0, 5
0, 5 0, 7 0, 3
335. Имеются данные о спросе Y и ценах на продукцию X:
X 0 1 1
Y 4 3 0
Найти оценки параметров линейной регрессии Y на X.
90
Библиографический список
[1] Боровков, А. А. Математическая статистика. Оценка параметров.
Проверка гипотез / А. А. Боровков. – М. : ФИЗМАТЛИТ, 2007. –
704 с.
[2] Ивченко, Г. И. Математическая статистика : учеб. пособие / Г. И. Ивченко, Ю. И. Медведев . – М. : Высш. шк., 1984. – 248 с.
[3] Крамер, Г. Математические методы статистики / Г. Крамер. – М. :
Мир, 1975. – 648 c.
[4] Крупкина, Т. В. Математическая статистика : курс лекций / Т. В. Крупкина, А. К. Гречкосеев. – Красноярск : ИПК СФУ, 2009. – 190 с. – (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива
Т. В. Крупкина).
[5] Крупкина, Т. В. Математическая статистика : метод. указания /
Т. В. Крупкина, Г. А. Федоров. – Красноярск : ИПК СФУ, 2009. – 52 с.
– (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина).
[6] Чернова, Н. И. Математическая статистика : учеб. пособие /
Н. И. Чернова ; Новосиб. гос. ун-т. – Новосибирск, 2007. – 148 с.
Дополнительная литература
[7] Андерсон, Т. Введение в многомерный статистический анализ /
Т. Андерсон – М. : Гос. изд. физ.-мат. лит., 1963. – 500 с.
[8] Беклемишев, Д. В. Курс аналитической геометрии и линейной алгебры / Д. В. Беклемишев. – М. : ФИЗМАТЛИТ, Наука, 2007. – 307 с.
[9] Бешелев, С. Д. Математико-статистические методы экспертных
оценок / С. Д. Бешелев, Ф. Г. Гурвич. – М. : Статистика, 1980. – 263 с.
[10] Большев, Л. Н. Таблицы математической статистики / Л. Н. Большев, Н. В. Смирнов. – М. : Наука, 1983. – 415 с.
91
[11] Вентцель, Е. С. Теория вероятностей и ее инженерные приложения : учеб. пособие / Е. С. Вентцель, Л. А. Овчаров. – 2-е изд., стереотип. – М. : Высш. шк., 2000. – 480 с.
[12] Вирт, Н. Алгоритмы и структуры данных / Н. Вирт. – СПб. : Невский диалект, 2001. – 352 с.
[13] Володин, Б. Г. Сборник задач по теории вероятностей, математической статистике и теории случайных функций : учеб. пособие /
Б. Г. Володин, М. П. Ганин, И. Я. Динер, Л. Б. Комаров, А. А. Свешников, К. Б. Старобин ; под ред. А. А. Свешникова. – М. : Наука. Гл. ред.
физ.-мат. лит., 1970. – 632 с.
[14] Вуколов, Э. Л. Основы статистического анализа. Практикум по статистическим методам и исследованию операции с использованием
пакетов STATISTICA и EXCEL : учеб. пособие / Э. Л. Вуколов. – 2-е
изд., испр. и доп. – М. : ФОРУМ, 2008. – 464 с.
[15] Гихман, И. И. Теория вероятностей и математическая статистика
: учебник / И. И. Гихман, А. В. Скороход, М. И. Ядренко. – 2-е изд.,
перераб. и доп. – Киев. : Выща шк., 1988. – 439 с.
[16] Гнеденко, Б. В. Курс теории вероятностей : учебник / Б. В. Гнеденко. – 8-е изд., испр. и доп. – М. : Едиториал УРСС, 2005. – 448 с.
[17] Емельянов, Г. В. Задачник по теории вероятностей и математической статистике : учеб. пособие / Г. В. Емельянов, В. П. Скитович. – Л.
: Изд-во Ленингр. ун-та, 1967. – 331 с.
[18] Зорич, В. А. Математический анализ. Т. 1, 2 / В. А. Зорич. – М. :
МЦНМО, 2007. – 1458 с.
[19] Кендалл, М. Теория распределений / М. Кендалл, А. Стюарт. – М. :
Наука. Гл. ред. физ.-мат. лит., 1966. – 588 с.
[20] Кендалл, М. Статистические выводы и связи / М. Кендалл, А. Стюарт. – М. : Наука. Гл. ред. физ.-мат. лит., 1973. – 899 с.
[21] Кибзун, А. И. Теория вероятностей и математическая статистика.
Базовый курс с примерами и задачами : учеб. пособие / А. И. Кибзун, Е. Р. Горяинова, А. В. Наумов, А. Н. Сиротин. – М. : ФИЗМАТЛИТ,
2002. – 224 с.
[22] Климов, Г. П. Теория вероятностей и математическая статистика /
Г. П. Климов. – М. : Изд-во Моск. ун-та, 1983. – 328 с.
92
[23] Кнут, Д. Искусство программирования. Т. 3. Сортировка и поиск
/Д. Кнут. – М. : Вильямс, 2000. – 822 с.
[24] Козлов, М. В. Введение в математическую статистику : учеб. пособие
/ М. В. Козлов, А. В. Прохоров. – М. : МГУ, 1987. – 264 с.
[25] Коршунов, Д. А. Сборник задач и упражнений по математической
статистике : учеб. пособие / Д. А. Коршунов, Н. И. Чернова. – Новосибирск : Изд-во Ин-та математики, 2004. – 128 с.
[26] Крупкина, Т. В. Конспект лекций по теории вероятностей : учеб.
пособие / Т. В. Крупкина. – Красноярск : КрасГУ, 1996. – 87 с.
[27] Крупкина, Т. В. Теория вероятностей, математическая статистика и
эконометрика : учеб. пособие : в 2 кн. Кн. 1 / Т. В. Крупкина, А. К. Гречкосеев. – Красноярск : КрасГУ, 1999. – 216 с.
[28] Крупкина, Т. В. Теория вероятностей и математическая статистика
: учеб. пособие : в 2 ч. Ч. 1 / Т. В. Крупкина, В. П. Малый. – Красноярск
: КрасГУ, 1991. – 80 с.
[29] Леман, Э. Теория точечного оценивания / Э. Леман. – М. : Наука,
1991. – 448 с.
[30] Никитин, Я. Ю. Асимптотическая эффективность непараметрических критериев / Я. Ю. Никитин. – М. : Наука, 1995. – 240 с.
[31] Орлов, А. И. Экспертные оценки : учеб. пособие / А. И. Орлов. – М.
: ИВСТЭ, 2002. – 31 с.
[32] Орлов, А. И. Прикладная статистика : учебник / А. И. Орлов. – М. :
Экзамен, 2004. – 656 с.
[33] Пугачев, В. С. Теория вероятностей и математическая статистика :
учеб. пособие / В. С. Пугачев. – М. : ФИЗМАТЛИТ, 2002. – 496 с.
[34] Севастьянов, Б. А. Курс теории вероятностей и математической
статистики : учебник / Б. А. Севастьянов. – М. : Наука. Гл. ред. физ.мат. лит., 1982. – 255 с.
[35] Феллер, В. Введение в теорию вероятностей и ее приложения :
учебник : в 2 т. Т. 1 / В. Феллер . – 2-е изд., перераб. и доп. – М. : Мир,
1984. – 528 с.
93
[36] Ширяев, А. Н. Вероятность : учеб. пособие / А. Н. Ширяев. – М. :
Наука, 1989. – 610 с.
[37] Фихтенгольц, Г. М. Курс дифференциального и интегрального исчисления : в 3 томах / Г. М. Фихтенгольц. – М. : ФИЗМАТЛИТ, 2001.
(т. 1 – 616 с.; т. 2 – 810 с.; т. 3 – 662 с.)
[38] СТО 4.2-07-2008. Система менеджмента качества. Общие требования к построению, изложению и оформлению документов учебной и научной деятельности [Текст] / разраб. : Т. В. Сильченко,
Л. В. Белошапко, В. К. Младенцева, М. И. Губанова. – Введ. впервые
09.12.2008. – Красноярск : ИПК СФУ, 2008. – 47 с.
[39] Каталог лицензионных программных продуктов, используемых в
СФУ / сост. : А. В. Сарафанов, М. М. Торопов. – Красноярск : Сиб. федер. ун-т, 2008. – Вып. 1–4.
[40] Стандарт организации СТО СФУ 7.2.04-2007. Электронные образовательные ресурсы на базе гипертекстовых технологий со встроенной системой компьютерной проверки знаний тестированием. Требования к структуре, организации и интерфейсу / разраб. : К. Н. Захарьин,
А. В. Сарафанов, А. Г. Суковатый и др. – Красноярск : Сиб. федер. ун-т,
2007. Утвержден и введен в действие приказом ректора СФУ № 659 от
15.11.2007 г.
[41] Захарьин, К. Н. Электронные презентационные материалы /
А. В. Сарафанов, К. Н. Захарьин, А. Г. Суковатый. – Красноярск, 2008.
[42] Учебно-методические комплексы дисциплин. Основные компоненты : метод. рекомендации / сост. : Л. И. Вейсова, С. И. Почекутов,
А. В. Сарафанов, А. Ю. Смолин. – Красноярск : ИПК СФУ, 2008. – 12 с.
[43] Каталог инновационных учебно-методических комплексов дисциплин и электронных ресурсов / сост. : К. Н. Захарьин, А. В. Сарафанов, А. Г. Суковатый, А. С. Теремов, М. В. Шипова. – Красноярск : ИПК
СФУ, 2008. – Вып. 1. – 298 с.
Электронные и интернет-ресурсы
[44] Унифицированная система компьютерной проверки знаний тестированием UniTest версии 3.0.0 : руководство пользователя /
А. Н. Шниперов, Б. М. Бидус. – Красноярск, 2008.
94
[45] Математическая статистика. [Электронный ресурс] : электрон.
учеб.-метод. комплекс по дисциплине / Т. В. Крупкина, А. К. Гречкосеев.
– Красноярск : ИПК СФУ, 2009. – (Математическая статистика : УМКД
№ 1455-2008 / рук. творч. коллектива Т. В. Крупкина).
[46] Математическая статистика. Банк тестовых заданий. Версия
1.0 [Электронный ресурс] : контрольно-измерительные материалы /
Т. В. Крупкина, Е. С. Кирик, Г. А. Федоров. – Красноярск : ИПК СФУ,
2009. – (Математическая статистика : УМКД № 1455-2008 / рук. творч.
коллектива Т. В. Крупкина).
[47] Чернова, Н. И. Лекции по математической статистике : учеб. пособие / Н. И. Чернова. – Новосибирск : НГУ, 2002 (Internet).
Перечень наглядных и других пособий, методических
указаний и материалов по техническим средствам
обучения
[48] Математическая статистика. Презентационные материалы. Версия
1.0 [Электронный ресурс] : наглядное пособие /Т. В. Крупкина,
А. К. Гречкосеев. – Красноярск: ИПК СФУ, 2009. – (Математическая
статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина).
[49] Интерактивные технические средства обучения: практическое руководство / сост. : А. Г. Суковатый, К. Н. Захарьин, А. В. Казанцев,
А. В. Сарафанов. – Красноярск : ИПК СФУ, 2009. – 84 с.
95
Таблица 3
1
2
Значения функции ϕ (x) = √ e−x /2
2π
x
0, 0
0, 1
0, 2
0, 3
0, 4
0, 5
0, 6
0, 7
0, 8
0, 9
1, 0
1, 1
1, 2
1, 3
1, 4
1, 5
1, 6
1, 7
1, 8
1, 9
2, 0
2, 1
2, 2
2, 3
2, 4
2, 5
2, 6
2, 7
2, 8
2, 9
3, 0
x
3
0
39894
39695
39104
38139
36827
35207
33322
31225
28969
26609
24197
21785
19419
17137
14973
12952
11092
09405
07895
06562
05399
04398
03548
02833
02240
01753
01358
01042
00792
00595
00443
1
39892
39654
39024
38023
36678
35029
33121
31006
28737
26369
23955
21546
19186
16915
14764
12758
10915
09246
07754
06438
05292
04307
03470
02768
02186
01710
01323
01014
00770
00578
00430
2
39886
39608
38940
37903
36526
34849
32918
30785
28504
26129
23713
21307
18954
16694
14556
12566
10741
09089
07614
06316
05186
04217
03394
02705
02134
01667
01289
00987
00748
00562
00417
3
39876
39559
38853
37780
36371
34667
32713
30563
28269
25888
23471
21069
18724
16474
14350
12376
10567
08933
07477
06195
05082
04128
03319
02643
02083
01625
01256
00961
00727
00545
00405
0
1
2
3
00443 00327 00238 00172
Сотые доли x
4
5
39862 39844
39505 39448
38762 38667
37654 37524
36213 36053
34482 34294
32506 32297
30339 30114
28034 27798
25647 25406
23230 22988
20831 20594
18494 18265
16256 16038
14146 13943
12188 12001
10396 10226
08780 08628
07341 07207
06077 05960
04980 04879
04041 03955
03246 03174
02582 02522
02033 01984
01585 01545
01223 01191
00935 00910
00707 00687
00530 00514
00393 00381
Десятые доли x
4
5
00123 00084
6
39822
39387
38568
37391
35889
34105
32086
29887
27562
25164
22747
20357
18037
15822
13742
11816
10059
08478
07074
05844
04780
03871
03103
02463
01936
01506
01160
00885
00668
00499
00370
7
39797
39322
38466
37255
35723
33912
31874
29659
27324
24923
22506
20121
17810
15608
13542
11632
09893
08330
06943
05730
04682
03788
03034
02406
01889
01468
01130
00861
00649
00485
00358
8
39767
39253
38361
37115
35553
33718
31659
29431
27086
24681
22265
19886
17585
15395
13344
11450
09728
08183
06814
05618
04586
03706
02966
02349
01842
01431
01100
00837
00631
00471
00348
9
39733
39181
38251
36973
35381
33521
31443
29200
26848
24439
22025
19652
17360
15183
13147
11270
09566
08038
06687
05508
04492
03626
02899
02294
01797
01394
01071
00814
00613
00457
00337
6
7
8
9
00061 00043 00029 00020
Замечание. В таблице даны значения, округленные до пятого знака после запятой.
Указание. Пусть необходимо получить значение ϕ (0, 62). На пересечении столбца 2 («Сотые доли x») и строки 0, 6 («x») получаем значение 32 918, то есть
ϕ (0, 62) = 0, 32918.
96
Таблица 4
Zx
x
0, 0
0, 1
0, 2
0, 3
0, 4
0, 5
0, 6
0, 7
0, 8
0, 9
1, 0
1, 1
1, 2
1, 3
1, 4
1, 5
1, 6
1, 7
1, 8
1, 9
2, 0
2, 1
2, 2
2, 3
2, 4
2, 5
2, 6
2, 7
2, 8
2, 9
3, 0
x
3
0
0, 0000
03983
07920
11791
15542
19146
22575
25804
28814
31594
34134
36433
38493
40320
41924
43319
44520
45543
46407
47128
47725
48214
48610
48928
49180
49379
49535
49653
49744
49813
49865
1
00399
04380
08317
12172
15910
19497
22907
26115
29103
31859
34375
36650
38686
40490
42073
43447
44630
45637
46485
47193
47778
48257
48645
48956
49202
49396
49547
49664
49752
49819
49869
0
49865
1
49903
1
2
e−t /2 dt
Значения функции Φ0 (x) = √
2π
0
Сотые доли x
2
3
4
5
6
7
00798 01197 01595 01994 02392 02790
04776 05117 05567 05962 06356 06749
08700 09095 09483 09871 10257 10642
12552 12930 13307 13683 14058 14431
16276 16640 17003 17365 17724 18082
19847 20194 20540 20884 21226 21566
23237 23565 23891 24215 24537 24857
26424 26731 27035 27337 27637 27935
29389 29673 29955 30234 30511 30785
32121 32381 32639 32894 33147 33398
34614 34850 35083 35314 35543 35769
36864 37076 37286 37493 37698 37900
38877 39065 39251 39435 39617 39796
40658 40824 40988 41149 41309 41466
42220 42634 42507 42647 42786 42922
43574 43699 43822 43943 44062 44179
44738 44845 44950 45053 45154 45254
45728 45819 45907 45994 46080 46164
46562 46638 46712 46784 46856 46926
47257 47320 47381 47441 47500 47558
47831 47882 47932 47982 48030 48077
48300 48341 48382 48422 48461 48499
48679 48713 48745 48778 48809 48839
48983 49010 49036 49061 49086 49111
49224 49245 49266 49286 49305 49324
49413 49430 49446 49461 49477 49491
49560 49573 49586 49598 49609 49621
49674 49683 49693 49702 49711 49720
49760 49767 49774 49781 49788 49795
49825 49830 49836 49841 49846 49851
49874 49878 49882 49886 49889 49893
Десятые доли x
2
3
4
5
6
7
49931 49952 49966 49977 49984 49989
97
8
03188
07142
11026
14803
18439
21904
25175
28230
31057
33646
35993
38100
39973
41621
43056
44295
45352
46246
46995
47615
48124
48537
48870
49134
49343
49506
49632
49728
49801
49856
49897
9
03586
07535
11409
15173
18793
22241
25490
28524
31328
33891
36214
38298
40148
41774
43189
44408
45449
46327
47062
47671
48169
48574
48899
49158
49361
49520
49643
49737
49807
49861
49899
8
9
49993 49995
98
5686
3106
9359
2057
6177
7707
6751
2651
6607
2362
2213
8361
2598
3915
4138
1727
6131
0114
9953
0159
2200
2104
4215
9375
1271
0762
2755
3047
4022
9051
0480
2428
8481
9849
2673
9380
2901
0453
0774
4662
1426
9635
2369
9275
5470
4545
7562
1429
3080
4901
6540
5764
2557
7899
0919
9902
2399
3918
7592
3032
7788
0802
0405
7058
8140
2118
4452
0447
0122
8535
3275
3519
7804
7155
3461
2623
2350
4244
5112
5957
1650
2902
5011
1125
2109
4886
4865
8024
4841
0754
8112
9029
0521
7888
5528
6489
9755
9965
7310
2377
4318
3603
2580
4114
4971
8745
2304
2373
4874
1033
0477
6377
4863
9745
6623
6411
4690
2660
4398
7366
7106
9213
5003
6553
5676
2462
0848
5513
5329
5937
4867
0528
9567
1127
1022
3458
1133
1631
3586
3341
8857
0486
0046
4625
3532
6247
6470
2820
0748
9750
2475
9383
5206
3665
7496
7126
0731
5023
3278
6981
9839
8784
0221
8185
1683
5978
6430
8907
0122
0414
7103
0695
8555
5763
0434
9721
Случайные числа
1297
1021
8446
3502
0500
1972
6641
0605
3844
5896
6269
5266
5679
5282
0820
7197
3262
5727
8172
8004
3845
6339
3594
4070
2302
2436
7573
4269
0404
4640
1823
3985
1120
7521
5041
1106
2140
3854
5182
7577
1376
8602
0659
3377
1020
4488
8433
6435
7426
0022
0735
8692
4407
3105
5436
8488
2108
9223
5291
2940
1185
8631
3459
2457
0499
3780
3531
2365
3299
2646
3188
3860
0888
7712
5914
7210
8921
6854
1813
5629
8499
3500
1493
0759
6778
9134
3671
0366
4296
9633
5987
0295
0187
1580
3504
9832
7545
5375
6457
9203
4235
6982
3653
8685
3425
5430
6917
0099
2771
4746
Таблица 5
Таблица 6
Значения квантилей распределения Стьюдента Tn
n/α
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
18
20
22
25
27
30
40
50
70
100
∞
0,95
2,92
2,35
2,13
2,02
1,94
1,90
1,86
1,83
1,81
1,80
1,78
1,77
1,76
1,75
1,75
1,73
1,73
1,72
1,71
1,70
1,70
1,68
1,68
1,67
1,66
1,65
0,975
4,30
3,18
2,78
2,57
2,45
2,37
2,31
2,26
2,23
2,20
2,18
2,16
2,15
2,13
2,12
2,10
2,09
2,07
2,06
2,06
2,04
2,02
2,00
1,99
1,98
1,96
0,99
6,97
4,54
3,75
3,37
3,14
3,00
2,90
2,82
2,76
2,72
2,68
2,65
2,62
2,60
2,58
2,55
2,53
2,51
2,49
2,48
2,46
2,42
2,40
2,38
2,36
2,33
0,995
9,52
5,84
4,60
4,03
3,71
3,50
3,36
3,25
3,17
3,11
3,06
3,01
2,98
2,95
2,92
2,88
2,85
2,82
2,79
2,77
2,75
2,70
2,68
2,65
2,63
2,58
Указание. Пусть необходимо получить значение квантили распределения Стьюдента T9 порядка α = 0, 95. На пересечении столбца 0, 95 (порядок «α») и строки 9
(число степеней свободы «n») находим значение 1, 83, то есть
t9;0,95 = 1, 83.
Замечание. В силу симметричности распределения Стьюдента tn;1−α = −tn;α .
99
Таблица 7
Значения квантилей распределения χ2n
n/α
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
40
60
80
100
0,01
0,000
0,020
0,115
0,297
0,554
0,872
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,01
7,637
8,26
11,52
14,95
22,16
37,48
53,54
70,06
0,05
0,004
0,103
0,352
0,711
1,15
1,64
2,17
2,73
3,33
3,94
4,57
5,23
5,89
6,57
7,26
7,96
8,67
9,39
10,12
10,85
14,62
10,85
26,51
43,19
60,39
95,70
0,10
0,016
0,211
0,584
1,064
1,61
2,20
2,83
3,49
4,17
4,87
5,58
6,30
7,04
7,79
8,55
9,31
10,09
10,86
11,65
12,44
14,62
18,49
29,05
46,46
64,28
100,62
0,90
2,71
4,61
6,25
7,78
9,24
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
34,38
40,26
51,81
74,40
96,58
140,23
0,95
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
37,65
43,77
55,76
79,08
101,88
146,57
0,99
6,63
9,21
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
44,31
50,89
63,69
88,38
112,33
158,95
Указание. Пусть необходимо получить значение квантили распределения χ210 порядка α = 0, 95. На пересечении столбца 0, 95 (порядок «α») и строки 10 (число
степеней свободы «n») находим значение 18, 31, то есть
χ210;0,95 = 18, 31.
100
Таблица 8
Значения квантилей распределения F порядка α = 0, 01
n2 /n1
1
2
3
4
5
6
7
8
9
10
11
12
1
4052
98,5
34,1
21,2
16,3
13,8
12,3
11,3
10,6
10,0
9,9
9,3
2
4999
99,0
30,8
18,0
13,3
11,0
9,6
8,7
8,0
7,6
7,2
6,9
3
5403
99,2
29,5
16,7
12,1
9,8
8,5
7,6
7,0
6,6
6,2
6,0
4
5625
99,25
28,7
16,0
11,4
9,2
7,9
7,0
6,4
6,0
5,7
5,4
5
5764
99,3
28,2
15,5
11,0
8,8
7,5
6,6
6,1
5,6
5,3
5,1
6
5889
99,33
27,9
15,2
10,7
8,5
7,2
6,4
5,8
5,4
5,1
4,8
7
5928
99,34
27,7
15,0
10,5
8,3
7,0
6,2
5,6
5,2
4,9
4,7
8
5981
99,36
27,5
14,8
10,3
8,1
6,8
6,0
5,5
5,1
4,7
4,5
9
6022
99,38
27,3
14,7
10,2
8,0
6,7
5,9
5,4
5,0
4,6
4,4
10
6054
99,4
27,2
14,5
10,1
7,9
6,6
5,8
5,3
4,9
4,5
4,3
Таблица 9
Значения квантилей распределения F порядка α = 0, 05
n2 /n1
1
2
3
4
5
6
7
8
9
10
11
12
1
161
18,5
10,1
7,7
6,6
6,0
5,6
5,3
5,1
5,0
4,8
4,75
2
200
19,0
9,6
7,0
5,8
5,1
4,7
4,5
4,3
4,1
4,0
3,9
3
216
19,2
9,3
6,6
5,4
4,8
4,4
4,1
3,9
3,7
3,6
3,5
4
225
19,25
9,1
6,4
5,2
4,5
4,1
3,8
3,6
3,5
3,4
3,3
5
230
19,3
9,0
6,3
5,1
,4
4,0
3,7
3,5
3,3
3,2
3,1
6
234
19,33
8,94
6,2
5,0
4,3
3,9
3,6
3,4
3,2
3,1
3,0
7
237
19,36
8,88
6,1
4,9
4,2
3,8
3,5
3,3
3,1
3,0
2,9
8
239
19,37
8,84
6,04
4,8
4,15
3,7
3,44
3,2
3,07
2,95
2,85
9
241
19,38
8,81
6,0
4,78
4,1
3,68
3,4
3,18
3,02
2,9
2,8
10
242
19,38
8,78
5,96
4,74
4,06
3,63
3,34
3,13
2,97
2,86
2,76
Указание. Пусть необходимо получить значение квантили распределения F10,12
порядка α = 0, 05. На пересечении столбца 10 (число степеней свободы «n1 ») и
строки 12 (число степеней свободы «n2 ») находим значение 2, 76, то есть
F10,12;0,95 = 2, 76.
101
102
n1 /n2
4
6
9
12
15
18
21
24
27
30
33
36
39
42
45
48
51
54
57
60
4
6
9
1
3
5
6 12 21
9 17 30
12 23 39
16 28 48
19 34 57
22 39 66
25 45 75
28 50 85
31 56 94
35 61 103
38 67 112
41 72 121
44 78 131
47 83 140
50 89 149
53 94 158
57 100 167
60 105 177
15
72
88
105
122
139
156
173
189
206
223
240
257
274
291
308
325
12
42
55
68
81
94
107
120
133
146
159
172
185
198
211
224
237
250
109
130
150
171
192
213
233
254
275
296
317
338
359
379
400
18
154
179
203
228
253
278
302
327
352
377
402
427
451
476
21
207
236
265
293
322
351
380
408
437
466
495
524
553
24
268
301
334
367
399
432
465
498
531
564
597
630
27
338
374
411
448
485
522
559
596
633
670
707
30
415
456
497
538
579
620
661
702
743
784
33
501
546
591
636
681
726
771
816
862
36
42
45
48
595
644 697
693 750 808
742 804 865 927
791 857 922 988
841 910 980 1050
890 964 1037 1111
939 1017 1095 1199
39
54
57
60
1054
1119 1189
1185 1259 1333
1251 1329 1407 1486
51
Критические значения критерия U Манна-Уитни при уровне значимости α = 0, 05
Таблица 10
Оглавление
Предисловие . . . . . . . . . . . . . . . . . . . . . . . .
Принятые обозначения и сокращения . . . . . . . . . .
§ 1. Статистические модели . . . . . . . . . . . . . . . .
§ 2. Выборочные характеристики . . . . . . . . . . . . .
§ 3. Группировка выборки. Графические характеристики
§ 4. Распределения χ2 , Стьюдента, Фишера . . . . . . .
§ 5. Распределения выборочных характеристик . . . . .
§ 6. Несмещенные и состоятельные оценки . . . . . . .
§ 7. Эффективные оценки . . . . . . . . . . . . . . . . .
§ 8. Методы нахождения оценок . . . . . . . . . . . . .
§ 9. Экспоненциальное семейство . . . . . . . . . . . .
§ 10. Достаточные статистики . . . . . . . . . . . . . . .
§ 11. Доверительные интервалы . . . . . . . . . . . . .
§ 12. Статистические гипотезы . . . . . . . . . . . . . .
§ 13. Проверка параметрических гипотез . . . . . . . .
§ 14. Непараметрические критерии . . . . . . . . . . . .
§ 15. Модель линейной регрессии . . . . . . . . . . . .
Список литературы . . . . . . . . . . . . . . . . . . . .
Приложение . . . . . . . . . . . . . . . . . . . . . . . .
Оглавление . . . . . . . . . . . . . . . . . . . . . . . . .
103
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
.
5
.
6
. 13
. 21
. 29
. 33
. 38
. 43
. 46
. 50
. 53
. 57
. 63
. 70
. 76
. 82
. 91
. 96
. 103
Учебное издание
Татьяна Валерьевна Крупкина
Александр Кузьмич Гречкосеев
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА В ПРИМЕРАХ И ЗАДАЧАХ
Практикум по решению задач
Редактор Н. Ф. Ткачук
Компьютерная верстка: М. С. Селезнев
Подписано в печать. Печать плоская.
Формат 60×84/16. Бумага офсетная. Усл. печ. л.
Тираж экз. Заказ
Издательско-полиграфический комплекс
Сибирского федерального университета
660041, г. Красноярск, пр. Свободный, 82 а
Download