тема 1. основы выборочного метода и элементы статистический

advertisement
ТЕМА 1. ОСНОВЫ ВЫБОРОЧНОГО МЕТОДА И ЭЛЕМЕНТЫ
СТАТИСТИЧЕСКИЙ ТЕОРИИ ОЦЕНИВАНИЯ
Лекция 1. Основные понятия математической статистики.
Вариационные ряды
Математическая статистика – раздел математики, изучающий
методы сбора, систематизации и обработки наблюдений с целью выявления
статистических закономерностей.
Генеральной совокупностью называется вся подлежащая изучению
совокупность объектов (наблюдений). Выборочной совокупностью, или
просто выборкой, называется совокупность случайно отобранных из
генеральной совокупности объектов.
Объемом совокупности (выборочной или генеральной) называется
число объектов в этой совокупности.
Различные наблюдаемые значения
признака называют вариантами (обозначаются хi). Числа, показывающие,
сколько раз встречаются варианты в совокупности, называются частотами
(обозначаются ni). Тогда объем выборки можно определить как n=∑ni.
Отношение частот к объему выборки wi=ni/n называют относительными
частотами. Последовательность вариант, записанных в порядке возрастания
или убывания с соответствующими им частотами (или относительными
частотами) называется вариационным рядом. Вариационный ряд называется
дискретным, если любые его варианты отличаются на постоянную
величину, и непрерывным (интервальным), если его значения могут
отличаться одно от другого на сколь угодно малую величину.
Группировка состоит в том, что область на оси x, куда попали значения
x1,...,xn, разбивают на интервалы I1,...,Ik и подсчитывают частоту попадания
значений величины в каждый интервал. Проще всего взять интервалы
одинаковой длины. Число интервалов k следует брать не очень большим,
чтобы после группировки ряд не был громоздким, и не очень малым, чтобы
не потерять особенности распределения признака. Обычно берут от 6 до 11
интервалов. Согласно формуле Серджеса рекомендуемое число интервалов
k = 1 + 3,322 lg n.
(1.1)
Величину интервала h можно вычислить по формуле
h
x m ax  x m in
,
1  3,322 lg n
(1.2)
где xmax – xmin – разность между наибольшим и наименьшим значением
в выборке (ее размах).
За начало первого интервала рекомендуется брать величину
хнач = xmin – 0,5h.
(1.3)
Для наглядности представления вариационного ряда строят различные
графики
статистического
распределения,
в
частности,
полигон
и
гистограмму. Полигон, как правило, служит для изображения дискретного
вариационного ряда, и представляет
собой ломаную, в которой концы
отрезков имеют координаты (xi, ni) или (xi, wi). Гистограмма служит для
изображения интервальных вариационных рядов и представляет
ступенчатую
фигуру
из
прямоугольников
интервалам значений признака (x
i–1,
с
основаниями,
собой
равными
xi), и высотами, равными частотам ni
(или относительным частотам wi) интервалов. Если соединить середины
верхних оснований прямоугольников отрезками прямой, то можно получить
полигон того же распределения.
Числовые характеристики выборки.
Средней величиной называют показатель, который характеризует
обобщенное значение признака или группы признаков в исследуемой
совокупности.
Среднее линейное отклонение 𝑑̅ вычисляют для того, чтобы учесть
различия всех единиц исследуемой совокупности. Эта величина определяется
как средняя арифметическая из абсолютных значений отклонений от
средней.
Дисперсия - средний квадрат отклонений индивидуальных значений
признака от его средней величины.
Для
вычисления
среднего
значения
выборки
и
дисперсии
интервальную таблицу выборки заменяют на дискретную. В качестве
принимаемых значений указывают середины интервалов группировки. В
таблице 1 приведены формулы, по которым в зависимости от описания
данных выборки вычисляются среднее значение и разброс выборки.
Таблица 1
Среднее значение
выборки x
Среднее линейное
отклонение 𝑑̅
Вариационный
ряд задан
последовательностью
1 n
 xi
n i1
𝑑̅ =
Среднее
1 n
 x i  x  
n i 1

1 k
 x jm j
n i 1
∑|𝑥𝑖 − 𝑥̅ |
𝑛
2
Дисперсия
(разброс)
выборки S 2
Задана таблица частот
вариационного ряда
1 n 2
xi  x2

n i 1
квадратическое
𝑑̅ =
∑|𝑥𝑖 − 𝑥̅ | 𝑚𝑗
∑ 𝑚𝑗
1 k 2
 x j m j  x2 
n j1

Задана таблица
относительных частот
вариационного ряда
k
mj
xj

n
j1
𝑚
∑|𝑥𝑖 − 𝑥̅ | 𝑗
𝑛
𝑑̅ =
𝑚𝑗
∑
𝑛
k
m
j
x 2j
 x2 

n
j1
1 k
( x j  x )2 m i

n j1
отклонение
–
квадратный
  ( x j  x )2
k
mj
j1
n
корень
из
дисперсии.
Мода — это наиболее часто встречающийся вариант ряда. Модой для
дискретного ряда является варианта, обладающая наибольшей частотой. При
вычислении моды для интервального вариационного ряда необходимо
сначала определить модальный интервал (по максимальной частоте), а затем
— значение модальной величины признака по формуле:
𝑀0 = 𝑥0 + ℎ (𝑓
𝑓𝑚 −𝑓𝑚−1
𝑚 −𝑓𝑚−1 )+(𝑓𝑚 −𝑓𝑚+1 )
где: М0 — значение моды
x0 — нижняя граница модального интервала
h — величина интервала
fm — частота модального интервала
(1.4)
fm-1 — частота интервала, предшествующего модальному
fm+1 — частота интервала, следующего за модальным
Медиана — это значение признака, которое лежит в основе
ранжированного ряда и делит этот ряд на две равные по численности части.
Для дискретного вариационного ряда медиана ищется по формуле:
𝑥𝑛 +𝑥𝑛
2
𝑀𝑒 = {
2
+1
, если 𝑛 − четное
𝑥𝑛+1 , если 𝑛 − нечетное
2
(1.5)
2
При вычислении медианы для интервального вариационного ряда
сначала определяют медианный интервал, в пределах которого находится
медиана, а затем — значение медианы по формуле:
𝑀𝑒 = 𝑥0 + ℎ
∑ 𝑓𝑖
−𝑆𝑚−1
2
𝑓𝑚
,
(1.6)
где: Me — искомая медиана
x0 — нижняя граница интервала, который содержит медиану
h— величина интервала
∑ 𝑓𝑖 — сумма частот или число членов ряда
Sm-1 - сумма накопленных частот интервалов, предшествующих
медианному
fm — частота медианного интервала
ТЕМА 2. МЕТОДЫ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ
ГИПОТЕЗ
Лекция 2. Основные понятия теории проверки гипотез
Статистической гипотезой называется любое предположение о виде
неизвестного распределения или о параметрах закона распределения.
Выдвинутую гипотезу называют нулевой (основной) гипотезой Н0. Если
выдвинутая гипотеза Н0 будет отвергнута, то имеет место противоречащая
ей гипотеза Н1, которая называется конкурирующей (альтернативной).
Для проверки нулевой гипотезы используют специально подобранную
случайную величину (статистический критерий). После выбора критерия
множество всех его возможных значений разбивают на два подмножества:
одно из них содержит значения критерия, при которых нулевая гипотеза
отвергается (критическая область), а другое содержит те значения критерия,
при которых гипотеза принимается (область принятия гипотезы). Если
наблюдаемое значение критерия принадлежит критической области, то
нулевую гипотезу отвергают в пользу конкурирующей гипотезы; если
наблюдаемое значение критерия принадлежит области принятия гипотезы, то
нулевую гипотезу принимают.
Критическими
точками
Ккр
называют
точки,
отделяющие
критическую область от области принятия гипотезы.
ТЕМА 3. РЕГРЕССИОННЫЙ И КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Лекция 3. Выборочные уравнения регрессии
Зависимость между
переменными величинами, когда каждому
значению одной переменной может соответствовать множество значений
другой переменной,
статистической.
имеющее определенное
распределение, называется
Статистические связи между переменными изучаются
методами корреляционного и регрессионного анализа. Основной задачей
регрессионного анализа является
установление
формы и
изучение
зависимости между переменными, корреляционного анализа – выявление
связи
между
регрессионном
случайными
переменными
анализе
рассматривается
и
оценка
ее
зависимость
тесноты.
В
случайного
результативного признака y от неслучайных факторных признаков x1, x2, ...,
xn. В случае единственного факторного признака x различают следующие
виды регрессий: линейную, гиперболическую, показательную, степенную,
логарифмическую, параболическую и т.д. Предположим, что для оценки
параметров регрессии взята выборка, содержащая n пар значений (xi, yi), где i
= 1, 2, … , n. Оценкой предложенных выше уравнений регрессии являются
выборочные уравнения регрессии:
 линейное 𝑦̂ = 𝑎0 + 𝑎1 𝑥;
 гиперболическое 𝑦̂ = 𝑎0 +
𝑎1
𝑥
;
 показательное 𝑦̂ = 𝑎0 𝑎1𝑥 ;
 степенное 𝑦̂ = 𝑎0 𝑥 𝑎1 ;
 логарифмическое 𝑦̂ = 𝑎0 + 𝑎1 𝑙𝑛𝑥;
 параболическое 𝑦̂ = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2 ,
где
параметры
a0,
a1,
a2
являются
точечными
оценками
соответствующих параметров исходного уравнения и могут быть найдены на
основе метода наименьших квадратов.
Регрессионную модель удобно представлять графически. Для этого на
координатной плоскости откладываются точки Pi (xi, yi), (i = 1, 2, … , n) (рис.
4.1). Полученный график называется диаграммой рассеивания.
40
Y
35
30
25
20
15
10
5
0
-5 0
5
10
15
20
25
X
Рис. 4.1. Диаграмма рассеивания
Построив диаграмму рассеяния, можно подобрать вид уравнения
регрессии. На рис. 4.1 для одних и
построены
линейная
и
тех же экспериментальных точек
показательная
регрессии.
Видим,
что
экспериментальные точки располагаются ближе к линии 𝑦 = 𝑎0 𝑎1𝑥 , чем к
прямой. Следовательно, можно сделать вывод, что показательная регрессия
более адекватно описывает фактические данные, чем линейная.
Однако по графику можно только приближенно сделать вывод о
качестве той или иной модели. Для более точной оценки адекватности
(значимости) уравнения регрессии на уровне значимости
α вычисляют
наблюдаемое значение случайной величины
𝜎𝑦2 (𝑛−2)
𝐹набл =
2
𝜎ост
где остаточная дисперсия
,
(4.3)
2
𝜎ост
и дисперсия уравнения регрессии
𝜎𝑦2 находятся по формулам
2
𝜎ост
=
∑(𝑦𝑖 −𝑦̂𝑖 )2
𝑛−1
,
𝜎𝑦2
=
∑(𝑦̅−𝑦̂𝑖 )2
(4.4)
𝑛−1
Далее находим критическое значение критерия F(α, 1; n – 2) по
таблице критических точек распределения
Фишера (приложение 4) при
k1=1, k2 = n – 2 степенях свободы и уровне значимости α. Если Fнабл > F(α; 1; n
– 2), то уравнение регрессии признается значимым, в противном случае
уравнение
регрессии
подтверждается
признается
отсутствие
результативным признаком.
незначимым,
линейной
связи
т.е.
между
статистически
факторным
и
Download