Однофакторный непараметрический дисперсионный анализ

advertisement
Теория к занятию № 5 (лабораторная работа № 4)
Критерии различия (Стьюдента, Вилкоксона и т.п.) позволяют сравнить
среднее для двух выборок. Поэтому для сравнения средних более чем в двух
выборках используют
специально разработанный
метод, называемый
дисперсионным анализом.
При помощи дисперсионного анализа обычно решают вопрос о влиянии одного
(однофакторный дисперсионный анализ) или нескольких (многофакторный
дисперсионный анализ) факторов на значение изучаемого признака.
При этом рассматривается нулевая гипотеза: фактор не влияет на признак,
средние выборок принадлежат одной генеральной совокупности. Если нулевая
гипотеза отвергается при уровне значимости , то с доверительной вероятностью
1- можно сделать вывод, что фактор влияет на признак.
В случае, если есть основания считать выборки нормально
распределенными (т.е. соответствуют закону нормального распределения) , а
их дисперсии одинаковыми, выполняется собственно дисперсионный анализ,
использующий F-критерий Фишера (параметрический).
Гипотеза о равенстве дисперсий отвергается, если отношение большей
дисперсии к меньшей больше критического значения распределения Фишера
S12
F  2 , S12  S 22 ; F  Fкрит ,
S2
где Fкрит определяется из таблиц закона Фишера по доверительной
вероятности 1- и степеням свободы k1=n1-1 и k2=n2-1 (где n1 – объем
большей выборки).
В Excel критическое значение критерия Фишера можно рассчитать при
помощи функции
FРАСПОБР(вероятность;степени_свободы1;степени_свободы2).
Если возможность применения F-критерия все же вызывает сомнения, следует
использовать непараметрические аналоги дисперсионного анализа, например
критерий Краскала-Уоллиса.
Однофакторный (параметрический) дисперсионный анализ
При равномерном однофакторном дисперсионном анализе число замеров
значений изучаемого признака на разных уровнях (при разных значениях)
факторного признака одинаковое. Данные замеров сводятся в таблицу:
Таблица 4.1. Данные для равномерного однофакторного дисперсионного
анализа
Номер измерения
Уровень фактора
A1
A2
…
Ap
1
x11
x12
…
x1p
2
x21
x22
…
x2p
…
…
…
…
…
q
xq1
xq2
…
xqp
Групповые средние
…
xг р
xг р
xг р
1
2
p
По этим данным рассчитываются следующие статистики:
1) Общая сумма квадратов отклонений наблюдаемых значений признака от общей
средней x
p q
Cобщ    ( xij  x )2 ;
j 1 i 1
факторная (межгрупповая) сумма квадратов отклонений групповых средних от
общей средней, характеризующая рассеяние между группами:
p
Cфакт  q  ( xгр j  x )2 ;
j 1
остаточная (групповая) сумма квадратов отклонений наблюдаемых значений от
своей групповой средней, характеризующая рассеяние внутри групп:
Cост  Собщ  Сфакт .
2) общая, факторная и остаточная дисперсии:
2
2
2
 Cост p(q  1) ;
Sобщ
 Cобщ ( pq  1) ; Sфакт
 Cфакт ( p  1) ; Sост
3) значение критерия Фишера:
2
2
.
F  Sфакт
Sост
Значение критерия Фишера сравнивается с критическим для заданного уровня
значимости α и числа степеней свободы k1 = p – 1 и k2 = p(q – 1). Если F>Fкр, то
гипотеза об отсутствии влияния фактора на признак отвергается с доверительной
вероятностью 1- α.
При неравномерном однофакторном дисперсионном анализе число измерений
изучаемого признака на разных уровнях факторного признака различно.
Обозначим qj – количество измерений на уровне Aj. Тогда:
1) Cобщ   P1  P2  ...  Pp   ( R1  R2  ...  R p )2 n  ,


qj
где Pj 
x ,
Cфакт 
( R12

i 1
2
ij
qj
R j   xij , n  q1  q2  ...  q p ;
i 1
q1)  ( R22
q2 )  ...  ( R 2p q p )   ( R1  R2  ...  R p ) 2 n  ;
Cост  Собщ  Сфакт .
2
2
2
2) Sобщ
 Cост (n  p) .
 Cобщ (n  1) ; Sфакт
 Cфакт ( p  1) ; Sост
2
2
3) F  Sфакт
;
Sост
k1 = p – 1 и k2 = n – p.
В таблицах Excel для проведения однофакторного равномерного или
неравномерного дисперсионного анализа организуются вычисления по
приведенным формулам с использованием функций СРЗНАЧ, СУММ, СУММКВ.
Критическое значение критерия Фишера вычисляется при помощи функции
FРАСПОБР.
Однофакторный непараметрический дисперсионный анализ
Однофакторный непараметрический дисперсионный анализ производится при
помощи критерия Краскала-Уоллиса.
Для применения критерия Краскала-Уоллиса следует проранжировать
совмещенную выборку (из всех измерений при различных уровнях фактора);
обозначим ранг i-го элемента выборки на j-м уровне фактора di j . Далее находят
суммы рангов R1,…,Rp для каждого уровня фактора:
qi
Ri   di j
j 1
При отсутствии связанных рангов статистика критерия Краскала-Уоллиса имеет
вид:
Rp2 
12  R12
H
 ... 

  3(n  1)
n(n  1)  q1
q p 
При наличии связанных рангов используют модифицированную статистику:
H* 
H
1 k 3
1 3
 (ti  ti )
n  n i 1
, где ti – число элементов в i-й связке, k – число
связок.
Нулевая гипотеза (об отсутствии влияния фактора на признак) отклоняется,
если рассчитанное значение критерия превышает критическое H для заданного
уровня значимости. Для малых выборок (p5, qi8) критические значения критерия
Краскала-Уоллиса определяются по таблицам. При достаточно большом объеме
выборки критическое значение определяется исходя из 2 распределения с p-1
степенями свободы. При организации вычислений в Excel для этого применяют
функцию ХИ2ОБР(;р-1).
Download