Теория к занятию № 5 (лабораторная работа № 4) Критерии различия (Стьюдента, Вилкоксона и т.п.) позволяют сравнить среднее для двух выборок. Поэтому для сравнения средних более чем в двух выборках используют специально разработанный метод, называемый дисперсионным анализом. При помощи дисперсионного анализа обычно решают вопрос о влиянии одного (однофакторный дисперсионный анализ) или нескольких (многофакторный дисперсионный анализ) факторов на значение изучаемого признака. При этом рассматривается нулевая гипотеза: фактор не влияет на признак, средние выборок принадлежат одной генеральной совокупности. Если нулевая гипотеза отвергается при уровне значимости , то с доверительной вероятностью 1- можно сделать вывод, что фактор влияет на признак. В случае, если есть основания считать выборки нормально распределенными (т.е. соответствуют закону нормального распределения) , а их дисперсии одинаковыми, выполняется собственно дисперсионный анализ, использующий F-критерий Фишера (параметрический). Гипотеза о равенстве дисперсий отвергается, если отношение большей дисперсии к меньшей больше критического значения распределения Фишера S12 F 2 , S12 S 22 ; F Fкрит , S2 где Fкрит определяется из таблиц закона Фишера по доверительной вероятности 1- и степеням свободы k1=n1-1 и k2=n2-1 (где n1 – объем большей выборки). В Excel критическое значение критерия Фишера можно рассчитать при помощи функции FРАСПОБР(вероятность;степени_свободы1;степени_свободы2). Если возможность применения F-критерия все же вызывает сомнения, следует использовать непараметрические аналоги дисперсионного анализа, например критерий Краскала-Уоллиса. Однофакторный (параметрический) дисперсионный анализ При равномерном однофакторном дисперсионном анализе число замеров значений изучаемого признака на разных уровнях (при разных значениях) факторного признака одинаковое. Данные замеров сводятся в таблицу: Таблица 4.1. Данные для равномерного однофакторного дисперсионного анализа Номер измерения Уровень фактора A1 A2 … Ap 1 x11 x12 … x1p 2 x21 x22 … x2p … … … … … q xq1 xq2 … xqp Групповые средние … xг р xг р xг р 1 2 p По этим данным рассчитываются следующие статистики: 1) Общая сумма квадратов отклонений наблюдаемых значений признака от общей средней x p q Cобщ ( xij x )2 ; j 1 i 1 факторная (межгрупповая) сумма квадратов отклонений групповых средних от общей средней, характеризующая рассеяние между группами: p Cфакт q ( xгр j x )2 ; j 1 остаточная (групповая) сумма квадратов отклонений наблюдаемых значений от своей групповой средней, характеризующая рассеяние внутри групп: Cост Собщ Сфакт . 2) общая, факторная и остаточная дисперсии: 2 2 2 Cост p(q 1) ; Sобщ Cобщ ( pq 1) ; Sфакт Cфакт ( p 1) ; Sост 3) значение критерия Фишера: 2 2 . F Sфакт Sост Значение критерия Фишера сравнивается с критическим для заданного уровня значимости α и числа степеней свободы k1 = p – 1 и k2 = p(q – 1). Если F>Fкр, то гипотеза об отсутствии влияния фактора на признак отвергается с доверительной вероятностью 1- α. При неравномерном однофакторном дисперсионном анализе число измерений изучаемого признака на разных уровнях факторного признака различно. Обозначим qj – количество измерений на уровне Aj. Тогда: 1) Cобщ P1 P2 ... Pp ( R1 R2 ... R p )2 n , qj где Pj x , Cфакт ( R12 i 1 2 ij qj R j xij , n q1 q2 ... q p ; i 1 q1) ( R22 q2 ) ... ( R 2p q p ) ( R1 R2 ... R p ) 2 n ; Cост Собщ Сфакт . 2 2 2 2) Sобщ Cост (n p) . Cобщ (n 1) ; Sфакт Cфакт ( p 1) ; Sост 2 2 3) F Sфакт ; Sост k1 = p – 1 и k2 = n – p. В таблицах Excel для проведения однофакторного равномерного или неравномерного дисперсионного анализа организуются вычисления по приведенным формулам с использованием функций СРЗНАЧ, СУММ, СУММКВ. Критическое значение критерия Фишера вычисляется при помощи функции FРАСПОБР. Однофакторный непараметрический дисперсионный анализ Однофакторный непараметрический дисперсионный анализ производится при помощи критерия Краскала-Уоллиса. Для применения критерия Краскала-Уоллиса следует проранжировать совмещенную выборку (из всех измерений при различных уровнях фактора); обозначим ранг i-го элемента выборки на j-м уровне фактора di j . Далее находят суммы рангов R1,…,Rp для каждого уровня фактора: qi Ri di j j 1 При отсутствии связанных рангов статистика критерия Краскала-Уоллиса имеет вид: Rp2 12 R12 H ... 3(n 1) n(n 1) q1 q p При наличии связанных рангов используют модифицированную статистику: H* H 1 k 3 1 3 (ti ti ) n n i 1 , где ti – число элементов в i-й связке, k – число связок. Нулевая гипотеза (об отсутствии влияния фактора на признак) отклоняется, если рассчитанное значение критерия превышает критическое H для заданного уровня значимости. Для малых выборок (p5, qi8) критические значения критерия Краскала-Уоллиса определяются по таблицам. При достаточно большом объеме выборки критическое значение определяется исходя из 2 распределения с p-1 степенями свободы. При организации вычислений в Excel для этого применяют функцию ХИ2ОБР(;р-1).