ДИСПЕРСИОННЫЙ АНАЛИЗ Постановка проблемы Дисперсионный анализ является статистическим методом анализа результатов наблюдений, зависящих от различных одновременно действующих факторов, с целью выбора наиболее значимых факторов и оценки их влияния на исследуемый процесс. Методами дисперсионного анализа устанавливается наличие влияния заданного фактора на изучаемый процесс (на выходную переменную процесса) за счёт статистической обработки наблюдаемой совокупности выборочных данных. Однофакторный дисперсионный анализ Предположим, что анализируется влияние на случайную величину X фактора A, изучаемого на k уровнях (A1, A2,…, Ak). На каждом уровне Ai проведены n наблюдений (xi1, xi2,…,xin) случайной величины X. Расположим экспериментальные данные в виде таблицы Номер наблюдения Уровни фактора A A1 A2 … Ai … Ak 1 x11 x21 … xi1 … xk1 2 x12 x22 … xi2 … xk2 …. … … … … … … j x1j x2j … xij … xkj … … … … … … … n x1n X2n … xin … xkn Σ X1 X2 … Xi … Xn Однофакторный дисперсионный анализ Рассмотрим оценки различных дисперсий, возникающие при анализе таблицы результатов наблюдений. Для оценки дисперсии, характеризующей изменение данных на уровне Ai (по строкам таблицы), имеем: 2 n n 1 1 1 2 2 2 xij xij . Si ( xij xi ) n 1 j 1 n 1 j 1 n j 1 n Из предпосылок дисперсионного анализа следует, что должно иметь место равенство всех дисперсий. При выполнении этого условия находим оценку дисперсии, характеризующей рассеяние значений xij вне влияния фактора A, по формуле: 2 k n k n 1 1 1 1 2 2 2 2 xij xij S 0 Si ( xij xi ) k i 1 k (n 1) i 1 j 1 k (n 1) i 1 j 1 n i 1 j 1 k k n Однофакторный дисперсионный анализ Для упрощения вычислений приведем Вычисляем последовательно суммы: k n Q1 i 1 j 1 2 S0 2 xij Q1 Q2 k (n 1) k 1 2 Q2 X i n i 1 2 SA алгоритм их выполнения. 1 Q3 X i kn i 1 k 2 Q2 Q3 k 1 Сравниваем S A2 и S02 устанавливаем наличие влияния фактора A. k (n 1) Q2 Q3 F [k 1; k (n 1)] , то влияние A – значимо. Если k 1 Q1 Q2 Двухфакторный дисперсионный анализ Рассмотренный ранее однофакторный дисперсионный анализ обладает информативностью, не большей, чем методы множественного сравнения средних. Информативность дисперсионного анализа возрастает при одновременном изучении влияния нескольких факторов. Рассмотрим случай, когда анализируется влияние одновременно двух факторов A и B. Двухфакторный дисперсионный анализ Пусть результаты таблицей: B эксперимента Уровни фактора A … Ai … представлены Ak Σ A1 A2 B1 x11 x21 … xi1 … xk1 X1’ B2 x12 x22 … xi2 … xk2 X2’ …. … … … … … … … Bj x1j x2j … xij … xkj Xj’ … … … … … … … … Bm x1n X2n … xin … xkn Xm’ Σ X1 X2 … Xi … Xn Двухфакторный дисперсионный анализ Дисперсионный анализ для двухфакторных таблиц проводится в следующей последовательности. Вычисляются суммы: k m Q1 i 1 j 1 2 xij 1 k 2 Q2 X i m i 1 1 m 2 Q3 X j k j 1 1 1 k X / Q4 Xi mk i 1 mk j 1 j k 2 Далее находятся оценки дисперсий: S0 2 Q1 Q4 Q2 Q3 (k 1)(m 1) SA 2 Q2 Q4 k 1 SB 2 Q3 Q4 m 1 2 Если SA Если S B2 F ( f1 , f 2 ) , то влияние фактора B признается значимым. 2 S0 2 S0 F ( f1, f 2 ) , то влияние фактора A признается значимым. 2 Двухфакторный дисперсионный анализ Приведенный анализ предполагает независимость факторов A и B. Если они зависимы, то взаимодействие факторов C=AB также является фактором, которому соответствует своя дисперсия. Для того чтобы выделить такое взаимодействие, необходимы параллельные наблюдения в каждой клетке таблицы, т.е. при каждом сочетании факторов A и B на уровнях Ai и Bj соответственно необходимо не одно наблюдение, а серия наблюдений. Для оценки влияния взаимодействия факторов AB вычисляем дополнительную сумму: k m n 2 Q5 xijv i 1 j 1 v 1 Далее анализ проводится, как и ранее, с той лишь разницей, что в клетках таблицы вместо отдельных значений используется их средние значения. Вычисляется оценка дисперсии и проверяется значимость взаимодействия факторов: 2 Q5 nQ1 2 nS0 S AB F ( f1 , f 2 ) f1 (k 1)(m 1) f 2 mk (n 1) 2 mk (n 1) S AB Планирование эксперимента при дисперсионном анализе Дисперсионный анализ тесно связан с соответствующим планированием эксперимента. Удачно спланированный эксперимент, выявляя все необходимые эффекты, оказывается всегда либо более точным, либо менее трудоемким по сравнению с непродуманным экспериментом. Если на результат эксперимента действуют одновременно несколько факторов, то наилучший эффект дает одновременный дисперсионный анализ всех этих факторов (многофакторный анализ). Методы дисперсионного анализа позволяют исследовать и такой случай, когда некоторые сочетания уровней пропущены. Такой эксперимент называется дробным факторным экспериментом (ДФЭ). Планирование при ДФЭ приобретает особо важную роль, ибо пропущенные сочетания уровней не так-то просто нейтрализовать. Планирование эксперимента при дисперсионном анализе Такие способы планирования существуют и притом не единственные; согласно Фишеру их называют латинскими квадратами. Эти расположения приводятся в специальных справочниках; для примера приведен один вид такого квадрата: A1 A2 … Ak-1 Ak B1 C1 C2 … Ck-1 Ck B2 C2 C3 … Ck C1 … … … … … … Bk-1 Ck-1 Ck … Ck-3 Ck-2 Bk Ck C1 … Ck-2 Ck-1 Планирование эксперимента при дисперсионном анализе k k Схема расчетов для латинского квадрата очень 2 Q1 xij похожа на обычный двухфакторный анализ: i 1 j 1 Находим сумму квадратов по столбцам, 1 k 2 Q2 X i k i 1 деленную на число наблюдений в столбце: Находим сумму квадратов итогов по строкам, 1 k 2 Q3 X j k j 1 деленную на число наблюдений в строке: 2 2 Находим квадрат общего итога, деленный на 1 k 1 k Q4 2 X i 2 X j число всех наблюдений: k i 1 k j 1 Находим сумму квадратов итогов по уровням 1 k 2 Q5 Y фактора C, деленную на число уровней: k 1 Планирование эксперимента при дисперсионном анализе Перейдем теперь к вычислению и оценке значимости дисперсий: S02 Q1 2Q4 Q2 Q3 Q5 (k 1)( k 2) SA Q Q4 Q2 Q4 2 , SB 3 k 1 k 1 2 Если отличие будет значимым, то SC 2 2 2 2 2 Q5 Q4 k 1 Если отличие будет значимым, то 2 2 S A S0 S S0 2 2 A, B B k k SC S 0 2 C k ВОПРОСЫ ?